#機器學習背後的二三事

上回介紹了「詞向量/詞嵌入(Word Vector/ Embedding)」這個新興的機器學習方法,它能藉由計算文章字詞間的向量距離,學習詞彙間的相對關係,更精確的解讀人類語言。

但也因為 #訓練資料中隱含了性別偏見,使得利用詞向量所分析出的詞彙關聯,亦展示了同樣的社會偏見。

例如,類推出「男性-醫師 vs 女性-護理師」、「男性-電腦工程師 vs 女性-家管」等這樣的詞彙組合,延續了社會對職業分工的性別偏見和歧視。

不過,到底要如何利用詞向量找出文字中的性別偏見呢?舉個台灣的例子來看看吧!

#從詞向量看台灣的性別偏見

清大資工系陳宜欣教授的研究團隊,便十分好奇台灣是否也有類似這樣的性別歧視。

為了解開謎底,他們蒐集了2016年8月至2018年1月間,台灣約2500個FB粉絲專頁中的近1100萬則貼文,嘗試利用詞向量,找出其中可能的性別偏見。

因應中文的使用習慣,研究使用「她」、「他」兩字詞,分別與工程師、科學家、醫生、家庭、家務等詞彙,進行詞向量的對比分析!   

#偏見in性別分工

研究結果顯示,在 #職業分工方面,台灣出現了類似國外研究中的性別偏見。

例如,若將「工程師」設定為男性,那麼和女性相關的對比詞有作業員、OL、人妻、富商等等;若將「醫生」設定為男性,和女性相關的詞則是護理師、護士、媽媽、醫師等詞。

而在團隊加碼分析的 #家庭分工方面,亦可由「她」、「他」各自對比出的相關字詞,看出其中隱含的性別偏見:男性去追求社會成就,而女性管好家庭生活就好?

例如,指定「家庭」為女性的話,男性的字詞有社會、子女、觀念、成就等等;但若指定「家庭」為男性的話,女性的字詞則是婚姻、丈夫、夫妻倆、生活等詞。

#知己知偏見才是王道!

從分析結果看來,台灣社會在職業分工上亦有男性職位較女性高階的性別刻板印象;而在家庭分工方面,則隱含了女主內、男主外的傳統性別偏見。

陳宜欣教授認為,#機器學習本身多是不帶成見的,是因為訓練資料所隱含的偏見,透過機器學習被具體地呈現出來了。

面對偏見大軍的無孔不入,我們除了研究如何消除機器學習中可能產生的偏見,更應該趁此機會 #與偏見面對面,藉由對偏見的認識,進而更加理解這個我們生存的社會!


想知道更多有趣的詞向量分析?點進來看看吧!

#性別與科技
#GIST
#文字中的性別偏見
#詞向量好有趣對...吧...

延伸閱讀:
AI歧視誰之過? 
AI與偏見的距離?


 ⇐前往較新一則貼文           前往較舊一則貼文⇒