如何用 #詞向量 找出性別偏見?
貼文日期:2019/06/08
貼文網址:https://www.facebook.com/TaiwanGIST/posts/2370730093187563
來源連結:陳宜欣(2019年5月14日)。〈文字中的性別偏見〉,《女科技人電子報》137期。
#機器學習背後的二三事
上回介紹了「詞向量/詞嵌入(Word Vector/ Embedding)」這個新興的機器學習方法,它能藉由計算文章字詞間的向量距離,學習詞彙間的相對關係,更精確的解讀人類語言。
但也因為 #訓練資料中隱含了性別偏見,使得利用詞向量所分析出的詞彙關聯,亦展示了同樣的社會偏見。
例如,類推出「男性-醫師 vs 女性-護理師」、「男性-電腦工程師 vs 女性-家管」等這樣的詞彙組合,延續了社會對職業分工的性別偏見和歧視。
不過,到底要如何利用詞向量找出文字中的性別偏見呢?舉個台灣的例子來看看吧!
#從詞向量看台灣的性別偏見
清大資工系陳宜欣教授的研究團隊,便十分好奇台灣是否也有類似這樣的性別歧視。
為了解開謎底,他們蒐集了2016年8月至2018年1月間,台灣約2500個FB粉絲專頁中的近1100萬則貼文,嘗試利用詞向量,找出其中可能的性別偏見。
因應中文的使用習慣,研究使用「她」、「他」兩字詞,分別與工程師、科學家、醫生、家庭、家務等詞彙,進行詞向量的對比分析!
#偏見in性別分工
研究結果顯示,在 #職業分工方面,台灣出現了類似國外研究中的性別偏見。
例如,若將「工程師」設定為男性,那麼和女性相關的對比詞有作業員、OL、人妻、富商等等;若將「醫生」設定為男性,和女性相關的詞則是護理師、護士、媽媽、醫師等詞。
而在團隊加碼分析的 #家庭分工方面,亦可由「她」、「他」各自對比出的相關字詞,看出其中隱含的性別偏見:男性去追求社會成就,而女性管好家庭生活就好?
例如,指定「家庭」為女性的話,男性的字詞有社會、子女、觀念、成就等等;但若指定「家庭」為男性的話,女性的字詞則是婚姻、丈夫、夫妻倆、生活等詞。
#知己知偏見才是王道!
從分析結果看來,台灣社會在職業分工上亦有男性職位較女性高階的性別刻板印象;而在家庭分工方面,則隱含了女主內、男主外的傳統性別偏見。
陳宜欣教授認為,#機器學習本身多是不帶成見的,是因為訓練資料所隱含的偏見,透過機器學習被具體地呈現出來了。
面對偏見大軍的無孔不入,我們除了研究如何消除機器學習中可能產生的偏見,更應該趁此機會 #與偏見面對面,藉由對偏見的認識,進而更加理解這個我們生存的社會!
想知道更多有趣的詞向量分析?點進來看看吧!
#性別與科技
#GIST
#文字中的性別偏見
#詞向量好有趣對...吧...