首頁 - GiST 性別科技

上回介紹了「詞向量/詞嵌入（Word Vector/ Embedding）」這個新興的機器學習方法，它能藉由計算文章字詞間的向量距離，學習詞彙間的相對關係，更精確的解讀人類語言。

但也因為 #訓練資料中隱含了性別偏見，使得利用詞向量所分析出的詞彙關聯，亦展示了同樣的社會偏見。

例如，類推出「男性-醫師 vs 女性-護理師」、「男性-電腦工程師 vs 女性-家管」等這樣的詞彙組合，延續了社會對職業分工的性別偏見和歧視。

不過，到底要如何利用詞向量找出文字中的性別偏見呢？舉個台灣的例子來看看吧！

清大資工系陳宜欣教授的研究團隊，便十分好奇台灣是否也有類似這樣的性別歧視。

為了解開謎底，他們蒐集了2016年8月至2018年1月間，台灣約2500個FB粉絲專頁中的近1100萬則貼文，嘗試利用詞向量，找出其中可能的性別偏見。

因應中文的使用習慣，研究使用「她」、「他」兩字詞，分別與工程師、科學家、醫生、家庭、家務等詞彙，進行詞向量的對比分析！　　　

研究結果顯示，在 #職業分工方面，台灣出現了類似國外研究中的性別偏見。

例如，若將「工程師」設定為男性，那麼和女性相關的對比詞有作業員、OL、人妻、富商等等；若將「醫生」設定為男性，和女性相關的詞則是護理師、護士、媽媽、醫師等詞。

而在團隊加碼分析的 #家庭分工方面，亦可由「她」、「他」各自對比出的相關字詞，看出其中隱含的性別偏見：男性去追求社會成就，而女性管好家庭生活就好？

例如，指定「家庭」為女性的話，男性的字詞有社會、子女、觀念、成就等等；但若指定「家庭」為男性的話，女性的字詞則是婚姻、丈夫、夫妻倆、生活等詞。

從分析結果看來，台灣社會在職業分工上亦有男性職位較女性高階的性別刻板印象；而在家庭分工方面，則隱含了女主內、男主外的傳統性別偏見。

陳宜欣教授認為，#機器學習本身多是不帶成見的，是因為訓練資料所隱含的偏見，透過機器學習被具體地呈現出來了。

面對偏見大軍的無孔不入，我們除了研究如何消除機器學習中可能產生的偏見，更應該趁此機會 #與偏見面對面，藉由對偏見的認識，進而更加理解這個我們生存的社會！

想知道更多有趣的詞向量分析？點進來看看吧！

#性別與科技
#GIST
#文字中的性別偏見
#詞向量好有趣對...吧...