如何避免自動翻譯把大家都變成「男人」?
貼文日期:2023/03/29
貼文網址:https://www.facebook.com/TaiwanGIST/posts/681628013969332
來源連結:性別化創新案例研究-機器翻譯
拜自動翻譯功能的發達,網路使用者在接觸非中文素材時,也能夠大略了解意義,不再需要
擔心完全看不懂。
不過許多人可能也有類似的使用經驗:自動翻譯經常混淆文中提及的性別,導致女人變成男人、單數變複數,甚至人變成「物」。為什麼會發生這種情形?又該怎麼避免呢?
#語料庫中的性別落差,造成翻譯系統以陽性詞稱呼女性
機器翻譯系統需要透過大型的語料庫(也就是收錄大量文本的電子資料庫)進行訓練。一份研究發現,Google Books當中的英文陽性代名詞出現頻率比陰性代名詞更多,尤其在1960年代出版的書籍中,前者曾多達後者的四倍。這種情形很有可能造成翻譯系統經過學習後,錯誤地使用陽性代名詞來指涉女性。
由於代名詞的性別落差在近年持續下降,使得相關的語料庫逐漸走向平等,若自動翻譯經常將男性預設為標準,可能使網路中的男性代名詞大量增加,導致語料庫的性別落差又再次擴大。
#研發演算法辨認社會性別
為了解決前述問題,史丹佛大學的「性別化創新」(gendered innovations)研究團隊建議,可研發一套演算法辨識被指涉對象的社會性別(文化面向的態度、行為與表現)。這套演算法進行的方式如下:
1. 找出文中提及的所有實體。
2. 決定個別實體是生命或非生命,及其社會性別(某些外文也可能以陰性或陽性詞彙指涉非生命實體,例如德文的「太陽」是陰性,「月亮」是陽性)、及數量(單數或複數)。
3. 透過機率演算法,根據文本脈絡和個別實體的生命性、社會性別、及數量,歸納文中提及的實體。
#納入性別中立語言,使機器翻譯更加包容與精確
若要更精確地翻譯性別,系統也可以進一步學習納入性別中立的語言。 一來,由於特定的語言當中具有中性的代名詞(例如土耳其語的「o」),如此能提供更貼切的翻譯。目前Google翻譯土耳其語的中性句「o bir doktor」,會同時顯示「她是醫師」與「他是醫師」。
另一方面,透過使用如「他們」或瑞典語中的「hen」等性別中立的代名詞,也能更加包容例如雙性人等非二元性別者。
延伸閱讀:
性別化創新基礎方法-機器學習 https://tinyurl.com/56mbmj2h
性別化創新案例研究-機器翻譯 https://tinyurl.com/mr2zrh29
⇐前往較新一則貼文 前往較舊一則貼文⇒
科科性別已經有IG(@kekegender)了!在這裡=> https://www.instagram.com/kekegender/
了解更多科研領域中的性別議題:https://tinyurl.com/22tjby8d (性別化創新中文網)