- +1
MIT下架偏見性數(shù)據(jù)集,BLM運動持續(xù)
原創(chuàng) Synced 機器之心
機器之心報道
參與:杜偉、小舟、張倩
繼 Yann LeCun 為存在數(shù)據(jù)偏見的算法辯護之后,BLM 運動繼續(xù)在學(xué)界蔓延。MIT 宣布永久下架包含種族和性別歧視標簽圖像的 Tiny Images 數(shù)據(jù)集,并致歉。此外,谷歌研究科學(xué)家 Samy Bengio 針對學(xué)界中的「名人效應(yīng)」提出自己的建議,呼吁「有意識地引用較低關(guān)注度學(xué)者的論文」,從而引發(fā)網(wǎng)友熱議。

在活動剛開始的第十幾天,全美學(xué)界曾掀起過一場的運動,arXiv、Nature、Science 全部暫停更新,以重新思考黑人群體在學(xué)界的地位。
雖然活動僅進行了一天,但「思考」遠未結(jié)束。最近,一位非裔女科學(xué)家把大家重新拉回了這一話題。
事件的起因是 DeepMind 6 月 29 號官宣的一門生成對抗網(wǎng)絡(luò)(GAN)課程。課程的內(nèi)容比較基礎(chǔ),主要介紹 GAN 的原理、優(yōu)化、改進以及一些變體。
乍看之下,這門課好像沒什么問題。但是,一位名叫 Adji Bousso Dieng 的研究者質(zhì)問道:「既然你們要開 GAN 的課,為什么我在 DeepMind 提出的 PresGAN 沒有被包含在內(nèi)?是因為這篇論文的一作(我)是黑人女性嗎?」「我已經(jīng)厭倦了這種輕視、輕易抹掉我的貢獻的行為?!?/p>

Dieng 來自非洲塞內(nèi)加爾,是哥倫比亞大學(xué)統(tǒng)計學(xué)系的一名博士研究生。她的主要研究方向是將概率圖形建模和深度學(xué)習結(jié)合起來,為結(jié)構(gòu)化的高維數(shù)據(jù)設(shè)計模型。她的研究工作得到了谷歌博士獎學(xué)金的支持。
讀博期間,Dieng 連續(xù)幾年在 ICLR、NeurIPS 等頂會參與組織 workshop,還在微軟、Facebook AI 、DeepMind 做過實習生。上面提到的 PresGAN 便是她在 DeepMind 實習期間做的。
根據(jù) Dieng 提供的鏈接,我們找到了這篇論文。在論文中,Dieng 提出了一種 GAN 變體 PresGAN,主要改進的地方是在密集網(wǎng)絡(luò)的輸出中添加噪聲并對熵正則化對抗損失進行優(yōu)化。添加的噪聲對預(yù)測性對數(shù)似然的易處理近似進行渲染,并實現(xiàn)訓(xùn)練流程的穩(wěn)定。實驗結(jié)果表明,PresGAN 可以減輕模式崩潰并生成高感知質(zhì)量的樣本。此外,PresGAN 還可以縮小傳統(tǒng) GAN 和變分自編碼器在預(yù)測性對數(shù)似然方面的性能差距。

雖然宣稱的效果還不錯,但遺憾的是,這篇論文在 Google Scholar 上的被引量只有「5 次」。



但也有人在看過論文后表示,這是一篇不錯的論文,可能真的被社區(qū)低估了。

「我認為你應(yīng)該用科學(xué)的方式來證明自己的觀點,寫一篇博客來告訴大家為什么你的論文應(yīng)該被引用?!?/p>

Samy Bengio:建議大家多引用少數(shù)群體的論文
Samy Bengio 在自己的 Facebook 主頁發(fā)帖表達了自己的看法。

對此,有人在 reddit 上發(fā)帖提問:學(xué)術(shù)引用真的已經(jīng)只看作者,而不重論文實際內(nèi)容了嗎?

下面這位網(wǎng)友表示,ta 完全贊成引用關(guān)注度較低學(xué)者的論文,但絕不應(yīng)該因為種族或者名氣等外部原因而做出不理性客觀的引用,要以論文相關(guān)性為引用基準。



MIT 刪除 Tiny Images 數(shù)據(jù)集
不止學(xué)者陸續(xù)發(fā)聲表達自己的觀點,學(xué)術(shù)機構(gòu)也在行動。
近日,為了營造健康的學(xué)術(shù)氛圍,反對并遏制種族歧視等各類偏見,MIT 也采取了相應(yīng)的行動:將存在種族歧視和性別偏見內(nèi)容的 Tiny Images 數(shù)據(jù)集永久移除。

該數(shù)據(jù)集創(chuàng)建于 2006 年,刪除它的原因是這個有八千萬張圖像的數(shù)據(jù)集中含有大量的帶有種族歧視等偏見的內(nèi)容。比如,該數(shù)據(jù)集中有這樣的照片:黑人和猴子的照片被貼上 Nigger 標簽;穿著比基尼的婦女被貼上妓女的標簽等,將毫無關(guān)系的圖像內(nèi)容和一些侮辱性詞匯牽扯在一起。更糟糕的是,那些使用該數(shù)據(jù)集訓(xùn)練的 AI 模型也會帶有這樣的有害偏見。

這些圖像數(shù)據(jù)是基于 WordNet 分類詞庫從搜索引擎自動收集的。WordNet 具有強大的關(guān)聯(lián)性,會根據(jù)單詞的意義將不同的詞組成相應(yīng)的集合,因而帶有一定的偏向性。那么在搜索引擎上搜索圖像時,獲得的圖片也相應(yīng)地具有強烈的偏見性。
此外,數(shù)據(jù)集的規(guī)模不僅非常大,而且這些圖像的分辨率只有 32x32 像素,也從未存儲過原始的高分辨率版本,以至于人們難以用肉眼識別它們的內(nèi)容。即使人工檢查也無法保證能夠完全清除這些有冒犯性的圖像。
這些因素都使得 MIT 不得不刪除了 Tiny Images 數(shù)據(jù)集,目前該數(shù)據(jù)集已經(jīng)下線并且永遠不會再上線。
MIT 也對刪除 Tiny Images 數(shù)據(jù)集給出了官方聲明:

最后,MIT 表示:「含有偏見和冒犯性的圖像以及帶有侮辱性的詞匯,會迫使社區(qū)疏遠重要的組成部分——人才,而人才正是我們想方設(shè)法吸納的。此外,該數(shù)據(jù)集還會導(dǎo)致使用它訓(xùn)練的 AI 系統(tǒng)也包含有害偏見,此類有偏見的圖像也有損計算機視覺社區(qū)努力構(gòu)建的包容文化,這些都與我們努力維護的價值觀背道而馳?!?/p>
參考鏈接:
https://www.theregister.com/2020/07/01/mit_dataset_removed/
https://www.reddit.com/r/MachineLearning/comments/hjlsy8/d_samy_bengios_post/
https://groups.csail.mit.edu/vision/TinyImages/
原標題:《MIT下架偏見性數(shù)據(jù)集,Bengio兄弟建議多引少數(shù)群體的論文:BLM運動持續(xù)》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




