下載客戶端

登錄

MIT下架偏見性數(shù)據(jù)集，BLM運動持續(xù)

2020-07-04 08:39

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) Synced 機器之心

機器之心報道

參與：杜偉、小舟、張倩

繼 Yann LeCun 為存在數(shù)據(jù)偏見的算法辯護之后，BLM 運動繼續(xù)在學(xué)界蔓延。MIT 宣布永久下架包含種族和性別歧視標簽圖像的 Tiny Images 數(shù)據(jù)集，并致歉。此外，谷歌研究科學(xué)家 Samy Bengio 針對學(xué)界中的「名人效應(yīng)」提出自己的建議，呼吁「有意識地引用較低關(guān)注度學(xué)者的論文」，從而引發(fā)網(wǎng)友熱議。

轟轟烈烈的「Black Lives Matter」運動已經(jīng)持續(xù)了一個多月，雖然已有緩和跡象，但整體運動開始往各領(lǐng)域蔓延，包括學(xué)術(shù)界。

在活動剛開始的第十幾天，全美學(xué)界曾掀起過一場的運動，arXiv、Nature、Science 全部暫停更新，以重新思考黑人群體在學(xué)界的地位。

雖然活動僅進行了一天，但「思考」遠未結(jié)束。最近，一位非裔女科學(xué)家把大家重新拉回了這一話題。

事件的起因是 DeepMind 6 月 29 號官宣的一門生成對抗網(wǎng)絡(luò)（GAN）課程。課程的內(nèi)容比較基礎(chǔ)，主要介紹 GAN 的原理、優(yōu)化、改進以及一些變體。

乍看之下，這門課好像沒什么問題。但是，一位名叫 Adji Bousso Dieng 的研究者質(zhì)問道：「既然你們要開 GAN 的課，為什么我在 DeepMind 提出的 PresGAN 沒有被包含在內(nèi)？是因為這篇論文的一作（我）是黑人女性嗎？」「我已經(jīng)厭倦了這種輕視、輕易抹掉我的貢獻的行為?！?/p>

這位 Adji Bousso Dieng 是什么來頭？

Dieng 來自非洲塞內(nèi)加爾，是哥倫比亞大學(xué)統(tǒng)計學(xué)系的一名博士研究生。她的主要研究方向是將概率圖形建模和深度學(xué)習結(jié)合起來，為結(jié)構(gòu)化的高維數(shù)據(jù)設(shè)計模型。她的研究工作得到了谷歌博士獎學(xué)金的支持。

讀博期間，Dieng 連續(xù)幾年在 ICLR、NeurIPS 等頂會參與組織 workshop，還在微軟、Facebook AI 、DeepMind 做過實習生。上面提到的 PresGAN 便是她在 DeepMind 實習期間做的。

根據(jù) Dieng 提供的鏈接，我們找到了這篇論文。在論文中，Dieng 提出了一種 GAN 變體 PresGAN，主要改進的地方是在密集網(wǎng)絡(luò)的輸出中添加噪聲并對熵正則化對抗損失進行優(yōu)化。添加的噪聲對預(yù)測性對數(shù)似然的易處理近似進行渲染，并實現(xiàn)訓(xùn)練流程的穩(wěn)定。實驗結(jié)果表明，PresGAN 可以減輕模式崩潰并生成高感知質(zhì)量的樣本。此外，PresGAN 還可以縮小傳統(tǒng) GAN 和變分自編碼器在預(yù)測性對數(shù)似然方面的性能差距。

論文鏈接：https://arxiv.org/pdf/1910.04302.pdf

雖然宣稱的效果還不錯，但遺憾的是，這篇論文在 Google Scholar 上的被引量只有「5 次」。

有人認為，這就是一篇平平無奇的論文，評估結(jié)果也很弱，即使在 CIFAR-10 上也比 SOTA 差很多。

而且，這只是一篇掛在 arXiv 上的論文，還沒有經(jīng)過同行評審?！付鄶?shù)人不會傾向于引用一篇未經(jīng)同行評審的論文。」

總之，大家認為，這篇論文之所以被引量低，并不是因為種族問題，而是論文本身不夠硬。

但也有人在看過論文后表示，這是一篇不錯的論文，可能真的被社區(qū)低估了。

論文的質(zhì)量究竟如何，我們需要仔細研讀才能得出結(jié)論。但有一點可以肯定，搬出種族歧視大旗似乎并不是解決學(xué)術(shù)問題的合理方法。

「我認為你應(yīng)該用科學(xué)的方式來證明自己的觀點，寫一篇博客來告訴大家為什么你的論文應(yīng)該被引用?！?/p>

這個話題引起了谷歌研究科學(xué)家、Yoshua Bengio 的兄弟 Samy Bengio 的注意。他認為，要從根本上改善弱勢群體在學(xué)界的地位，應(yīng)該從改變引用習慣做起。

Samy Bengio：建議大家多引用少數(shù)群體的論文

Samy Bengio 在自己的 Facebook 主頁發(fā)帖表達了自己的看法。

堅持科學(xué)理性的學(xué)術(shù)立場雖然不易，但很有必要，這是提升機器學(xué)習社區(qū)質(zhì)量和多樣性的必由之路。我們大家每一小步的正確舉動都將累積成社區(qū)長遠發(fā)展的一大步。Adji Dieng 這件事令我萌生了一種想法：我們所有人在引用彼此的文獻時，可以有意識地選擇那些關(guān)注度較低的作者的論文，而不是選擇名人作者的論文；引用那些每天受系統(tǒng)性問題之害的作者，而不是那些已經(jīng)受益頗多的作者。我們都清楚論文引用在機器學(xué)習領(lǐng)域至關(guān)重要，我的這個想法實施起來簡單有效。大家覺得呢？有其他好的建議也請分享。

對此，有人在 reddit 上發(fā)帖提問：學(xué)術(shù)引用真的已經(jīng)只看作者，而不重論文實際內(nèi)容了嗎？

對于 Samy Bengio 博客中提出的「多引用關(guān)注度較低的作者的論文」，網(wǎng)友也紛紛表達了自己的看法。

下面這位網(wǎng)友表示，ta 完全贊成引用關(guān)注度較低學(xué)者的論文，但絕不應(yīng)該因為種族或者名氣等外部原因而做出不理性客觀的引用，要以論文相關(guān)性為引用基準。

而對于「學(xué)術(shù)引用已經(jīng)基于作者，而非論文實際內(nèi)容」的提問，下面這位網(wǎng)友表示，這似乎就是我們經(jīng)常在做的事情。每篇論文都以「計算機視覺已經(jīng)成功地應(yīng)用于 xx 任務(wù)」開頭，并且像完成任務(wù)般列舉出與論文主題相關(guān)性甚小卻由名人撰寫的論文。

但也有人表示，雖然 ta 也認為不應(yīng)該基于作者來引用論文，并且贊成支持少數(shù)群體論文的觀點。但 Samy Bengio 的建議是否正確仍待商榷。

盲目的學(xué)術(shù)崇拜肯定不利于新研究、新觀點和新技術(shù)的推廣，也不利于構(gòu)建一個健康理性的社區(qū)。但如果真的按照 Samy Bengio 的建議而有意識地多引用關(guān)注度較低的作者的論文，這是否又會走入另一個極端呢？

MIT 刪除 Tiny Images 數(shù)據(jù)集

不止學(xué)者陸續(xù)發(fā)聲表達自己的觀點，學(xué)術(shù)機構(gòu)也在行動。

近日，為了營造健康的學(xué)術(shù)氛圍，反對并遏制種族歧視等各類偏見，MIT 也采取了相應(yīng)的行動：將存在種族歧視和性別偏見內(nèi)容的 Tiny Images 數(shù)據(jù)集永久移除。

Tiny Images 數(shù)據(jù)集中包含大量冒犯性標簽的圖像。

該數(shù)據(jù)集創(chuàng)建于 2006 年，刪除它的原因是這個有八千萬張圖像的數(shù)據(jù)集中含有大量的帶有種族歧視等偏見的內(nèi)容。比如，該數(shù)據(jù)集中有這樣的照片：黑人和猴子的照片被貼上 Nigger 標簽；穿著比基尼的婦女被貼上妓女的標簽等，將毫無關(guān)系的圖像內(nèi)容和一些侮辱性詞匯牽扯在一起。更糟糕的是，那些使用該數(shù)據(jù)集訓(xùn)練的 AI 模型也會帶有這樣的有害偏見。

Tiny Images 數(shù)據(jù)集中帶有 Nigger 標簽的圖像。

這些圖像數(shù)據(jù)是基于 WordNet 分類詞庫從搜索引擎自動收集的。WordNet 具有強大的關(guān)聯(lián)性，會根據(jù)單詞的意義將不同的詞組成相應(yīng)的集合，因而帶有一定的偏向性。那么在搜索引擎上搜索圖像時，獲得的圖片也相應(yīng)地具有強烈的偏見性。

此外，數(shù)據(jù)集的規(guī)模不僅非常大，而且這些圖像的分辨率只有 32x32 像素，也從未存儲過原始的高分辨率版本，以至于人們難以用肉眼識別它們的內(nèi)容。即使人工檢查也無法保證能夠完全清除這些有冒犯性的圖像。

這些因素都使得 MIT 不得不刪除了 Tiny Images 數(shù)據(jù)集，目前該數(shù)據(jù)集已經(jīng)下線并且永遠不會再上線。

MIT 也對刪除 Tiny Images 數(shù)據(jù)集給出了官方聲明：

在聲明中，MIT 表示已經(jīng)注意到 Tiny Images 數(shù)據(jù)集包含一些侮辱性詞匯以及冒犯性的圖像，并高度關(guān)注這件事，同時向受到影響的人道歉。因此決定正式撤銷 Tiny Images 數(shù)據(jù)集。此外，MIT 還要求社區(qū)以后都不再使用它，并且刪除已下載的該數(shù)據(jù)集的任何副本。

最后，MIT 表示：「含有偏見和冒犯性的圖像以及帶有侮辱性的詞匯，會迫使社區(qū)疏遠重要的組成部分——人才，而人才正是我們想方設(shè)法吸納的。此外，該數(shù)據(jù)集還會導(dǎo)致使用它訓(xùn)練的 AI 系統(tǒng)也包含有害偏見，此類有偏見的圖像也有損計算機視覺社區(qū)努力構(gòu)建的包容文化，這些都與我們努力維護的價值觀背道而馳?！?/p>

參考鏈接：

https://www.theregister.com/2020/07/01/mit_dataset_removed/

https://www.reddit.com/r/MachineLearning/comments/hjlsy8/d_samy_bengios_post/

https://groups.csail.mit.edu/vision/TinyImages/

原標題：《MIT下架偏見性數(shù)據(jù)集，Bengio兄弟建議多引少數(shù)群體的論文：BLM運動持續(xù)》

閱讀原文

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#BLM運動