9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

MIT下架偏見性數(shù)據(jù)集,BLM運動持續(xù)

2020-07-04 08:39
來源:澎湃新聞·澎湃號·湃客
字號

原創(chuàng) Synced 機器之心

機器之心報道

參與:杜偉、小舟、張倩

繼 Yann LeCun 為存在數(shù)據(jù)偏見的算法辯護之后,BLM 運動繼續(xù)在學(xué)界蔓延。MIT 宣布永久下架包含種族和性別歧視標簽圖像的 Tiny Images 數(shù)據(jù)集,并致歉。此外,谷歌研究科學(xué)家 Samy Bengio 針對學(xué)界中的「名人效應(yīng)」提出自己的建議,呼吁「有意識地引用較低關(guān)注度學(xué)者的論文」,從而引發(fā)網(wǎng)友熱議。

轟轟烈烈的「Black Lives Matter」運動已經(jīng)持續(xù)了一個多月,雖然已有緩和跡象,但整體運動開始往各領(lǐng)域蔓延,包括學(xué)術(shù)界。

在活動剛開始的第十幾天,全美學(xué)界曾掀起過一場的運動,arXiv、Nature、Science 全部暫停更新,以重新思考黑人群體在學(xué)界的地位。

雖然活動僅進行了一天,但「思考」遠未結(jié)束。最近,一位非裔女科學(xué)家把大家重新拉回了這一話題。

事件的起因是 DeepMind 6 月 29 號官宣的一門生成對抗網(wǎng)絡(luò)(GAN)課程。課程的內(nèi)容比較基礎(chǔ),主要介紹 GAN 的原理、優(yōu)化、改進以及一些變體。

乍看之下,這門課好像沒什么問題。但是,一位名叫 Adji Bousso Dieng 的研究者質(zhì)問道:「既然你們要開 GAN 的課,為什么我在 DeepMind 提出的 PresGAN 沒有被包含在內(nèi)?是因為這篇論文的一作(我)是黑人女性嗎?」「我已經(jīng)厭倦了這種輕視、輕易抹掉我的貢獻的行為?!?/p>

這位 Adji Bousso Dieng 是什么來頭?

Dieng 來自非洲塞內(nèi)加爾,是哥倫比亞大學(xué)統(tǒng)計學(xué)系的一名博士研究生。她的主要研究方向是將概率圖形建模和深度學(xué)習結(jié)合起來,為結(jié)構(gòu)化的高維數(shù)據(jù)設(shè)計模型。她的研究工作得到了谷歌博士獎學(xué)金的支持。

讀博期間,Dieng 連續(xù)幾年在 ICLR、NeurIPS 等頂會參與組織 workshop,還在微軟、Facebook AI 、DeepMind 做過實習生。上面提到的 PresGAN 便是她在 DeepMind 實習期間做的。

根據(jù) Dieng 提供的鏈接,我們找到了這篇論文。在論文中,Dieng 提出了一種 GAN 變體 PresGAN,主要改進的地方是在密集網(wǎng)絡(luò)的輸出中添加噪聲并對熵正則化對抗損失進行優(yōu)化。添加的噪聲對預(yù)測性對數(shù)似然的易處理近似進行渲染,并實現(xiàn)訓(xùn)練流程的穩(wěn)定。實驗結(jié)果表明,PresGAN 可以減輕模式崩潰并生成高感知質(zhì)量的樣本。此外,PresGAN 還可以縮小傳統(tǒng) GAN 和變分自編碼器在預(yù)測性對數(shù)似然方面的性能差距。

論文鏈接:https://arxiv.org/pdf/1910.04302.pdf

雖然宣稱的效果還不錯,但遺憾的是,這篇論文在 Google Scholar 上的被引量只有「5 次」。

有人認為,這就是一篇平平無奇的論文,評估結(jié)果也很弱,即使在 CIFAR-10 上也比 SOTA 差很多。

而且,這只是一篇掛在 arXiv 上的論文,還沒有經(jīng)過同行評審?!付鄶?shù)人不會傾向于引用一篇未經(jīng)同行評審的論文。」

總之,大家認為,這篇論文之所以被引量低,并不是因為種族問題,而是論文本身不夠硬。

但也有人在看過論文后表示,這是一篇不錯的論文,可能真的被社區(qū)低估了。

論文的質(zhì)量究竟如何,我們需要仔細研讀才能得出結(jié)論。但有一點可以肯定,搬出種族歧視大旗似乎并不是解決學(xué)術(shù)問題的合理方法。

「我認為你應(yīng)該用科學(xué)的方式來證明自己的觀點,寫一篇博客來告訴大家為什么你的論文應(yīng)該被引用?!?/p>

這個話題引起了谷歌研究科學(xué)家、Yoshua Bengio 的兄弟 Samy Bengio 的注意。他認為,要從根本上改善弱勢群體在學(xué)界的地位,應(yīng)該從改變引用習慣做起。

Samy Bengio:建議大家多引用少數(shù)群體的論文

Samy Bengio 在自己的 Facebook 主頁發(fā)帖表達了自己的看法。

堅持科學(xué)理性的學(xué)術(shù)立場雖然不易,但很有必要,這是提升機器學(xué)習社區(qū)質(zhì)量和多樣性的必由之路。我們大家每一小步的正確舉動都將累積成社區(qū)長遠發(fā)展的一大步。Adji Dieng 這件事令我萌生了一種想法:我們所有人在引用彼此的文獻時,可以有意識地選擇那些關(guān)注度較低的作者的論文,而不是選擇名人作者的論文;引用那些每天受系統(tǒng)性問題之害的作者,而不是那些已經(jīng)受益頗多的作者。我們都清楚論文引用在機器學(xué)習領(lǐng)域至關(guān)重要,我的這個想法實施起來簡單有效。大家覺得呢?有其他好的建議也請分享。

對此,有人在 reddit 上發(fā)帖提問:學(xué)術(shù)引用真的已經(jīng)只看作者,而不重論文實際內(nèi)容了嗎?

對于 Samy Bengio 博客中提出的「多引用關(guān)注度較低的作者的論文」,網(wǎng)友也紛紛表達了自己的看法。

下面這位網(wǎng)友表示,ta 完全贊成引用關(guān)注度較低學(xué)者的論文,但絕不應(yīng)該因為種族或者名氣等外部原因而做出不理性客觀的引用,要以論文相關(guān)性為引用基準。

而對于「學(xué)術(shù)引用已經(jīng)基于作者,而非論文實際內(nèi)容」的提問,下面這位網(wǎng)友表示,這似乎就是我們經(jīng)常在做的事情。每篇論文都以「計算機視覺已經(jīng)成功地應(yīng)用于 xx 任務(wù)」開頭,并且像完成任務(wù)般列舉出與論文主題相關(guān)性甚小卻由名人撰寫的論文。

但也有人表示,雖然 ta 也認為不應(yīng)該基于作者來引用論文,并且贊成支持少數(shù)群體論文的觀點。但 Samy Bengio 的建議是否正確仍待商榷。

盲目的學(xué)術(shù)崇拜肯定不利于新研究、新觀點和新技術(shù)的推廣,也不利于構(gòu)建一個健康理性的社區(qū)。但如果真的按照 Samy Bengio 的建議而有意識地多引用關(guān)注度較低的作者的論文,這是否又會走入另一個極端呢?

MIT 刪除 Tiny Images 數(shù)據(jù)集

不止學(xué)者陸續(xù)發(fā)聲表達自己的觀點,學(xué)術(shù)機構(gòu)也在行動。

近日,為了營造健康的學(xué)術(shù)氛圍,反對并遏制種族歧視等各類偏見,MIT 也采取了相應(yīng)的行動:將存在種族歧視和性別偏見內(nèi)容的 Tiny Images 數(shù)據(jù)集永久移除。

Tiny Images 數(shù)據(jù)集中包含大量冒犯性標簽的圖像。

該數(shù)據(jù)集創(chuàng)建于 2006 年,刪除它的原因是這個有八千萬張圖像的數(shù)據(jù)集中含有大量的帶有種族歧視等偏見的內(nèi)容。比如,該數(shù)據(jù)集中有這樣的照片:黑人和猴子的照片被貼上 Nigger 標簽;穿著比基尼的婦女被貼上妓女的標簽等,將毫無關(guān)系的圖像內(nèi)容和一些侮辱性詞匯牽扯在一起。更糟糕的是,那些使用該數(shù)據(jù)集訓(xùn)練的 AI 模型也會帶有這樣的有害偏見。

Tiny Images 數(shù)據(jù)集中帶有 Nigger 標簽的圖像。

這些圖像數(shù)據(jù)是基于 WordNet 分類詞庫從搜索引擎自動收集的。WordNet 具有強大的關(guān)聯(lián)性,會根據(jù)單詞的意義將不同的詞組成相應(yīng)的集合,因而帶有一定的偏向性。那么在搜索引擎上搜索圖像時,獲得的圖片也相應(yīng)地具有強烈的偏見性。

此外,數(shù)據(jù)集的規(guī)模不僅非常大,而且這些圖像的分辨率只有 32x32 像素,也從未存儲過原始的高分辨率版本,以至于人們難以用肉眼識別它們的內(nèi)容。即使人工檢查也無法保證能夠完全清除這些有冒犯性的圖像。

這些因素都使得 MIT 不得不刪除了 Tiny Images 數(shù)據(jù)集,目前該數(shù)據(jù)集已經(jīng)下線并且永遠不會再上線。

MIT 也對刪除 Tiny Images 數(shù)據(jù)集給出了官方聲明:

在聲明中,MIT 表示已經(jīng)注意到 Tiny Images 數(shù)據(jù)集包含一些侮辱性詞匯以及冒犯性的圖像,并高度關(guān)注這件事,同時向受到影響的人道歉。因此決定正式撤銷 Tiny Images 數(shù)據(jù)集。此外,MIT 還要求社區(qū)以后都不再使用它,并且刪除已下載的該數(shù)據(jù)集的任何副本。

最后,MIT 表示:「含有偏見和冒犯性的圖像以及帶有侮辱性的詞匯,會迫使社區(qū)疏遠重要的組成部分——人才,而人才正是我們想方設(shè)法吸納的。此外,該數(shù)據(jù)集還會導(dǎo)致使用它訓(xùn)練的 AI 系統(tǒng)也包含有害偏見,此類有偏見的圖像也有損計算機視覺社區(qū)努力構(gòu)建的包容文化,這些都與我們努力維護的價值觀背道而馳?!?/p>

參考鏈接:

https://www.theregister.com/2020/07/01/mit_dataset_removed/

https://www.reddit.com/r/MachineLearning/comments/hjlsy8/d_samy_bengios_post/

https://groups.csail.mit.edu/vision/TinyImages/

原標題:《MIT下架偏見性數(shù)據(jù)集,Bengio兄弟建議多引少數(shù)群體的論文:BLM運動持續(xù)》

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司

            当阳市| 台北县| 大埔区| 丰顺县| 肇东市| 南开区| 灌阳县| 崇文区| 双牌县| 新巴尔虎右旗| 永济市| 宣恩县| 崇文区| 西峡县| 琼中| 漳州市| 民勤县| 铁岭县| 武汉市| 龙陵县| 大宁县| 三明市| 阆中市| 阜平县| 嘉定区| 德保县| 吴堡县| 女性| 郎溪县| 澄迈县| 阿拉尔市| 上杭县| 蓬莱市| 鄢陵县| 临武县| 黔江区| 韩城市| 曲麻莱县| 广西| 沧源| 通道|