- +1
AlphaGo之父對話《連線》:曾被導(dǎo)師勸阻研究強(qiáng)化學(xué)習(xí),如今獲得ACM計算獎
曉查 編譯整理
量子位 報道 | 公眾號 QbitAI
本周,DeepMind的MuZero通過了同行評審,發(fā)表在了最新一期的Nature雜志上。
MuZero是一個通用的游戲AI,它在圍棋、象棋、將棋和57款A(yù)tari游戲上都超過了人類的表現(xiàn)。而且這個AI事先不需要事先知道規(guī)則。近日,DeepMind的首席科學(xué)家、AlphaGo首席研究員David Silver接受了《連線》雜志的采訪,討論了MuZero、強(qiáng)化學(xué)習(xí)以及對未來通用人工智能的看法。
David Silver畢業(yè)于劍橋大學(xué),在那里與DeepMind創(chuàng)始人Demis Hassabis成為朋友。Silver曾領(lǐng)導(dǎo)DeepMind的強(qiáng)化學(xué)習(xí)研究小組,由于在計算機(jī)游戲領(lǐng)域的突破性進(jìn)展,他獲得了2019年ACM計算獎。
為何MuZero很重要
連線:MuZero發(fā)表在Nature雜志上。對于不了解此事人,告訴我們?yōu)槭裁此苤匾?/p>
David Silver:MuZero向前邁出的重要一步是,我們沒有告訴它環(huán)境的動態(tài)。它必須自己想辦法,讓自己提前計劃,想出最有效的策略。
我們希望擁有在現(xiàn)實(shí)世界中可以運(yùn)行的算法,而現(xiàn)實(shí)世界卻是復(fù)雜、混亂且未知的。所以你不能只向前看,就像下棋一樣。你必須學(xué)會這個世界是如何運(yùn)轉(zhuǎn)的。
一些觀察人士指出,MuZero、AlphaGo和AlphaZero并非真正零開始。它們使用聰明人設(shè)計的算法來學(xué)習(xí)如何執(zhí)行特定任務(wù)。這是不是錯過了重點(diǎn)?我認(rèn)為確實(shí)如此。從來沒有真正的一片空白。機(jī)器學(xué)習(xí)中甚至有一個定理——沒有自由午餐定理,就是說你必須從某件事開始,否則將一事無成。
但是在這種情況下,它是空白的。我們?yōu)樗峁┝艘粋€神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)必須從游戲的輸贏或或分?jǐn)?shù)的反饋中學(xué)會如何理解世界。
人們注意到的一件事是,我們告訴MuZero在每種情況下的合法舉動。但是,如果你進(jìn)行解決未知問題的強(qiáng)化學(xué)習(xí),通常會告知智能體可以做什么。您必須告訴智能體它有哪些選擇,然后讓它再選擇其中之一。
您可能會批評到目前為止我們已經(jīng)做了什么。現(xiàn)實(shí)世界非常復(fù)雜,我們還沒有建立像人類大腦那樣可以適應(yīng)所有這些事物的東西。所以這是一個公平的批評。
但是我認(rèn)為MuZero確實(shí)自己找到了如何建立模型,并且從第一性原理去理解它。
MuZero有何實(shí)際用途
DeepMind最近宣布,已利用AlphaZero背后的技術(shù)解決了一個重要的實(shí)際問題:預(yù)測蛋白質(zhì)折疊的形狀。你認(rèn)為MuZero將在哪方面產(chǎn)生首個重大影響?
當(dāng)然,我們正在尋找將MuZero應(yīng)用到現(xiàn)實(shí)世界中的方法,并且有一些令人鼓舞的初步結(jié)果。舉一個具體的例子,互聯(lián)網(wǎng)上的流量主要是視頻,而一個開放的大問題是如何盡可能有效地壓縮這些視頻。您可以將其視為強(qiáng)化學(xué)習(xí)問題,因?yàn)橛性S多非常復(fù)雜的程序可以壓縮視頻,但是你接下來看到的是未知的。
但是當(dāng)你把像MuZero之類的東西應(yīng)用于其中時,我們的初步結(jié)果顯示,在節(jié)省大量數(shù)據(jù)方面它看起來很有希望,可能是壓縮視頻所用比特的5%左右。
從長遠(yuǎn)來看,您認(rèn)為強(qiáng)化學(xué)習(xí)對哪些方面影響最大?
我認(rèn)為有一個系統(tǒng),可以幫助用戶盡可能有效地實(shí)現(xiàn)目標(biāo)。一個真正強(qiáng)大的系統(tǒng),可以看到你看到的所有事物,具有與你相同的感官,能夠幫助你實(shí)現(xiàn)人生目標(biāo)。我認(rèn)為那是非常重要的。
從長遠(yuǎn)來看,另一個變革性的東西可以提供個性化的醫(yī)療保健解決方案。有一些隱私和道德問題需要解決,但是它將具有巨大的變革價值;它將改變醫(yī)學(xué)的面貌和人們的生活質(zhì)量。
你認(rèn)為機(jī)器在你的有生之年能學(xué)會做什么嗎?
我不想給它設(shè)定一個時間表,但我想說,人類能做到的一切,我最終認(rèn)為機(jī)器都能做到。大腦是一個計算過程,我認(rèn)為那里沒有任何魔法。
我們能達(dá)到像人腦一樣理解和實(shí)現(xiàn)算法有效和強(qiáng)大的地步嗎?嗯,我不知道時間表會是怎樣。但是我認(rèn)為這個旅程是令人興奮的。
我們應(yīng)該致力于實(shí)現(xiàn)這一目標(biāo)。踏上這段旅程的第一步是試圖理解獲得智慧意味著什么?解決智力問題,我們在努力解決什么問題?
強(qiáng)化學(xué)習(xí)能否通向人工智能
你是否有信心可以從象棋和Atari等游戲到真正的智能?是什么讓你認(rèn)為強(qiáng)化學(xué)習(xí)會產(chǎn)生有常識理解的機(jī)器?
有一個假設(shè),我們稱其為“獎勵足夠”假設(shè)。這個假設(shè)說,智能的基本過程可以像一個尋求最大化其獎勵的系統(tǒng)一樣簡單,而試圖實(shí)現(xiàn)目標(biāo)并試圖最大化獎勵的過程,足以產(chǎn)生我們在自然智能中看到的所有智能屬性。
這是一個假設(shè),我們不知道它是否正確,但這為研究提供了方向。
如果我們具體地理解常識,那么“獎勵足夠”的假設(shè)就很好地說明了這一點(diǎn),如果常識對系統(tǒng)有用,則意味著它實(shí)際上應(yīng)該幫助它更好地實(shí)現(xiàn)其目標(biāo)。
聽起來您認(rèn)為您的專長領(lǐng)域強(qiáng)化學(xué)習(xí),在某種意義上是理解或“解決”智力的基礎(chǔ)。是這樣嗎?我真的認(rèn)為這非常必要。我認(rèn)為最大的問題是,這是真的嗎?
因?yàn)檫@顯然違背了許多人對人工智能的看法,即智能中涉及到非常復(fù)雜的機(jī)制集合,每個機(jī)制都有自己要解決的問題或自己特殊的工作方式,或者甚至沒有任何明確的問題定義,比如常識。
這個理論說,不,實(shí)際上可能有一個非常清晰和簡單的方法來思考所有的智能,那就是它是一個目標(biāo)優(yōu)化系統(tǒng)。如果我們找到了真正優(yōu)化目標(biāo)的方法,那么所有這些其他的東西將會從這個過程中出現(xiàn)。
強(qiáng)化學(xué)習(xí)已經(jīng)存在了數(shù)十年,但有一段時間似乎是死胡同。實(shí)際上,你的一位導(dǎo)師告訴我,她試圖勸阻你不要從事這項工作。你為什么不理她繼續(xù)往前走?
許多人認(rèn)為,強(qiáng)化學(xué)習(xí)是可以用來解決在AI中許多問題的工具之一。我不這樣認(rèn)為,我把強(qiáng)化學(xué)習(xí)視為整體。如果我們想嘗試并盡可能地描述智能,我認(rèn)為強(qiáng)化學(xué)習(xí)本質(zhì)上是我們真正意義上的智能的特征。
當(dāng)您開始以這種方式看它時,我為何不能這樣處理呢?如果這確實(shí)是最接近我們所說的智能的東西,那么如果我們解決它,我們就將破解它。
你看看我所做的工作,我將一直致力于解決這個問題。解決諸如圍棋之類的問題時,在解決它的過程中,我們了解了智能在此過程中意味著什么。
你可以認(rèn)為強(qiáng)化學(xué)習(xí)是一種能力,它使一個智能體能夠獲得所有需要的其他能力。
你可以在類似AlphaGo的東西中看到一點(diǎn)點(diǎn),在那里我們要求它做的只是贏得游戲,然而它學(xué)到了人類過去曾專有的知識——比賽的結(jié)束和開局。
算力是否會限制AI發(fā)展
DeepMind是否有壓力再做一次大型展示,例如AlphaGo?
這是個好問題。這個問題問得好。我覺得我們處于一個非常有利的位置,因?yàn)槲覀兊奈恢煤唾Y金都很安全,所有這些都非常非常安全。
嘗試進(jìn)行一個新的大規(guī)模的展示,唯一的壓力是推動通用智能的進(jìn)步。這是一種真正的特權(quán),當(dāng)你在創(chuàng)業(yè)公司試圖獲得資金時,或者在學(xué)術(shù)界試圖獲得資助時,你就沒有這種特權(quán)。
強(qiáng)大的AI系統(tǒng)現(xiàn)在需要大量的計算機(jī)能力才能工作。你是否擔(dān)心這會阻礙進(jìn)展?讓我們回到MuZero,這是一個算法的例子,它可以很好地隨著計算而伸縮。我們在Atari進(jìn)行了一項實(shí)驗(yàn),結(jié)果表明即使使用非常少量的計算(大約相當(dāng)于一個GPU運(yùn)行幾周),它的效果也非常好,并且獲得了遠(yuǎn)遠(yuǎn)超過人類的性能。
有一些數(shù)字表明,如果把現(xiàn)在能利用的所有計算能力加起來,就能達(dá)到與人腦相當(dāng)?shù)乃?。所以可能更多的是我們需要想出更聰明的算法?/p>
而MuZero的美妙之處在于,它正在建立自己的模型,開始了解世界是如何運(yùn)轉(zhuǎn)的。這種想象力是利用計算開始展望未來,想象接下來會發(fā)生什么的一種方式。
人工智能倫理
一些軍火商正在利用強(qiáng)化學(xué)習(xí)來建造更強(qiáng)的武器系統(tǒng)。你對此有何感想?你有沒有想過你的一些作品不應(yīng)該公開發(fā)表?
我反對在任何致命武器中使用AI,并希望我們在禁止致命自動武器方面取得更多進(jìn)展。DeepMind及其聯(lián)合創(chuàng)始人是《致命自動武器承諾》的簽署方,攻擊性技術(shù)應(yīng)始終處于適當(dāng)?shù)娜祟惪刂浦隆?/p>
然而,我們?nèi)匀幌嘈牛m當(dāng)發(fā)布我們的方法是科學(xué)的基石,通用AI算法的發(fā)展將在眾多積極應(yīng)用中帶來更大的整體社會效益。
原文鏈接:
https://www.wired.com/story/what-alphago-teach-how-people-learn/
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。
原標(biāo)題:《AlphaGo之父對話《連線》,曾被導(dǎo)師勸阻研究強(qiáng)化學(xué)習(xí),如今獲得ACM計算獎》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




