下載客戶端

登錄

AlphaGo之父對話《連線》：曾被導(dǎo)師勸阻研究強(qiáng)化學(xué)習(xí)，如今獲得ACM計算獎

2020-12-28 12:14

來源：澎湃新聞·澎湃號·湃客

聽全文

曉查編譯整理

量子位報道 | 公眾號 QbitAI

本周，DeepMind的MuZero通過了同行評審，發(fā)表在了最新一期的Nature雜志上。

MuZero是一個通用的游戲AI，它在圍棋、象棋、將棋和57款A(yù)tari游戲上都超過了人類的表現(xiàn)。而且這個AI事先不需要事先知道規(guī)則。

近日，DeepMind的首席科學(xué)家、AlphaGo首席研究員David Silver接受了《連線》雜志的采訪，討論了MuZero、強(qiáng)化學(xué)習(xí)以及對未來通用人工智能的看法。

David Silver畢業(yè)于劍橋大學(xué)，在那里與DeepMind創(chuàng)始人Demis Hassabis成為朋友。

Silver曾領(lǐng)導(dǎo)DeepMind的強(qiáng)化學(xué)習(xí)研究小組，由于在計算機(jī)游戲領(lǐng)域的突破性進(jìn)展，他獲得了2019年ACM計算獎。

為何MuZero很重要

連線：MuZero發(fā)表在Nature雜志上。對于不了解此事人，告訴我們?yōu)槭裁此苤匾?/p>

David Silver：MuZero向前邁出的重要一步是，我們沒有告訴它環(huán)境的動態(tài)。它必須自己想辦法，讓自己提前計劃，想出最有效的策略。

我們希望擁有在現(xiàn)實(shí)世界中可以運(yùn)行的算法，而現(xiàn)實(shí)世界卻是復(fù)雜、混亂且未知的。所以你不能只向前看，就像下棋一樣。你必須學(xué)會這個世界是如何運(yùn)轉(zhuǎn)的。

一些觀察人士指出，MuZero、AlphaGo和AlphaZero并非真正零開始。它們使用聰明人設(shè)計的算法來學(xué)習(xí)如何執(zhí)行特定任務(wù)。這是不是錯過了重點(diǎn)？

我認(rèn)為確實(shí)如此。從來沒有真正的一片空白。機(jī)器學(xué)習(xí)中甚至有一個定理——沒有自由午餐定理，就是說你必須從某件事開始，否則將一事無成。

但是在這種情況下，它是空白的。我們?yōu)樗峁┝艘粋€神經(jīng)網(wǎng)絡(luò)，而神經(jīng)網(wǎng)絡(luò)必須從游戲的輸贏或或分?jǐn)?shù)的反饋中學(xué)會如何理解世界。

人們注意到的一件事是，我們告訴MuZero在每種情況下的合法舉動。但是，如果你進(jìn)行解決未知問題的強(qiáng)化學(xué)習(xí)，通常會告知智能體可以做什么。您必須告訴智能體它有哪些選擇，然后讓它再選擇其中之一。

您可能會批評到目前為止我們已經(jīng)做了什么。現(xiàn)實(shí)世界非常復(fù)雜，我們還沒有建立像人類大腦那樣可以適應(yīng)所有這些事物的東西。所以這是一個公平的批評。

但是我認(rèn)為MuZero確實(shí)自己找到了如何建立模型，并且從第一性原理去理解它。

MuZero有何實(shí)際用途

DeepMind最近宣布，已利用AlphaZero背后的技術(shù)解決了一個重要的實(shí)際問題：預(yù)測蛋白質(zhì)折疊的形狀。你認(rèn)為MuZero將在哪方面產(chǎn)生首個重大影響？

當(dāng)然，我們正在尋找將MuZero應(yīng)用到現(xiàn)實(shí)世界中的方法，并且有一些令人鼓舞的初步結(jié)果。

舉一個具體的例子，互聯(lián)網(wǎng)上的流量主要是視頻，而一個開放的大問題是如何盡可能有效地壓縮這些視頻。您可以將其視為強(qiáng)化學(xué)習(xí)問題，因?yàn)橛性S多非常復(fù)雜的程序可以壓縮視頻，但是你接下來看到的是未知的。

但是當(dāng)你把像MuZero之類的東西應(yīng)用于其中時，我們的初步結(jié)果顯示，在節(jié)省大量數(shù)據(jù)方面它看起來很有希望，可能是壓縮視頻所用比特的5%左右。

從長遠(yuǎn)來看，您認(rèn)為強(qiáng)化學(xué)習(xí)對哪些方面影響最大？

我認(rèn)為有一個系統(tǒng)，可以幫助用戶盡可能有效地實(shí)現(xiàn)目標(biāo)。一個真正強(qiáng)大的系統(tǒng)，可以看到你看到的所有事物，具有與你相同的感官，能夠幫助你實(shí)現(xiàn)人生目標(biāo)。我認(rèn)為那是非常重要的。

從長遠(yuǎn)來看，另一個變革性的東西可以提供個性化的醫(yī)療保健解決方案。有一些隱私和道德問題需要解決，但是它將具有巨大的變革價值；它將改變醫(yī)學(xué)的面貌和人們的生活質(zhì)量。

你認(rèn)為機(jī)器在你的有生之年能學(xué)會做什么嗎？

我不想給它設(shè)定一個時間表，但我想說，人類能做到的一切，我最終認(rèn)為機(jī)器都能做到。大腦是一個計算過程，我認(rèn)為那里沒有任何魔法。

我們能達(dá)到像人腦一樣理解和實(shí)現(xiàn)算法有效和強(qiáng)大的地步嗎？嗯，我不知道時間表會是怎樣。但是我認(rèn)為這個旅程是令人興奮的。

我們應(yīng)該致力于實(shí)現(xiàn)這一目標(biāo)。踏上這段旅程的第一步是試圖理解獲得智慧意味著什么？解決智力問題，我們在努力解決什么問題？

強(qiáng)化學(xué)習(xí)能否通向人工智能

你是否有信心可以從象棋和Atari等游戲到真正的智能？是什么讓你認(rèn)為強(qiáng)化學(xué)習(xí)會產(chǎn)生有常識理解的機(jī)器？

有一個假設(shè)，我們稱其為“獎勵足夠”假設(shè)。這個假設(shè)說，智能的基本過程可以像一個尋求最大化其獎勵的系統(tǒng)一樣簡單，而試圖實(shí)現(xiàn)目標(biāo)并試圖最大化獎勵的過程，足以產(chǎn)生我們在自然智能中看到的所有智能屬性。

這是一個假設(shè)，我們不知道它是否正確，但這為研究提供了方向。

如果我們具體地理解常識，那么“獎勵足夠”的假設(shè)就很好地說明了這一點(diǎn)，如果常識對系統(tǒng)有用，則意味著它實(shí)際上應(yīng)該幫助它更好地實(shí)現(xiàn)其目標(biāo)。

聽起來您認(rèn)為您的專長領(lǐng)域強(qiáng)化學(xué)習(xí)，在某種意義上是理解或“解決”智力的基礎(chǔ)。是這樣嗎？

我真的認(rèn)為這非常必要。我認(rèn)為最大的問題是，這是真的嗎？

因?yàn)檫@顯然違背了許多人對人工智能的看法，即智能中涉及到非常復(fù)雜的機(jī)制集合，每個機(jī)制都有自己要解決的問題或自己特殊的工作方式，或者甚至沒有任何明確的問題定義，比如常識。

這個理論說，不，實(shí)際上可能有一個非常清晰和簡單的方法來思考所有的智能，那就是它是一個目標(biāo)優(yōu)化系統(tǒng)。如果我們找到了真正優(yōu)化目標(biāo)的方法，那么所有這些其他的東西將會從這個過程中出現(xiàn)。

強(qiáng)化學(xué)習(xí)已經(jīng)存在了數(shù)十年，但有一段時間似乎是死胡同。實(shí)際上，你的一位導(dǎo)師告訴我，她試圖勸阻你不要從事這項工作。你為什么不理她繼續(xù)往前走？

許多人認(rèn)為，強(qiáng)化學(xué)習(xí)是可以用來解決在AI中許多問題的工具之一。我不這樣認(rèn)為，我把強(qiáng)化學(xué)習(xí)視為整體。如果我們想嘗試并盡可能地描述智能，我認(rèn)為強(qiáng)化學(xué)習(xí)本質(zhì)上是我們真正意義上的智能的特征。

當(dāng)您開始以這種方式看它時，我為何不能這樣處理呢？如果這確實(shí)是最接近我們所說的智能的東西，那么如果我們解決它，我們就將破解它。

你看看我所做的工作，我將一直致力于解決這個問題。解決諸如圍棋之類的問題時，在解決它的過程中，我們了解了智能在此過程中意味著什么。

你可以認(rèn)為強(qiáng)化學(xué)習(xí)是一種能力，它使一個智能體能夠獲得所有需要的其他能力。

你可以在類似AlphaGo的東西中看到一點(diǎn)點(diǎn)，在那里我們要求它做的只是贏得游戲，然而它學(xué)到了人類過去曾專有的知識——比賽的結(jié)束和開局。

算力是否會限制AI發(fā)展

DeepMind是否有壓力再做一次大型展示，例如AlphaGo？

這是個好問題。這個問題問得好。我覺得我們處于一個非常有利的位置，因?yàn)槲覀兊奈恢煤唾Y金都很安全，所有這些都非常非常安全。

嘗試進(jìn)行一個新的大規(guī)模的展示，唯一的壓力是推動通用智能的進(jìn)步。這是一種真正的特權(quán)，當(dāng)你在創(chuàng)業(yè)公司試圖獲得資金時，或者在學(xué)術(shù)界試圖獲得資助時，你就沒有這種特權(quán)。

強(qiáng)大的AI系統(tǒng)現(xiàn)在需要大量的計算機(jī)能力才能工作。你是否擔(dān)心這會阻礙進(jìn)展？

讓我們回到MuZero，這是一個算法的例子，它可以很好地隨著計算而伸縮。我們在Atari進(jìn)行了一項實(shí)驗(yàn)，結(jié)果表明即使使用非常少量的計算（大約相當(dāng)于一個GPU運(yùn)行幾周），它的效果也非常好，并且獲得了遠(yuǎn)遠(yuǎn)超過人類的性能。

有一些數(shù)字表明，如果把現(xiàn)在能利用的所有計算能力加起來，就能達(dá)到與人腦相當(dāng)?shù)乃?。所以可能更多的是我們需要想出更聰明的算法?/p>

而MuZero的美妙之處在于，它正在建立自己的模型，開始了解世界是如何運(yùn)轉(zhuǎn)的。這種想象力是利用計算開始展望未來，想象接下來會發(fā)生什么的一種方式。

人工智能倫理

一些軍火商正在利用強(qiáng)化學(xué)習(xí)來建造更強(qiáng)的武器系統(tǒng)。你對此有何感想？你有沒有想過你的一些作品不應(yīng)該公開發(fā)表？

我反對在任何致命武器中使用AI，并希望我們在禁止致命自動武器方面取得更多進(jìn)展。DeepMind及其聯(lián)合創(chuàng)始人是《致命自動武器承諾》的簽署方，攻擊性技術(shù)應(yīng)始終處于適當(dāng)?shù)娜祟惪刂浦隆?/p>

然而，我們?nèi)匀幌嘈牛m當(dāng)發(fā)布我們的方法是科學(xué)的基石，通用AI算法的發(fā)展將在眾多積極應(yīng)用中帶來更大的整體社會效益。

原文鏈接：

https://www.wired.com/story/what-alphago-teach-how-people-learn/

— 完 —

本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【量子位】原創(chuàng)內(nèi)容，未經(jīng)賬號授權(quán)，禁止隨意轉(zhuǎn)載。

原標(biāo)題：《AlphaGo之父對話《連線》，曾被導(dǎo)師勸阻研究強(qiáng)化學(xué)習(xí)，如今獲得ACM計算獎》

閱讀原文