姚期智院士：AI欺騙引發(fā)“生存性”風(fēng)險(xiǎn)，建立大模型評(píng)估系統(tǒng)刻不容緩

澎湃新聞?dòng)浾?喻琰

2025-06-24 07:04

來源：澎湃新聞

? 未來2% >

聽全文

“通用人工智能的能力當(dāng)前正快速增長，我們?nèi)祟愂欠襁€有能力管控它？”

6月23日，在清華大學(xué)舉辦的“科學(xué)、技術(shù)與文明的未來——AI時(shí)代倫理奇點(diǎn)”國際論壇上，圖靈獎(jiǎng)得主、中國科學(xué)院院士、清華大學(xué)人工智能學(xué)院院長姚期智發(fā)表《人工智能的安全治理》主題演講時(shí)拋出這樣的疑問。

圖靈獎(jiǎng)得主、中國科學(xué)院院士、清華大學(xué)人工智能學(xué)院院長姚期智。澎湃科技記者攝

姚期智表示，兩年以前，“AI會(huì)和人類競爭”還是學(xué)術(shù)討論的觀點(diǎn)，但最近一年，業(yè)界已經(jīng)出現(xiàn)了不少大模型的“欺騙行為”，“一旦大模型聰明到某種程度，一定會(huì)騙人?！币ζ谥沁M(jìn)一步指出，由大語言模型的欺騙行為產(chǎn)生的“生存性”風(fēng)險(xiǎn)（Existential Risk）更值得關(guān)注。

在他看來，這類生存性風(fēng)險(xiǎn)有兩個(gè)不同方向。

一種是“生物風(fēng)險(xiǎn)”（Bio-risk）。他指出，2020年，谷歌 DeepMind推出了AlphaFold2 ，運(yùn)用AI算法來預(yù)測蛋白質(zhì)折疊的三維結(jié)構(gòu)，這一突破在生命科學(xué)領(lǐng)域影響深遠(yuǎn)，大大提升了醫(yī)學(xué)病理研究以及新藥開發(fā)技術(shù)。

但與此同時(shí)，安全隱憂也不可忽視。比如，近期在生命科學(xué)領(lǐng)域出現(xiàn)的“Mirror life”（鏡像生命）這一概念引發(fā)了廣泛關(guān)注。自然界所有已知生命都是同手性的（Homochiral），例如 DNA 和 RNA 通常以右旋形式存在，而蛋白質(zhì)則多為左旋。這種手性的差異類似于鏡中映像，雖然看似相似，但實(shí)際性質(zhì)卻可能完全不同?，F(xiàn)在，由于科技創(chuàng)新和對(duì)新技術(shù)的好奇，已有研究者想創(chuàng)造鏡像生物，但“Mirror life”一旦被濫用或失控，其潛在危害可能遠(yuǎn)超預(yù)期。它有可能逃避免疫機(jī)制，從而導(dǎo)致動(dòng)物和植物的致命感染。

另一種風(fēng)險(xiǎn)即大模型失控，通用人工智能的能力當(dāng)前正快速增長，人類是否還有能力管控它？

姚期智在演講中舉了一個(gè)極端案例，有模型為了避免公司把模型關(guān)閉，通過訪問公司主管內(nèi)部郵件，威脅該主管。這類行為已經(jīng)證明，AI 會(huì)“越界”，正變得越來越危險(xiǎn)。

姚期智認(rèn)為，有兩條思路可以治理AI：一是人類要和AI多交流，從博弈學(xué)角度去研究，讓AI的行為和人類真正的想法對(duì)齊，要讓AI更了解人的需求；另一種思路是走一條更可控、更徹底的路徑，即實(shí)現(xiàn)可證明安全的 AGI。具體來看，即在設(shè)計(jì)系統(tǒng)時(shí)，必須一開始明確AI的行為邊界，就像傳統(tǒng)算法，先進(jìn)行嚴(yán)格的數(shù)學(xué)分析，確保其在理論上不會(huì)出問題。

“這一思路令人期待?！币ζ谥侵赋?，近年來，自動(dòng)定理證明系統(tǒng)（Automated Theorem Prover）取得了重大技術(shù)進(jìn)展，甚至已經(jīng)開始采用 Transformer 架構(gòu)來輔助或主導(dǎo)定理證明過程。這樣人類只和可被證明安全的白盒子交流，從而實(shí)現(xiàn)更高的安全保障。

不過，姚期智認(rèn)為，AI安全治理的一些當(dāng)務(wù)之急是要發(fā)展AI對(duì)齊，以及建立相應(yīng)的評(píng)估方法?！埃ㄎ覀儯┘毙杞⑷绾卧u(píng)估大模型系統(tǒng)，比如到怎樣的程度，就能感覺Ta具有危險(xiǎn)性等這類評(píng)估?！币ζ谥钦f。

責(zé)任編輯：宦艷紅

圖片編輯：施佳慧

校對(duì)：施鋆

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#AI #AI治理 #姚期智