- +1
世界模型:在詞語的盡頭,重建重力的國度
如果你曾困惑,為什么人工智能能寫出精妙的詩句,卻會(huì)在描繪一顆滾落的蘋果時(shí)忽略重力。那么你已經(jīng)在無意中觸碰到了當(dāng)今AI領(lǐng)域最核心的斷層:語言模型的輝煌,與世界模型的缺席。
前者棲居于詞語編織的符號(hào)之網(wǎng),后者則試圖在代碼中重建萬物運(yùn)轉(zhuǎn)的隱秘法則。這場(chǎng)從“會(huì)說”到“會(huì)想”、從“知道”到“懂得”的遷徙,正定義著通用人工智能真正的起跑線。
什么是世界模型,與語言模型有什么不同
世界模型這個(gè)概念其實(shí)并不算新,它最早源于認(rèn)知科學(xué)和人工智能里對(duì)“人類如何想象未來”的好奇。核心靈感源于人類自然形成的世界心智模型。即我們通過感官獲取的抽象信息在大腦中被轉(zhuǎn)化為對(duì)周圍世界的具象理解。
你可以把它理解成大腦里那個(gè)能讓你閉著眼也能摸黑走到衛(wèi)生間的小劇場(chǎng)——它不依賴具體的文字描述,而是靠對(duì)空間、時(shí)間、因果關(guān)系的直覺推演。比如你拋出一塊石頭,即便不看,你的腦海里也能自動(dòng)補(bǔ)全那道拋物線的軌跡,并預(yù)判它大概會(huì)落在哪里。這就是世界模型在起作用:它試圖學(xué)習(xí)物理世界或虛擬環(huán)境底層的運(yùn)轉(zhuǎn)規(guī)律,從而預(yù)測(cè)下一刻會(huì)發(fā)生什么。
而目前大家熟知的語言模型更像是住在圖書館里的博學(xué)家。它極度擅長(zhǎng)從海量文本中捕捉詞匯之間的統(tǒng)計(jì)關(guān)聯(lián),知道“蘋果”后面常跟著“吃”或者“手機(jī)”,但它并不真正理解蘋果從樹上掉下來是因?yàn)槿f有引力。語言模型活在符號(hào)和語義的空間里,它對(duì)世界的認(rèn)知是通過閱讀文字“聽”來的,而不是通過推演物理規(guī)則“試”出來的。
兩者的核心差異就在于對(duì)“因果”和“時(shí)空連續(xù)性”的敏感度。語言模型能寫出“杯子摔碎了”這樣通順的句子,卻很難精準(zhǔn)判斷碎片四濺的具體角度和落點(diǎn);世界模型則相反,它可能不善言辭,但內(nèi)心卻對(duì)力與運(yùn)動(dòng)、遮擋與存續(xù)有著沉默的估算。當(dāng)下的趨勢(shì)是將二者縫合,讓AI不僅能言善辯,還能在腦海里的那塊小劇場(chǎng)中把故事真實(shí)地“演”一遍,這樣它給出的回答才會(huì)既符合語法,又符合常識(shí)。
為什么要發(fā)展世界模型,應(yīng)用場(chǎng)景有哪些
當(dāng)今天的語言模型能寫出流暢的論文、畫出逼真的圖像,人們卻發(fā)現(xiàn)它依然會(huì)犯常識(shí)性的錯(cuò)誤。這種對(duì)物理世界基本法則的淺顯,正是推動(dòng)世界模型走上前臺(tái)的根本原因。我們需要的不是一個(gè)更會(huì)說話的機(jī)器,而是一個(gè)真正“理解”重力、碰撞、光線如何流淌的數(shù)字大腦。
而世界模型的核心,就是讓AI在內(nèi)部建立一套關(guān)于三維空間如何運(yùn)轉(zhuǎn)的心智模擬。它不再僅僅統(tǒng)計(jì)下一個(gè)詞出現(xiàn)的概率,而是像人類嬰兒一樣,開始推測(cè)物體被遮擋后的軌跡,預(yù)判潑出的水會(huì)往哪個(gè)方向流。
它的應(yīng)用場(chǎng)景則隱藏在這些缺失的物理直覺里。例如在具身智能領(lǐng)域,與其讓價(jià)值百萬的機(jī)器人反復(fù)摔跤去學(xué)習(xí)走路,不如先讓它在一個(gè)高保真的虛擬世界里練習(xí)成千上萬次。那里有真實(shí)的摩擦力、有會(huì)滾動(dòng)的石子、有不同軟硬的地面。自動(dòng)駕駛的訓(xùn)練更是如此,真實(shí)道路上不可能去刻意制造一場(chǎng)連環(huán)追尾來教會(huì)算法避險(xiǎn),但世界模型構(gòu)建的仿真環(huán)境里,暴風(fēng)雪和逆光下的鬼探頭可以毫無代價(jià)地上演無數(shù)遍。

說到底,發(fā)展世界模型不是為了造一個(gè)更聰明的聊天對(duì)象,而是為了給人工智能裝上一套關(guān)于存在本身的坐標(biāo)系,讓它在理解世界規(guī)律的基礎(chǔ)上,去預(yù)測(cè)、去創(chuàng)造、去真正地與我們腳下的現(xiàn)實(shí)對(duì)話。
世界模型的技術(shù)路徑有哪些,各自的優(yōu)缺點(diǎn)又是什么
而關(guān)于世界模型的技術(shù)路徑,目前還沒有大一統(tǒng)的標(biāo)準(zhǔn)答案。如果從現(xiàn)有的探索方向來看,業(yè)界大致分化出三個(gè)典型的派別。
第一派可以稱之為 “認(rèn)知派” ,走的是極致的抽象路線,代表人物是圖靈獎(jiǎng)得主楊立昆(Yann LeCun)。他覺得像Sora那樣逐幀預(yù)測(cè)畫面,本質(zhì)是一種像素幻覺,太浪費(fèi)算力。楊立昆主導(dǎo)的JEPA架構(gòu),核心思想是不去管畫面漂不漂亮,而是讓AI在一個(gè)壓縮過的潛在空間里,純粹去預(yù)測(cè)“接下來會(huì)發(fā)生什么”的抽象狀態(tài)。這就好比一個(gè)經(jīng)驗(yàn)豐富的老司機(jī),開車時(shí)根本不用計(jì)算每片樹葉的軌跡,他的大腦只是在處理“前方有障礙物需要減速”這一層核心信息。這條路線的優(yōu)勢(shì)在于計(jì)算效率極高,對(duì)因果邏輯的把握也更貼近直覺,非常適合給機(jī)器人當(dāng)后臺(tái)決策系統(tǒng)。但缺點(diǎn)也很明顯,因?yàn)樗艞壛丝梢暬?,我們?nèi)祟愅耆翱床灰姟彼乃伎歼^程,離能直接落地的商業(yè)產(chǎn)品還有相當(dāng)長(zhǎng)的距離。
第二派是 “空間派” ,走的是視覺直觀的路線,代表是李飛飛團(tuán)隊(duì)的Marble模型。這條路徑更接地氣,它利用高斯?jié)姙R這類3D渲染技術(shù),像神筆馬良一樣,直接憑空構(gòu)建出能夠360度探索的精美三維場(chǎng)景。這種做法的優(yōu)勢(shì)肉眼可見,它能生成持久、可編輯的3D資產(chǎn),可以直接打通游戲引擎的工作流,商業(yè)化前景非常光明。但它的短板同樣很扎眼:模型捕捉到的更多是世界的“皮相”,缺乏對(duì)物理規(guī)律的內(nèi)在理解。
第三派則是 “模擬器派” ,試圖在前兩者之間找到一條折中之道,代表是谷歌的Genie 3和阿里的HappyOyster。它不像認(rèn)知派那樣完全拋棄視覺,也不像空間派那樣生成靜態(tài)資產(chǎn),而是創(chuàng)造出一個(gè)像電子游戲般、能根據(jù)用戶輸入實(shí)時(shí)演進(jìn)的交互式視頻環(huán)境。比如你一聲令下讓它“下雨”,整個(gè)世界就會(huì)動(dòng)態(tài)響應(yīng)。它的優(yōu)點(diǎn)在于畫面和用戶是雙向奔赴的,支持長(zhǎng)時(shí)間的連貫探索。但說到底,其內(nèi)核還是基于視頻生成的邏輯,并沒真正掌握背后的物理因果,在機(jī)器人訓(xùn)練等需要精確物理推演的領(lǐng)域,能力還是不如認(rèn)知派那么硬核。
所以,盡管大家都在談“世界模型”,但不同技術(shù)路徑其實(shí)是在搭建不同功能的“地基”,一個(gè)重邏輯,一個(gè)重表現(xiàn),一個(gè)重交互。哪種地基才能最終撐起AGI這座大廈,眼下還沒有定論。
結(jié)語
回望這場(chǎng)關(guān)于世界模型的探討,從它試圖彌合語言與物理之間那道幽深的裂縫開始,到多元技術(shù)路徑的各自跋涉,我們看到的不僅是算法架構(gòu)的分野,更是對(duì)“智能”二字截然不同的想象。
語言模型教會(huì)了機(jī)器如何像人類一樣言說,而世界模型正試圖教會(huì)它如何像人類一樣沉默地預(yù)演未來——在說出答案之前,先在內(nèi)心的微型劇場(chǎng)里讓水潑出、讓球落地、讓光影流轉(zhuǎn)。當(dāng)然,眼下的現(xiàn)實(shí)尚顯骨感:認(rèn)知派的抽象邏輯雖強(qiáng),卻難見其形;空間派的視覺華美,卻無物理之魂;模擬器派的交互雖靈,卻終究隔著一層因果的薄紗。然而正是這種路徑的百花齊放,預(yù)示著一種深刻的共識(shí)正在凝聚:通往更高階智能的道路,必須向下扎根,扎進(jìn)對(duì)時(shí)空、因果和物質(zhì)連續(xù)性的敬畏之中。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




