- +1
世界模型的三個(gè)問(wèn)題:定義、數(shù)據(jù)與未完成的商業(yè)驗(yàn)證

2026年4月16日,騰訊和阿里在同一天各自發(fā)布了一款「世界模型」產(chǎn)品。前者是開源的混元3D世界模型2.0(HY-World 2.0),后者是主打?qū)崟r(shí)交互的HappyOyster。這種巧合在科技行業(yè)并不罕見,競(jìng)爭(zhēng)對(duì)手盯著彼此的發(fā)布節(jié)奏,誰(shuí)也不想慢半拍。
過(guò)去兩年,圍繞「世界模型」的討論在學(xué)術(shù)界和產(chǎn)業(yè)界一直持續(xù)升溫,但大多停留在預(yù)言和爭(zhēng)論層面。真正把這個(gè)話題推向公眾視野的,是Meta前首席AI科學(xué)家楊立昆(Yann LeCun)在2025年底MIT研討會(huì)上的一番話。他說(shuō),“三到五年內(nèi),世界模型將取代LLM成為主流AI架構(gòu),沒(méi)有理智正常的人還會(huì)用我們今天這種大語(yǔ)言模型”。
這話在硅谷得罪了不少人,也讓「世界模型」這個(gè)詞真正進(jìn)入了主流討論。
楊立昆的預(yù)言是否會(huì)成真,業(yè)界看法分歧極大。但有一件事正在發(fā)生:資本、人才和頂級(jí)實(shí)驗(yàn)室的注意力,都在向這個(gè)方向集中。李飛飛的World Labs已完成新一輪10億美元融資,英偉達(dá)的Cosmos平臺(tái)下載量突破500萬(wàn)次,楊立昆本人離開Meta創(chuàng)立AMI Labs,完成10.3億美元種子輪融資。
在國(guó)內(nèi),騰訊、阿里、生數(shù)科技、群核科技各自押注不同路線,中國(guó)玩家在這場(chǎng)競(jìng)爭(zhēng)中的參與深度遠(yuǎn)超大多數(shù)外界觀察者的預(yù)期。
在此背景之下,本文試圖回答三個(gè)問(wèn)題:世界模型和大語(yǔ)言模型的本質(zhì)邊界在哪里?全球的技術(shù)格局是如何分化的?以及中國(guó)玩家在這條賽道上的真實(shí)處境是什么?三個(gè)問(wèn)題互相咬合,分開看都不完整。
大語(yǔ)言模型的盲區(qū),以及世界模型從哪里開始
LLM的核心機(jī)制是在語(yǔ)言空間里找規(guī)律,給定前面的詞,然后預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率。
這個(gè)機(jī)制在大規(guī)模數(shù)據(jù)上訓(xùn)練之后,涌現(xiàn)出了令人驚訝的能力:寫作、推理、編程、翻譯。但這種能力的底層,始終是統(tǒng)計(jì)意義上的語(yǔ)言規(guī)律,而不是對(duì)物理世界的真實(shí)理解。LLM知道「玻璃杯掉到地上會(huì)碎」,是因?yàn)檫@個(gè)句子在訓(xùn)練數(shù)據(jù)里出現(xiàn)過(guò)無(wú)數(shù)次,并不是因?yàn)樗斫饬藦椥阅A?、?yīng)力傳導(dǎo)和沖擊能量。對(duì)它來(lái)說(shuō),「重力」是一個(gè)頻繁與特定語(yǔ)境共現(xiàn)的詞語(yǔ),卻不是一個(gè)可以在新場(chǎng)景里推廣應(yīng)用的物理規(guī)律。
這個(gè)區(qū)別在聊天、摘要、代碼生成這類任務(wù)里無(wú)關(guān)緊要,LLM已經(jīng)足夠好用。但當(dāng)AI需要和物理世界發(fā)生真實(shí)的交互,局限就變得清晰起來(lái)。
讓機(jī)器人規(guī)劃一條從桌邊繞過(guò)障礙物取到杯子的路徑,需要理解三維空間、物體的形狀和質(zhì)量、動(dòng)作的力度和方向;讓自動(dòng)駕駛系統(tǒng)預(yù)測(cè)前方車輛在下一秒的位置,需要理解速度、加速度和駕駛意圖;讓一個(gè)AI角色在游戲世界里做出合理的行為,需要理解場(chǎng)景的因果結(jié)構(gòu),而不只是像素的視覺(jué)一致性。這些任務(wù),語(yǔ)言建模的框架從根本上就不適合處理。
世界模型的出發(fā)點(diǎn),正是填補(bǔ)這個(gè)空缺。簡(jiǎn)單說(shuō),世界模型預(yù)測(cè)的不是下一個(gè)詞,而是下一個(gè)狀態(tài)。物體在空間中的位置會(huì)怎么變化,一個(gè)動(dòng)作會(huì)引發(fā)什么樣的連鎖反應(yīng),光線在不同材質(zhì)表面的反射在視角移動(dòng)后如何演變。它試圖構(gòu)建的是一個(gè)對(duì)物理現(xiàn)實(shí)的內(nèi)部表征,讓AI能夠在這個(gè)表征上進(jìn)行規(guī)劃、預(yù)測(cè)和推斷,而不只是在語(yǔ)言空間里進(jìn)行模式匹配。

打一個(gè)不那么精確但有助于理解的比方,LLM像一位讀遍了旅游導(dǎo)覽的圖書管理員,他能告訴你北京任何一條街道胡同的名字和歷史,但如果你把他放在那條街上,他未必知道往哪個(gè)方向走才能找到最近的地鐵站。而世界模型則試圖訓(xùn)練出一個(gè)真正在城市里行走過(guò)、對(duì)空間有具身感知的向?qū)А?/p>
這無(wú)關(guān)知識(shí)量的大小,而是知識(shí)性質(zhì)的區(qū)別。
然而,「世界模型」在當(dāng)下又不是一個(gè)邊界清晰的技術(shù)概念。不同團(tuán)隊(duì)在做的事情,差異遠(yuǎn)比名字所暗示的要大。有些團(tuán)隊(duì)做的是基于視頻的交互式生成系統(tǒng),核心是讓模型學(xué)會(huì)「如果用戶這樣操作,畫面接下來(lái)會(huì)怎么變」;有些團(tuán)隊(duì)做的是從圖像或描述直接生成可編輯的三維幾何資產(chǎn),重點(diǎn)在于輸出物的工程可用性;還有些團(tuán)隊(duì)做的是為機(jī)器人和自動(dòng)駕駛提供物理仿真訓(xùn)練環(huán)境,重點(diǎn)在于數(shù)據(jù)的物理正確性。
這三條路線的交集有限,背后的商業(yè)邏輯也截然不同。理解這一點(diǎn),是看懂當(dāng)前格局的前提。
三條路線的技術(shù)分野與戰(zhàn)略選擇
從技術(shù)路線來(lái)看,全球世界模型競(jìng)爭(zhēng)目前大致沿三個(gè)方向展開,每條方向都有其內(nèi)在邏輯,也有其固有的局限。
第一條路線可以叫做「視頻基世界模型」。這條路線的核心假設(shè)是視頻是物理世界最豐富的記錄,只要讓模型足夠深入地學(xué)習(xí)視頻數(shù)據(jù),它就能學(xué)會(huì)世界的運(yùn)行規(guī)律。Google的Genie系列是這條路線的學(xué)術(shù)代表,Genie 3于2025年8月向部分研究人員開放實(shí)驗(yàn)性預(yù)覽版本,用戶輸入文字描述,模型實(shí)時(shí)生成可交互的三維場(chǎng)景。
李飛飛的World Labs推出的Marble,能夠從文本或圖片生成風(fēng)格多樣的可漫游虛擬世界。阿里巴巴ATH事業(yè)部的HappyOyster走的也是這條路,其差異化在于原生多模態(tài)架構(gòu)與流式生成能力的結(jié)合。模型在生成過(guò)程中持續(xù)接收用戶指令并實(shí)時(shí)響應(yīng),用戶可以在已生成的場(chǎng)景里調(diào)整鏡頭、改寫劇情、調(diào)度角色,而不是等待一段完整的視頻渲染完成再看結(jié)果。

目前HappyOyster支持連續(xù)三分鐘以上的實(shí)時(shí)導(dǎo)演級(jí)交互,在體驗(yàn)層面是國(guó)內(nèi)這條路線目前最成熟的產(chǎn)品。但這條路線有一個(gè)內(nèi)置的局限,那就是基于視頻學(xué)習(xí)的世界模型,生成的是像素意義上的一致性,而不一定是物理意義上的真實(shí)性。畫面看起來(lái)連貫,不代表背后有真實(shí)的三維結(jié)構(gòu);光影看起來(lái)合理,也不代表模型真正理解了光的傳播規(guī)律。
HappyOyster也在技術(shù)文檔里承認(rèn),漫游模式和導(dǎo)演模式目前尚未完全打通,長(zhǎng)時(shí)序場(chǎng)景中的一致性仍有待提升。這也是整條路線當(dāng)前階段共同面臨的工程挑戰(zhàn)。
第二條路線是「3D資產(chǎn)化世界模型」,騰訊混元3D世界模型HY-World 2.0是這條路線目前最有代表性的產(chǎn)品。這條路線的關(guān)鍵轉(zhuǎn)變是直接生成可編輯的三維幾何資產(chǎn),例如Mesh、3DGS、點(diǎn)云,這些文件格式可以無(wú)縫導(dǎo)入U(xiǎn)nity和Unreal Engine等主流游戲引擎,進(jìn)行二次編輯和物理交互。

而騰訊押注這條路線,也有非常清晰的戰(zhàn)略邏輯。騰訊擁有海量的3D游戲數(shù)據(jù)和成熟的引擎工程積累,游戲3D內(nèi)容的生產(chǎn)效率是最直接的商業(yè)驗(yàn)證場(chǎng)景。傳統(tǒng)上,一張開放世界地圖的建模周期以月為單位,需要數(shù)十名美術(shù)人員參與;HY-World 2.0,生成一個(gè)可交互的3D游戲原型場(chǎng)景大約需要12分鐘。這個(gè)數(shù)字即便打個(gè)折扣,對(duì)游戲行業(yè)的影響也是巨大的。
不過(guò),這條路線同樣有其局限。3D資產(chǎn)生成解決的是內(nèi)容生產(chǎn)效率問(wèn)題,但它本質(zhì)上仍然是一個(gè)生成模型,而不是一個(gè)真正理解物理規(guī)律的仿真系統(tǒng)。它能生成視覺(jué)上合理的3D場(chǎng)景,卻不一定能保證物理意義上的正確性,比如碰撞檢測(cè)、材質(zhì)屬性、動(dòng)力學(xué)行為,這些在游戲引擎里還需要工程師介入校正。這個(gè)差距在游戲原型階段尚可接受,但如果要遷移到機(jī)器人訓(xùn)練或數(shù)字孿生這類對(duì)物理精度要求極高的場(chǎng)景,距離就會(huì)被放大。
因此,第三條路線則更接近基礎(chǔ)設(shè)施層,可以叫做「空間數(shù)據(jù)與仿真平臺(tái)」。這條路線不做終端產(chǎn)品,它主要提供高質(zhì)量的三維訓(xùn)練數(shù)據(jù)、物理正確的仿真環(huán)境、連接虛擬和真實(shí)世界的工具鏈。
國(guó)內(nèi)這條線路最值得關(guān)注的案例是群核科技。這家家裝設(shè)計(jì)軟件公司,入局邏輯與騰訊、阿里完全不同,它是從十余年家裝設(shè)計(jì)軟件的數(shù)據(jù)積累里,發(fā)現(xiàn)了一條通向空間智能的路徑。
酷家樂(lè)平臺(tái)上積累的4.8億個(gè)三維模型和5億個(gè)結(jié)構(gòu)化空間場(chǎng)景,是物理正確的真實(shí)世界設(shè)計(jì)數(shù)據(jù)。群核科技在2025年英偉達(dá)GTC大會(huì)上開源的空間語(yǔ)言模型SpatialLM,僅憑一段手機(jī)拍攝的視頻就能生成帶有物理約束的三維場(chǎng)景布局,開源后登上HuggingFace趨勢(shì)榜第二。其空間智能平臺(tái)SpatialVerse已與智元機(jī)器人、銀河通用、穹徹智能等具身智能公司建立合作,為機(jī)器人提供虛擬訓(xùn)練環(huán)境。
2026年4月17日,群核科技以「全球空間智能第一股」身份登陸港交所,上市首日股價(jià)高開171%。
從上文三條路線的橫向?qū)Ρ葋?lái)看,中美的競(jìng)爭(zhēng)格局呈現(xiàn)明顯結(jié)構(gòu)性的差異。美國(guó)的格局是:大平臺(tái)公司(英偉達(dá)、Google)做通用基礎(chǔ)設(shè)施和前沿研究,學(xué)術(shù)創(chuàng)業(yè)公司(World Labs、AMI Labs)做技術(shù)探索,中間的商業(yè)化產(chǎn)品層尚未出現(xiàn)成熟玩家——Meta和OpenAI在世界模型領(lǐng)域的實(shí)質(zhì)性投入相對(duì)謹(jǐn)慎,前者尚在理論層表態(tài),后者的重心仍在大語(yǔ)言模型的商業(yè)化上。
中國(guó)的格局是頭部大廠更傾向于從自身最強(qiáng)的垂直場(chǎng)景切入,同時(shí)有一批垂直數(shù)據(jù)公司在上游資產(chǎn)層卡位。兩種格局的競(jìng)爭(zhēng)邏輯不同,美國(guó)更強(qiáng)調(diào)技術(shù)原理的通用性,中國(guó)更強(qiáng)調(diào)場(chǎng)景落地的速度和數(shù)據(jù)資產(chǎn)的稀缺性。這種差異,在下一階段的競(jìng)爭(zhēng)中會(huì)以什么形式顯現(xiàn),目前還不明朗。
“造勢(shì)”已經(jīng)開始,但“造血”還不清晰
如果把視線從宏觀層面的路徑比較下沉到產(chǎn)業(yè)微觀運(yùn)行時(shí),會(huì)發(fā)現(xiàn)上述的差異正在中國(guó)本土衍生出一系列具體的、短期內(nèi)難以回避的摩擦。中國(guó)玩家憑借場(chǎng)景與數(shù)據(jù)優(yōu)勢(shì)迅速入場(chǎng),但也正因?yàn)槿刖痔欤恍┗A(chǔ)性的共識(shí)與規(guī)則尚未建立,導(dǎo)致賽道在熱鬧的表象之下暗藏著獨(dú)特的系統(tǒng)性風(fēng)險(xiǎn)。
這些問(wèn)題業(yè)界鮮少正面討論,但它們真實(shí)存在,并將影響這條賽道未來(lái)兩三年的走向。
第一個(gè)問(wèn)題是定義的模糊性正在制造虛假的繁榮感。目前國(guó)內(nèi)大量「世界模型」產(chǎn)品的發(fā)布,使用的是同一個(gè)詞,指的卻是差異極大的東西。有的本質(zhì)是視頻生成模型做了一層交互包裝,有的是3D重建工具加了實(shí)時(shí)渲染能力,有的在做真正意義上的物理仿真。
這種定義的混亂在資本層面會(huì)造成誤判,用戶層面會(huì)積累失望,在行業(yè)層面則會(huì)模糊技術(shù)進(jìn)展和市場(chǎng)炒作之間的邊界。如果要給「真正的世界模型」一個(gè)有操作意義的判斷標(biāo)準(zhǔn),《新立場(chǎng)》認(rèn)為可以下這樣一個(gè)定義:模型能否在沒(méi)有顯式標(biāo)注的情況下,從原始感知數(shù)據(jù)里自主學(xué)習(xí)因果關(guān)系,并在從未見過(guò)的新場(chǎng)景里作出物理上可靠的預(yù)測(cè)。
如果用這個(gè)標(biāo)準(zhǔn)衡量當(dāng)前的大多數(shù)產(chǎn)品,距離還相當(dāng)遠(yuǎn)。當(dāng)然這不是說(shuō)這些產(chǎn)品沒(méi)有價(jià)值,而是把迭代進(jìn)展等同于范式躍遷,是一種需要警惕的認(rèn)知偷懶。
第二個(gè)問(wèn)題是數(shù)據(jù)壁壘的含金量被高估了。中國(guó)玩家確實(shí)擁有真實(shí)的數(shù)據(jù)優(yōu)勢(shì),比如騰訊的游戲三維數(shù)據(jù)、群核的空間設(shè)計(jì)數(shù)據(jù)、各家自動(dòng)駕駛公司的路測(cè)數(shù)據(jù),這些在體量上是真實(shí)的護(hù)城河。但世界模型對(duì)數(shù)據(jù)的要求和大語(yǔ)言模型存在根本性的不同。LLM可以從海量但嘈雜的文本里學(xué)到有用的規(guī)律,數(shù)據(jù)的廣度比精度更重要;世界模型需要的是物理正確、時(shí)序連貫、標(biāo)注精準(zhǔn)的三維數(shù)據(jù),質(zhì)量比數(shù)量更關(guān)鍵。

現(xiàn)有的數(shù)據(jù)資產(chǎn)里能真正用于世界模型訓(xùn)練的比例,遠(yuǎn)低于對(duì)外宣稱的規(guī)模。合成數(shù)據(jù)的爭(zhēng)議進(jìn)一步復(fù)雜化了這個(gè)問(wèn)題:由于高質(zhì)量真實(shí)三維數(shù)據(jù)的采集成本極高,很多團(tuán)隊(duì)轉(zhuǎn)向用模擬器生成合成數(shù)據(jù)來(lái)補(bǔ)充訓(xùn)練集。
2024年《自然》雜志報(bào)道的研究趨勢(shì)顯示,持續(xù)使用合成數(shù)據(jù)訓(xùn)練模型,會(huì)導(dǎo)致模型性能隨迭代輪次加速退化,這種現(xiàn)象研究者將其比作「近親繁殖」。這個(gè)問(wèn)題到今天還沒(méi)有被普遍接受的解決方案,也意味著中國(guó)玩家的數(shù)據(jù)優(yōu)勢(shì),比想象中更脆弱一些。
第三個(gè)問(wèn)題是老生常談的,商業(yè)化路徑是一道尚未解開的題。大語(yǔ)言模型在ChatGPT出現(xiàn)之后,商業(yè)模式逐漸清晰——API計(jì)費(fèi)、企業(yè)訂閱、垂直行業(yè)部署,鏈路已經(jīng)跑通。
而世界模型到今天為止,沒(méi)有一家公司拿出過(guò)可復(fù)制的商業(yè)閉環(huán)。騰訊的HY-World 2.0目前主要作為開發(fā)者工具開源,群核科技2025年96.9%的營(yíng)收來(lái)自軟件訂閱服務(wù)(主要為酷家樂(lè)和Coohom產(chǎn)品),而空間智能相關(guān)業(yè)務(wù)(包括SpatialVerse等)僅占3.1%,其中核心的SpatialVerse平臺(tái)僅貢獻(xiàn)0.6%的營(yíng)收。
游戲公司愿意為AI生成的3D場(chǎng)景付費(fèi),前提是生成質(zhì)量能夠真正替代或大幅縮減人工成本,目前看來(lái)差距尚存;影視行業(yè)的工作流整合周期比外界估計(jì)的要長(zhǎng)得多;具身智能公司的采購(gòu)規(guī)模尚未達(dá)到商業(yè)化所需的體量。世界模型目前更像是一張有巨大想象空間但兌現(xiàn)時(shí)間尚不確定的支票。
這既是當(dāng)前的困境,也是未來(lái)的機(jī)會(huì)。毫無(wú)疑問(wèn),未來(lái)第一個(gè)在某個(gè)垂直場(chǎng)景里驗(yàn)證出可復(fù)制商業(yè)單元的玩家,將會(huì)獲得遠(yuǎn)遠(yuǎn)超出比例的先發(fā)優(yōu)勢(shì)。
寫在最后
大語(yǔ)言模型的崛起,證明了當(dāng)足夠大規(guī)模地預(yù)測(cè)語(yǔ)言,涌現(xiàn)出來(lái)的能力會(huì)遠(yuǎn)遠(yuǎn)超出設(shè)計(jì)者的預(yù)期。這種「規(guī)模涌現(xiàn)」的邏輯是否能夠遷移到物理世界的建模上,正是「世界模型」最核心的賭注。
這在技術(shù)層面的挑戰(zhàn)是真實(shí)的,物理世界的復(fù)雜度遠(yuǎn)高于語(yǔ)言空間。語(yǔ)言的基本單元是離散的詞語(yǔ),物理世界的狀態(tài)是連續(xù)的、高維的,依賴于遠(yuǎn)比語(yǔ)法規(guī)則復(fù)雜的因果結(jié)構(gòu)。數(shù)據(jù)的采集和標(biāo)注成本比文本高出幾個(gè)數(shù)量級(jí),訓(xùn)練范式需要重新設(shè)計(jì),評(píng)估方法也遠(yuǎn)不如NLP領(lǐng)域成熟。這條路比語(yǔ)言模型走過(guò)的路更長(zhǎng),更難,充滿了未知的彎路。
但驅(qū)動(dòng)力同樣是真實(shí)的,機(jī)器人、自動(dòng)駕駛、數(shù)字孿生、沉浸式內(nèi)容等領(lǐng)域?qū)Α刚嬲斫馕锢硎澜绲腁I」有著真實(shí)的剛需,而這種需求隨著智能硬件的普及只會(huì)越來(lái)越強(qiáng)。
而中國(guó)在這場(chǎng)競(jìng)爭(zhēng)里的優(yōu)勢(shì)和劣勢(shì)都很具體:場(chǎng)景數(shù)據(jù)的積累和垂直行業(yè)的落地壓力是有力的支撐,基礎(chǔ)研究的深度和商業(yè)驗(yàn)證的路徑是真實(shí)的短板。
騰訊和阿里在同一天發(fā)布世界模型產(chǎn)品,說(shuō)明在中國(guó)最頭部的科技公司內(nèi)部,對(duì)AI下一個(gè)主戰(zhàn)場(chǎng)的判斷已經(jīng)形成了共識(shí)。至于這種共識(shí)是否正確,要等時(shí)間來(lái)驗(yàn)證。
這可能比我們想象得更近,也比我們期望得更遠(yuǎn)。
*題圖及文中配圖來(lái)源于網(wǎng)絡(luò)。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




