下載客戶端

登錄

世界模型的三個(gè)問(wèn)題：定義、數(shù)據(jù)與未完成的商業(yè)驗(yàn)證

2026-04-23 15:50

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽全文

2026年4月16日，騰訊和阿里在同一天各自發(fā)布了一款「世界模型」產(chǎn)品。前者是開源的混元3D世界模型2.0（HY-World 2.0），后者是主打?qū)崟r(shí)交互的HappyOyster。這種巧合在科技行業(yè)并不罕見，競(jìng)爭(zhēng)對(duì)手盯著彼此的發(fā)布節(jié)奏，誰(shuí)也不想慢半拍。

過(guò)去兩年，圍繞「世界模型」的討論在學(xué)術(shù)界和產(chǎn)業(yè)界一直持續(xù)升溫，但大多停留在預(yù)言和爭(zhēng)論層面。真正把這個(gè)話題推向公眾視野的，是Meta前首席AI科學(xué)家楊立昆（Yann LeCun）在2025年底MIT研討會(huì)上的一番話。他說(shuō)，“三到五年內(nèi)，世界模型將取代LLM成為主流AI架構(gòu)，沒(méi)有理智正常的人還會(huì)用我們今天這種大語(yǔ)言模型”。

這話在硅谷得罪了不少人，也讓「世界模型」這個(gè)詞真正進(jìn)入了主流討論。

楊立昆的預(yù)言是否會(huì)成真，業(yè)界看法分歧極大。但有一件事正在發(fā)生：資本、人才和頂級(jí)實(shí)驗(yàn)室的注意力，都在向這個(gè)方向集中。李飛飛的World Labs已完成新一輪10億美元融資，英偉達(dá)的Cosmos平臺(tái)下載量突破500萬(wàn)次，楊立昆本人離開Meta創(chuàng)立AMI Labs，完成10.3億美元種子輪融資。

在國(guó)內(nèi)，騰訊、阿里、生數(shù)科技、群核科技各自押注不同路線，中國(guó)玩家在這場(chǎng)競(jìng)爭(zhēng)中的參與深度遠(yuǎn)超大多數(shù)外界觀察者的預(yù)期。

在此背景之下，本文試圖回答三個(gè)問(wèn)題：世界模型和大語(yǔ)言模型的本質(zhì)邊界在哪里？全球的技術(shù)格局是如何分化的？以及中國(guó)玩家在這條賽道上的真實(shí)處境是什么？三個(gè)問(wèn)題互相咬合，分開看都不完整。

大語(yǔ)言模型的盲區(qū)，以及世界模型從哪里開始

LLM的核心機(jī)制是在語(yǔ)言空間里找規(guī)律，給定前面的詞，然后預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率。

這個(gè)機(jī)制在大規(guī)模數(shù)據(jù)上訓(xùn)練之后，涌現(xiàn)出了令人驚訝的能力：寫作、推理、編程、翻譯。但這種能力的底層，始終是統(tǒng)計(jì)意義上的語(yǔ)言規(guī)律，而不是對(duì)物理世界的真實(shí)理解。LLM知道「玻璃杯掉到地上會(huì)碎」，是因?yàn)檫@個(gè)句子在訓(xùn)練數(shù)據(jù)里出現(xiàn)過(guò)無(wú)數(shù)次，并不是因?yàn)樗斫饬藦椥阅Ａ?、?yīng)力傳導(dǎo)和沖擊能量。對(duì)它來(lái)說(shuō)，「重力」是一個(gè)頻繁與特定語(yǔ)境共現(xiàn)的詞語(yǔ)，卻不是一個(gè)可以在新場(chǎng)景里推廣應(yīng)用的物理規(guī)律。

這個(gè)區(qū)別在聊天、摘要、代碼生成這類任務(wù)里無(wú)關(guān)緊要，LLM已經(jīng)足夠好用。但當(dāng)AI需要和物理世界發(fā)生真實(shí)的交互，局限就變得清晰起來(lái)。

讓機(jī)器人規(guī)劃一條從桌邊繞過(guò)障礙物取到杯子的路徑，需要理解三維空間、物體的形狀和質(zhì)量、動(dòng)作的力度和方向；讓自動(dòng)駕駛系統(tǒng)預(yù)測(cè)前方車輛在下一秒的位置，需要理解速度、加速度和駕駛意圖；讓一個(gè)AI角色在游戲世界里做出合理的行為，需要理解場(chǎng)景的因果結(jié)構(gòu)，而不只是像素的視覺(jué)一致性。這些任務(wù)，語(yǔ)言建模的框架從根本上就不適合處理。

世界模型的出發(fā)點(diǎn)，正是填補(bǔ)這個(gè)空缺。簡(jiǎn)單說(shuō)，世界模型預(yù)測(cè)的不是下一個(gè)詞，而是下一個(gè)狀態(tài)。物體在空間中的位置會(huì)怎么變化，一個(gè)動(dòng)作會(huì)引發(fā)什么樣的連鎖反應(yīng)，光線在不同材質(zhì)表面的反射在視角移動(dòng)后如何演變。它試圖構(gòu)建的是一個(gè)對(duì)物理現(xiàn)實(shí)的內(nèi)部表征，讓AI能夠在這個(gè)表征上進(jìn)行規(guī)劃、預(yù)測(cè)和推斷，而不只是在語(yǔ)言空間里進(jìn)行模式匹配。

打一個(gè)不那么精確但有助于理解的比方，LLM像一位讀遍了旅游導(dǎo)覽的圖書管理員，他能告訴你北京任何一條街道胡同的名字和歷史，但如果你把他放在那條街上，他未必知道往哪個(gè)方向走才能找到最近的地鐵站。而世界模型則試圖訓(xùn)練出一個(gè)真正在城市里行走過(guò)、對(duì)空間有具身感知的向?qū)А?/p>

這無(wú)關(guān)知識(shí)量的大小，而是知識(shí)性質(zhì)的區(qū)別。

然而，「世界模型」在當(dāng)下又不是一個(gè)邊界清晰的技術(shù)概念。不同團(tuán)隊(duì)在做的事情，差異遠(yuǎn)比名字所暗示的要大。有些團(tuán)隊(duì)做的是基于視頻的交互式生成系統(tǒng)，核心是讓模型學(xué)會(huì)「如果用戶這樣操作，畫面接下來(lái)會(huì)怎么變」；有些團(tuán)隊(duì)做的是從圖像或描述直接生成可編輯的三維幾何資產(chǎn)，重點(diǎn)在于輸出物的工程可用性；還有些團(tuán)隊(duì)做的是為機(jī)器人和自動(dòng)駕駛提供物理仿真訓(xùn)練環(huán)境，重點(diǎn)在于數(shù)據(jù)的物理正確性。

這三條路線的交集有限，背后的商業(yè)邏輯也截然不同。理解這一點(diǎn)，是看懂當(dāng)前格局的前提。

三條路線的技術(shù)分野與戰(zhàn)略選擇

從技術(shù)路線來(lái)看，全球世界模型競(jìng)爭(zhēng)目前大致沿三個(gè)方向展開，每條方向都有其內(nèi)在邏輯，也有其固有的局限。

第一條路線可以叫做「視頻基世界模型」。這條路線的核心假設(shè)是視頻是物理世界最豐富的記錄，只要讓模型足夠深入地學(xué)習(xí)視頻數(shù)據(jù)，它就能學(xué)會(huì)世界的運(yùn)行規(guī)律。Google的Genie系列是這條路線的學(xué)術(shù)代表，Genie 3于2025年8月向部分研究人員開放實(shí)驗(yàn)性預(yù)覽版本，用戶輸入文字描述，模型實(shí)時(shí)生成可交互的三維場(chǎng)景。

李飛飛的World Labs推出的Marble，能夠從文本或圖片生成風(fēng)格多樣的可漫游虛擬世界。阿里巴巴ATH事業(yè)部的HappyOyster走的也是這條路，其差異化在于原生多模態(tài)架構(gòu)與流式生成能力的結(jié)合。模型在生成過(guò)程中持續(xù)接收用戶指令并實(shí)時(shí)響應(yīng)，用戶可以在已生成的場(chǎng)景里調(diào)整鏡頭、改寫劇情、調(diào)度角色，而不是等待一段完整的視頻渲染完成再看結(jié)果。

目前HappyOyster支持連續(xù)三分鐘以上的實(shí)時(shí)導(dǎo)演級(jí)交互，在體驗(yàn)層面是國(guó)內(nèi)這條路線目前最成熟的產(chǎn)品。但這條路線有一個(gè)內(nèi)置的局限，那就是基于視頻學(xué)習(xí)的世界模型，生成的是像素意義上的一致性，而不一定是物理意義上的真實(shí)性。畫面看起來(lái)連貫，不代表背后有真實(shí)的三維結(jié)構(gòu)；光影看起來(lái)合理，也不代表模型真正理解了光的傳播規(guī)律。

HappyOyster也在技術(shù)文檔里承認(rèn)，漫游模式和導(dǎo)演模式目前尚未完全打通，長(zhǎng)時(shí)序場(chǎng)景中的一致性仍有待提升。這也是整條路線當(dāng)前階段共同面臨的工程挑戰(zhàn)。

第二條路線是「3D資產(chǎn)化世界模型」，騰訊混元3D世界模型HY-World 2.0是這條路線目前最有代表性的產(chǎn)品。這條路線的關(guān)鍵轉(zhuǎn)變是直接生成可編輯的三維幾何資產(chǎn)，例如Mesh、3DGS、點(diǎn)云，這些文件格式可以無(wú)縫導(dǎo)入U(xiǎn)nity和Unreal Engine等主流游戲引擎，進(jìn)行二次編輯和物理交互。

而騰訊押注這條路線，也有非常清晰的戰(zhàn)略邏輯。騰訊擁有海量的3D游戲數(shù)據(jù)和成熟的引擎工程積累，游戲3D內(nèi)容的生產(chǎn)效率是最直接的商業(yè)驗(yàn)證場(chǎng)景。傳統(tǒng)上，一張開放世界地圖的建模周期以月為單位，需要數(shù)十名美術(shù)人員參與；HY-World 2.0，生成一個(gè)可交互的3D游戲原型場(chǎng)景大約需要12分鐘。這個(gè)數(shù)字即便打個(gè)折扣，對(duì)游戲行業(yè)的影響也是巨大的。

不過(guò)，這條路線同樣有其局限。3D資產(chǎn)生成解決的是內(nèi)容生產(chǎn)效率問(wèn)題，但它本質(zhì)上仍然是一個(gè)生成模型，而不是一個(gè)真正理解物理規(guī)律的仿真系統(tǒng)。它能生成視覺(jué)上合理的3D場(chǎng)景，卻不一定能保證物理意義上的正確性，比如碰撞檢測(cè)、材質(zhì)屬性、動(dòng)力學(xué)行為，這些在游戲引擎里還需要工程師介入校正。這個(gè)差距在游戲原型階段尚可接受，但如果要遷移到機(jī)器人訓(xùn)練或數(shù)字孿生這類對(duì)物理精度要求極高的場(chǎng)景，距離就會(huì)被放大。

因此，第三條路線則更接近基礎(chǔ)設(shè)施層，可以叫做「空間數(shù)據(jù)與仿真平臺(tái)」。這條路線不做終端產(chǎn)品，它主要提供高質(zhì)量的三維訓(xùn)練數(shù)據(jù)、物理正確的仿真環(huán)境、連接虛擬和真實(shí)世界的工具鏈。

國(guó)內(nèi)這條線路最值得關(guān)注的案例是群核科技。這家家裝設(shè)計(jì)軟件公司，入局邏輯與騰訊、阿里完全不同，它是從十余年家裝設(shè)計(jì)軟件的數(shù)據(jù)積累里，發(fā)現(xiàn)了一條通向空間智能的路徑。

酷家樂(lè)平臺(tái)上積累的4.8億個(gè)三維模型和5億個(gè)結(jié)構(gòu)化空間場(chǎng)景，是物理正確的真實(shí)世界設(shè)計(jì)數(shù)據(jù)。群核科技在2025年英偉達(dá)GTC大會(huì)上開源的空間語(yǔ)言模型SpatialLM，僅憑一段手機(jī)拍攝的視頻就能生成帶有物理約束的三維場(chǎng)景布局，開源后登上HuggingFace趨勢(shì)榜第二。其空間智能平臺(tái)SpatialVerse已與智元機(jī)器人、銀河通用、穹徹智能等具身智能公司建立合作，為機(jī)器人提供虛擬訓(xùn)練環(huán)境。

2026年4月17日，群核科技以「全球空間智能第一股」身份登陸港交所，上市首日股價(jià)高開171%。

從上文三條路線的橫向?qū)Ρ葋?lái)看，中美的競(jìng)爭(zhēng)格局呈現(xiàn)明顯結(jié)構(gòu)性的差異。美國(guó)的格局是：大平臺(tái)公司（英偉達(dá)、Google）做通用基礎(chǔ)設(shè)施和前沿研究，學(xué)術(shù)創(chuàng)業(yè)公司（World Labs、AMI Labs）做技術(shù)探索，中間的商業(yè)化產(chǎn)品層尚未出現(xiàn)成熟玩家——Meta和OpenAI在世界模型領(lǐng)域的實(shí)質(zhì)性投入相對(duì)謹(jǐn)慎，前者尚在理論層表態(tài)，后者的重心仍在大語(yǔ)言模型的商業(yè)化上。

中國(guó)的格局是頭部大廠更傾向于從自身最強(qiáng)的垂直場(chǎng)景切入，同時(shí)有一批垂直數(shù)據(jù)公司在上游資產(chǎn)層卡位。兩種格局的競(jìng)爭(zhēng)邏輯不同，美國(guó)更強(qiáng)調(diào)技術(shù)原理的通用性，中國(guó)更強(qiáng)調(diào)場(chǎng)景落地的速度和數(shù)據(jù)資產(chǎn)的稀缺性。這種差異，在下一階段的競(jìng)爭(zhēng)中會(huì)以什么形式顯現(xiàn)，目前還不明朗。

“造勢(shì)”已經(jīng)開始，但“造血”還不清晰

如果把視線從宏觀層面的路徑比較下沉到產(chǎn)業(yè)微觀運(yùn)行時(shí)，會(huì)發(fā)現(xiàn)上述的差異正在中國(guó)本土衍生出一系列具體的、短期內(nèi)難以回避的摩擦。中國(guó)玩家憑借場(chǎng)景與數(shù)據(jù)優(yōu)勢(shì)迅速入場(chǎng)，但也正因?yàn)槿刖痔欤恍┗A(chǔ)性的共識(shí)與規(guī)則尚未建立，導(dǎo)致賽道在熱鬧的表象之下暗藏著獨(dú)特的系統(tǒng)性風(fēng)險(xiǎn)。

這些問(wèn)題業(yè)界鮮少正面討論，但它們真實(shí)存在，并將影響這條賽道未來(lái)兩三年的走向。

第一個(gè)問(wèn)題是定義的模糊性正在制造虛假的繁榮感。目前國(guó)內(nèi)大量「世界模型」產(chǎn)品的發(fā)布，使用的是同一個(gè)詞，指的卻是差異極大的東西。有的本質(zhì)是視頻生成模型做了一層交互包裝，有的是3D重建工具加了實(shí)時(shí)渲染能力，有的在做真正意義上的物理仿真。

這種定義的混亂在資本層面會(huì)造成誤判，用戶層面會(huì)積累失望，在行業(yè)層面則會(huì)模糊技術(shù)進(jìn)展和市場(chǎng)炒作之間的邊界。如果要給「真正的世界模型」一個(gè)有操作意義的判斷標(biāo)準(zhǔn)，《新立場(chǎng)》認(rèn)為可以下這樣一個(gè)定義：模型能否在沒(méi)有顯式標(biāo)注的情況下，從原始感知數(shù)據(jù)里自主學(xué)習(xí)因果關(guān)系，并在從未見過(guò)的新場(chǎng)景里作出物理上可靠的預(yù)測(cè)。

如果用這個(gè)標(biāo)準(zhǔn)衡量當(dāng)前的大多數(shù)產(chǎn)品，距離還相當(dāng)遠(yuǎn)。當(dāng)然這不是說(shuō)這些產(chǎn)品沒(méi)有價(jià)值，而是把迭代進(jìn)展等同于范式躍遷，是一種需要警惕的認(rèn)知偷懶。

第二個(gè)問(wèn)題是數(shù)據(jù)壁壘的含金量被高估了。中國(guó)玩家確實(shí)擁有真實(shí)的數(shù)據(jù)優(yōu)勢(shì)，比如騰訊的游戲三維數(shù)據(jù)、群核的空間設(shè)計(jì)數(shù)據(jù)、各家自動(dòng)駕駛公司的路測(cè)數(shù)據(jù)，這些在體量上是真實(shí)的護(hù)城河。但世界模型對(duì)數(shù)據(jù)的要求和大語(yǔ)言模型存在根本性的不同。LLM可以從海量但嘈雜的文本里學(xué)到有用的規(guī)律，數(shù)據(jù)的廣度比精度更重要；世界模型需要的是物理正確、時(shí)序連貫、標(biāo)注精準(zhǔn)的三維數(shù)據(jù)，質(zhì)量比數(shù)量更關(guān)鍵。

現(xiàn)有的數(shù)據(jù)資產(chǎn)里能真正用于世界模型訓(xùn)練的比例，遠(yuǎn)低于對(duì)外宣稱的規(guī)模。合成數(shù)據(jù)的爭(zhēng)議進(jìn)一步復(fù)雜化了這個(gè)問(wèn)題：由于高質(zhì)量真實(shí)三維數(shù)據(jù)的采集成本極高，很多團(tuán)隊(duì)轉(zhuǎn)向用模擬器生成合成數(shù)據(jù)來(lái)補(bǔ)充訓(xùn)練集。

2024年《自然》雜志報(bào)道的研究趨勢(shì)顯示，持續(xù)使用合成數(shù)據(jù)訓(xùn)練模型，會(huì)導(dǎo)致模型性能隨迭代輪次加速退化，這種現(xiàn)象研究者將其比作「近親繁殖」。這個(gè)問(wèn)題到今天還沒(méi)有被普遍接受的解決方案，也意味著中國(guó)玩家的數(shù)據(jù)優(yōu)勢(shì)，比想象中更脆弱一些。

第三個(gè)問(wèn)題是老生常談的，商業(yè)化路徑是一道尚未解開的題。大語(yǔ)言模型在ChatGPT出現(xiàn)之后，商業(yè)模式逐漸清晰——API計(jì)費(fèi)、企業(yè)訂閱、垂直行業(yè)部署，鏈路已經(jīng)跑通。

而世界模型到今天為止，沒(méi)有一家公司拿出過(guò)可復(fù)制的商業(yè)閉環(huán)。騰訊的HY-World 2.0目前主要作為開發(fā)者工具開源，群核科技2025年96.9%的營(yíng)收來(lái)自軟件訂閱服務(wù)（主要為酷家樂(lè)和Coohom產(chǎn)品），而空間智能相關(guān)業(yè)務(wù)（包括SpatialVerse等）僅占3.1%，其中核心的SpatialVerse平臺(tái)僅貢獻(xiàn)0.6%的營(yíng)收。

游戲公司愿意為AI生成的3D場(chǎng)景付費(fèi)，前提是生成質(zhì)量能夠真正替代或大幅縮減人工成本，目前看來(lái)差距尚存；影視行業(yè)的工作流整合周期比外界估計(jì)的要長(zhǎng)得多；具身智能公司的采購(gòu)規(guī)模尚未達(dá)到商業(yè)化所需的體量。世界模型目前更像是一張有巨大想象空間但兌現(xiàn)時(shí)間尚不確定的支票。

這既是當(dāng)前的困境，也是未來(lái)的機(jī)會(huì)。毫無(wú)疑問(wèn)，未來(lái)第一個(gè)在某個(gè)垂直場(chǎng)景里驗(yàn)證出可復(fù)制商業(yè)單元的玩家，將會(huì)獲得遠(yuǎn)遠(yuǎn)超出比例的先發(fā)優(yōu)勢(shì)。

寫在最后

大語(yǔ)言模型的崛起，證明了當(dāng)足夠大規(guī)模地預(yù)測(cè)語(yǔ)言，涌現(xiàn)出來(lái)的能力會(huì)遠(yuǎn)遠(yuǎn)超出設(shè)計(jì)者的預(yù)期。這種「規(guī)模涌現(xiàn)」的邏輯是否能夠遷移到物理世界的建模上，正是「世界模型」最核心的賭注。

這在技術(shù)層面的挑戰(zhàn)是真實(shí)的，物理世界的復(fù)雜度遠(yuǎn)高于語(yǔ)言空間。語(yǔ)言的基本單元是離散的詞語(yǔ)，物理世界的狀態(tài)是連續(xù)的、高維的，依賴于遠(yuǎn)比語(yǔ)法規(guī)則復(fù)雜的因果結(jié)構(gòu)。數(shù)據(jù)的采集和標(biāo)注成本比文本高出幾個(gè)數(shù)量級(jí)，訓(xùn)練范式需要重新設(shè)計(jì)，評(píng)估方法也遠(yuǎn)不如NLP領(lǐng)域成熟。這條路比語(yǔ)言模型走過(guò)的路更長(zhǎng)，更難，充滿了未知的彎路。

但驅(qū)動(dòng)力同樣是真實(shí)的，機(jī)器人、自動(dòng)駕駛、數(shù)字孿生、沉浸式內(nèi)容等領(lǐng)域?qū)Α刚嬲斫馕锢硎澜绲腁I」有著真實(shí)的剛需，而這種需求隨著智能硬件的普及只會(huì)越來(lái)越強(qiáng)。

而中國(guó)在這場(chǎng)競(jìng)爭(zhēng)里的優(yōu)勢(shì)和劣勢(shì)都很具體：場(chǎng)景數(shù)據(jù)的積累和垂直行業(yè)的落地壓力是有力的支撐，基礎(chǔ)研究的深度和商業(yè)驗(yàn)證的路徑是真實(shí)的短板。

騰訊和阿里在同一天發(fā)布世界模型產(chǎn)品，說(shuō)明在中國(guó)最頭部的科技公司內(nèi)部，對(duì)AI下一個(gè)主戰(zhàn)場(chǎng)的判斷已經(jīng)形成了共識(shí)。至于這種共識(shí)是否正確，要等時(shí)間來(lái)驗(yàn)證。

這可能比我們想象得更近，也比我們期望得更遠(yuǎn)。

*題圖及文中配圖來(lái)源于網(wǎng)絡(luò)。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#世界模型