“VLA和世界模型不是替代和被替代的關(guān)系”

澎湃新聞記者喻琰

2026-03-26 13:55

來源：澎湃新聞

聽全文

一段時間以來，圍繞VLA（Vision-Language-Action，視覺－語言－行動）模型、WMA（World-Model–Action，“世界模型+動作策略”）模型兩條路線的討論，是具身智能領(lǐng)域里的熱點話題?，F(xiàn)在，大家似乎不約而同地決定放下爭議，協(xié)同前行。

日前，智元機(jī)器人啟動了一項機(jī)器人賽事AGIBOT WORLD CHALLENGE @ ICRA 2026（以下簡稱 ICRA 2026），兩大核心賽道即為Reasoning to Action（推理-操作）和World Model（世界模型）。前者包括線上仿真與線下真機(jī)兩個階段，后者則聚焦具身智能中的生成與預(yù)測能力，采用線上競賽方式。

3月25日，智元Genie業(yè)務(wù)部生態(tài)及解決方案總監(jiān)沈詠劍在接受包括澎湃科技（www.school126.cn）在內(nèi)的媒體采訪時表示，從長期趨勢看，世界模型與VLA并不一定是替代關(guān)系，未來存在結(jié)合的可能。“從解決問題的層面上來說，有可能會有一些融合或者說合作的狀態(tài)，二者不算是替代和被替代的關(guān)系。”

VLA曾一度被視為具身智能的重要主流路徑，即讓機(jī)器人基于視覺輸入和語言指令，直接完成動作生成與執(zhí)行。但隨著機(jī)器人開始進(jìn)入更復(fù)雜、更長鏈條的任務(wù)場景，僅僅“看懂指令并做出動作”已不夠。機(jī)器人還需要理解任務(wù)目標(biāo)、拆解步驟、推演環(huán)境變化，并在執(zhí)行過程中持續(xù)調(diào)整策略。

沈詠劍介紹，此次賽事中設(shè)置的世界模型賽道考察的是模型根據(jù)機(jī)器人動作建模物理環(huán)境動態(tài)的能力。參賽者需要基于真實機(jī)器人觀測與動作信號，訓(xùn)練視頻生成模型，生成機(jī)器人在多個真實任務(wù)場景中的交互視頻。

推理-操作賽道。來源：智元

另一條“推理－操作”賽道，同樣考核的是機(jī)器人去理解－執(zhí)行任務(wù)這一具體過程。沈詠劍提到，去年的比賽更多是“疊衣服”這類相對明確、固定的任務(wù)，機(jī)器人基本是“讓它做什么，它就做什么”；而今年則加入了更多需要機(jī)器人先理解任務(wù)、再進(jìn)行拆解和執(zhí)行的場景，例如“整理桌面”這類任務(wù)，機(jī)器人不僅要完成動作，還要先理解什么算整潔、先做什么后做什么，再完成整套流程。

世界模型賽道。來源：智元

沈詠劍認(rèn)為，當(dāng)前世界模型的定義還未收斂，其核心可以概括為一種對未來狀態(tài)的預(yù)測與推演能力：系統(tǒng)基于當(dāng)前可見的多模態(tài)信息，判斷下一時刻可能發(fā)生什么，或者在接收到任務(wù)指令后，推演機(jī)器人自身及周圍環(huán)境接下來會發(fā)生怎樣的變化。在他看來，這與當(dāng)前VLA的范式并不完全相同，是相對獨立的一條技術(shù)路線。

從智元近一年的公開布局看，該公司本身也并未只圍繞單一路線推進(jìn)。智元在2024年底推出了AgiBot World，包含超過100萬條軌跡、涵蓋217個任務(wù)、涉及五大場景的大規(guī)模高質(zhì)量真機(jī)數(shù)據(jù)集。2025年3月，智元發(fā)布首個通用具身基座模型——智元啟元大模型（Genie Operator-1）。今年1月，智元又發(fā)布了Genie Sim 3.0仿真平臺，該平臺基于NVIDIA Isaac Sim構(gòu)建，融合三維重建與視覺生成技術(shù)，可實現(xiàn)數(shù)字孿生級高保真環(huán)境。與此同時，圍繞推理與操作融合、全身控制等方向，2026年1月，智元具身研究中心宣布推出第二代一體化具身大小腦系統(tǒng)GenieReasoner。

沈詠劍表示，當(dāng)前整個具身智能行業(yè)的人才仍處于稀缺狀態(tài)，特別是高素質(zhì)、頂尖的算法人才，他們希望通過賽事吸引更多優(yōu)秀人才進(jìn)入這一領(lǐng)域。

責(zé)任編輯：宦艷紅

圖片編輯：陳飛燕

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#世界模型 #VLA #智元