- +1
“VLA和世界模型不是替代和被替代的關(guān)系”
一段時間以來,圍繞VLA(Vision-Language-Action,視覺-語言-行動)模型、WMA(World-Model–Action,“世界模型+動作策略”)模型兩條路線的討論,是具身智能領(lǐng)域里的熱點話題?,F(xiàn)在,大家似乎不約而同地決定放下爭議,協(xié)同前行。
日前,智元機(jī)器人啟動了一項機(jī)器人賽事AGIBOT WORLD CHALLENGE @ ICRA 2026(以下簡稱 ICRA 2026),兩大核心賽道即為Reasoning to Action(推理-操作)和World Model(世界模型)。前者包括線上仿真與線下真機(jī)兩個階段,后者則聚焦具身智能中的生成與預(yù)測能力,采用線上競賽方式。
3月25日,智元Genie業(yè)務(wù)部生態(tài)及解決方案總監(jiān)沈詠劍在接受包括澎湃科技(www.school126.cn)在內(nèi)的媒體采訪時表示,從長期趨勢看,世界模型與VLA并不一定是替代關(guān)系,未來存在結(jié)合的可能。“從解決問題的層面上來說,有可能會有一些融合或者說合作的狀態(tài),二者不算是替代和被替代的關(guān)系。”
VLA曾一度被視為具身智能的重要主流路徑,即讓機(jī)器人基于視覺輸入和語言指令,直接完成動作生成與執(zhí)行。但隨著機(jī)器人開始進(jìn)入更復(fù)雜、更長鏈條的任務(wù)場景,僅僅“看懂指令并做出動作”已不夠。機(jī)器人還需要理解任務(wù)目標(biāo)、拆解步驟、推演環(huán)境變化,并在執(zhí)行過程中持續(xù)調(diào)整策略。
沈詠劍介紹,此次賽事中設(shè)置的世界模型賽道考察的是模型根據(jù)機(jī)器人動作建模物理環(huán)境動態(tài)的能力。參賽者需要基于真實機(jī)器人觀測與動作信號,訓(xùn)練視頻生成模型,生成機(jī)器人在多個真實任務(wù)場景中的交互視頻。

推理-操作賽道。來源:智元
另一條“推理-操作”賽道,同樣考核的是機(jī)器人去理解-執(zhí)行任務(wù)這一具體過程。沈詠劍提到,去年的比賽更多是“疊衣服”這類相對明確、固定的任務(wù),機(jī)器人基本是“讓它做什么,它就做什么”;而今年則加入了更多需要機(jī)器人先理解任務(wù)、再進(jìn)行拆解和執(zhí)行的場景,例如“整理桌面”這類任務(wù),機(jī)器人不僅要完成動作,還要先理解什么算整潔、先做什么后做什么,再完成整套流程。

世界模型賽道。 來源:智元
沈詠劍認(rèn)為,當(dāng)前世界模型的定義還未收斂,其核心可以概括為一種對未來狀態(tài)的預(yù)測與推演能力:系統(tǒng)基于當(dāng)前可見的多模態(tài)信息,判斷下一時刻可能發(fā)生什么,或者在接收到任務(wù)指令后,推演機(jī)器人自身及周圍環(huán)境接下來會發(fā)生怎樣的變化。在他看來,這與當(dāng)前VLA的范式并不完全相同,是相對獨立的一條技術(shù)路線。
從智元近一年的公開布局看,該公司本身也并未只圍繞單一路線推進(jìn)。智元在2024年底推出了AgiBot World,包含超過100萬條軌跡、涵蓋217個任務(wù)、涉及五大場景的大規(guī)模高質(zhì)量真機(jī)數(shù)據(jù)集。2025年3月,智元發(fā)布首個通用具身基座模型——智元啟元大模型(Genie Operator-1)。今年1月,智元又發(fā)布了Genie Sim 3.0仿真平臺,該平臺基于NVIDIA Isaac Sim構(gòu)建,融合三維重建與視覺生成技術(shù),可實現(xiàn)數(shù)字孿生級高保真環(huán)境。與此同時,圍繞推理與操作融合、全身控制等方向,2026年1月,智元具身研究中心宣布推出第二代一體化具身大小腦系統(tǒng)GenieReasoner。
沈詠劍表示,當(dāng)前整個具身智能行業(yè)的人才仍處于稀缺狀態(tài),特別是高素質(zhì)、頂尖的算法人才,他們希望通過賽事吸引更多優(yōu)秀人才進(jìn)入這一領(lǐng)域。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




