- +1
“VLA和世界模型不是替代和被替代的關(guān)系”
一段時(shí)間以來(lái),圍繞VLA(Vision-Language-Action,視覺(jué)-語(yǔ)言-行動(dòng))模型、WMA(World-Model–Action,“世界模型+動(dòng)作策略”)模型兩條路線的討論,是具身智能領(lǐng)域里的熱點(diǎn)話題?,F(xiàn)在,大家似乎不約而同地決定放下?tīng)?zhēng)議,協(xié)同前行。
日前,智元機(jī)器人啟動(dòng)了一項(xiàng)機(jī)器人賽事AGIBOT WORLD CHALLENGE @ ICRA 2026(以下簡(jiǎn)稱 ICRA 2026),兩大核心賽道即為Reasoning to Action(推理-操作)和World Model(世界模型)。前者包括線上仿真與線下真機(jī)兩個(gè)階段,后者則聚焦具身智能中的生成與預(yù)測(cè)能力,采用線上競(jìng)賽方式。
3月25日,智元Genie業(yè)務(wù)部生態(tài)及解決方案總監(jiān)沈詠劍在接受包括澎湃科技(www.school126.cn)在內(nèi)的媒體采訪時(shí)表示,從長(zhǎng)期趨勢(shì)看,世界模型與VLA并不一定是替代關(guān)系,未來(lái)存在結(jié)合的可能。“從解決問(wèn)題的層面上來(lái)說(shuō),有可能會(huì)有一些融合或者說(shuō)合作的狀態(tài),二者不算是替代和被替代的關(guān)系?!?/strong>
VLA曾一度被視為具身智能的重要主流路徑,即讓機(jī)器人基于視覺(jué)輸入和語(yǔ)言指令,直接完成動(dòng)作生成與執(zhí)行。但隨著機(jī)器人開(kāi)始進(jìn)入更復(fù)雜、更長(zhǎng)鏈條的任務(wù)場(chǎng)景,僅僅“看懂指令并做出動(dòng)作”已不夠。機(jī)器人還需要理解任務(wù)目標(biāo)、拆解步驟、推演環(huán)境變化,并在執(zhí)行過(guò)程中持續(xù)調(diào)整策略。
沈詠劍介紹,此次賽事中設(shè)置的世界模型賽道考察的是模型根據(jù)機(jī)器人動(dòng)作建模物理環(huán)境動(dòng)態(tài)的能力。參賽者需要基于真實(shí)機(jī)器人觀測(cè)與動(dòng)作信號(hào),訓(xùn)練視頻生成模型,生成機(jī)器人在多個(gè)真實(shí)任務(wù)場(chǎng)景中的交互視頻。

推理-操作賽道。來(lái)源:智元
另一條“推理-操作”賽道,同樣考核的是機(jī)器人去理解-執(zhí)行任務(wù)這一具體過(guò)程。沈詠劍提到,去年的比賽更多是“疊衣服”這類(lèi)相對(duì)明確、固定的任務(wù),機(jī)器人基本是“讓它做什么,它就做什么”;而今年則加入了更多需要機(jī)器人先理解任務(wù)、再進(jìn)行拆解和執(zhí)行的場(chǎng)景,例如“整理桌面”這類(lèi)任務(wù),機(jī)器人不僅要完成動(dòng)作,還要先理解什么算整潔、先做什么后做什么,再完成整套流程。

世界模型賽道。 來(lái)源:智元
沈詠劍認(rèn)為,當(dāng)前世界模型的定義還未收斂,其核心可以概括為一種對(duì)未來(lái)狀態(tài)的預(yù)測(cè)與推演能力:系統(tǒng)基于當(dāng)前可見(jiàn)的多模態(tài)信息,判斷下一時(shí)刻可能發(fā)生什么,或者在接收到任務(wù)指令后,推演機(jī)器人自身及周?chē)h(huán)境接下來(lái)會(huì)發(fā)生怎樣的變化。在他看來(lái),這與當(dāng)前VLA的范式并不完全相同,是相對(duì)獨(dú)立的一條技術(shù)路線。
從智元近一年的公開(kāi)布局看,該公司本身也并未只圍繞單一路線推進(jìn)。智元在2024年底推出了AgiBot World,包含超過(guò)100萬(wàn)條軌跡、涵蓋217個(gè)任務(wù)、涉及五大場(chǎng)景的大規(guī)模高質(zhì)量真機(jī)數(shù)據(jù)集。2025年3月,智元發(fā)布首個(gè)通用具身基座模型——智元啟元大模型(Genie Operator-1)。今年1月,智元又發(fā)布了Genie Sim 3.0仿真平臺(tái),該平臺(tái)基于NVIDIA Isaac Sim構(gòu)建,融合三維重建與視覺(jué)生成技術(shù),可實(shí)現(xiàn)數(shù)字孿生級(jí)高保真環(huán)境。與此同時(shí),圍繞推理與操作融合、全身控制等方向,2026年1月,智元具身研究中心宣布推出第二代一體化具身大小腦系統(tǒng)GenieReasoner。
沈詠劍表示,當(dāng)前整個(gè)具身智能行業(yè)的人才仍處于稀缺狀態(tài),特別是高素質(zhì)、頂尖的算法人才,他們希望通過(guò)賽事吸引更多優(yōu)秀人才進(jìn)入這一領(lǐng)域。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




