下載客戶端

登錄

別著急宣布VLA已死｜甲子光年

2026-05-11 12:14

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

不能因?yàn)閂LA有短板，就把世界模型推上神壇。

作者｜王博張麟

“So let's all take a moment of silence for our dear friend VLAs. They've served us well, rest in peace, long live World Action Models.”

這是英偉達(dá)首席研究科學(xué)家、具身自主研究團(tuán)隊(duì)負(fù)責(zé)人范麟熙（Jim Fan）4月20日在紅杉AI Ascent大會(huì)上的發(fā)言，對(duì)應(yīng)中文是：“讓我們?yōu)閂LA默哀吧。它們?cè)?jīng)很好地服務(wù)過(guò)我們，安息吧，World Action Models萬(wàn)歲?！?/p>

Jim Fan在紅杉AI Ascent大會(huì)上演講，圖片來(lái)源：Sequoia Capital Youtube賬號(hào)

這句話很快被一些媒體和博主概括成一個(gè)更鋒利也更適合傳播的判斷：VLA已死。

它之所以有傳播力，是因?yàn)樗脫糁辛水?dāng)下具身智能行業(yè)的焦慮。

過(guò)去兩年，VLA（vision-language-action 視覺(jué)-語(yǔ)言-動(dòng)作）模型幾乎是機(jī)器人“大腦”的主流敘事。它把大模型時(shí)代最熟悉的能力接入機(jī)器人：視覺(jué)負(fù)責(zé)看見(jiàn)環(huán)境，語(yǔ)言負(fù)責(zé)理解任務(wù)，動(dòng)作負(fù)責(zé)執(zhí)行指令。對(duì)一個(gè)長(zhǎng)期依賴示教、規(guī)則和固定工藝的機(jī)器人行業(yè)來(lái)說(shuō)，VLA第一次讓人看到“通用機(jī)器人”的入口。

但也是從今年開(kāi)始，業(yè)界對(duì)VLA質(zhì)疑明顯變多。它能理解“把杯子拿起來(lái)”，卻未必知道杯子會(huì)不會(huì)滑；它能識(shí)別一件衣服，卻未必知道衣服被抓起后如何變形；它能聽(tīng)懂“打開(kāi)抽屜”，卻未必知道手、把手、阻尼、摩擦和力之間的關(guān)系。

機(jī)器人真正面對(duì)的不是文本，也不是圖像，而是會(huì)移動(dòng)、反光、變形、遮擋、碰撞、失控的物理世界。

這正是Jim Fan提出World Action Model（WAM）的背景。

在他參與署名的論文《World Action Models are Zero-shot Policies》中，論文摘要說(shuō)得相對(duì)克制：當(dāng)前SOTA VLA擅長(zhǎng)語(yǔ)義泛化，但在新環(huán)境中泛化到未見(jiàn)過(guò)的物理動(dòng)作時(shí)存在困難；他們提出DreamZero，一個(gè)基于視頻擴(kuò)散骨干的World Action Model，通過(guò)預(yù)測(cè)未來(lái)世界狀態(tài)和動(dòng)作來(lái)學(xué)習(xí)物理動(dòng)力學(xué)。DreamZero項(xiàng)目頁(yè)也稱，其在真實(shí)機(jī)器人實(shí)驗(yàn)中新任務(wù)、新環(huán)境泛化上相較VLA基線取得超過(guò)2倍提升。

Jim Fan真正送別的，不是視覺(jué)、語(yǔ)言、動(dòng)作這三種能力，而是一種傳統(tǒng)的VLA范式。

VLA沒(méi)有死。死的是一種過(guò)度樂(lè)觀的想象：只要把視覺(jué)語(yǔ)言模型接上機(jī)器人動(dòng)作輸出，機(jī)器人就能自然獲得對(duì)物理世界的理解。

1.為什么會(huì)出現(xiàn)“VLA已死”的言論？

任何一個(gè)技術(shù)路線被宣判死亡，通常都不只是技術(shù)問(wèn)題，也是一種產(chǎn)業(yè)情緒。

“VLA已死”之所以在今天有市場(chǎng)，是因?yàn)檫^(guò)去一年，具身智能行業(yè)對(duì)VLA的期待太高了。

VLA的邏輯很直接：機(jī)器人通過(guò)視覺(jué)觀察環(huán)境，通過(guò)語(yǔ)言理解人類指令，再把理解轉(zhuǎn)化為動(dòng)作輸出。這條路線天然繼承了大模型時(shí)代的信仰。

影身智能創(chuàng)始人閔偉認(rèn)為：“將VLA應(yīng)用在機(jī)器人身上，這種想法源于大語(yǔ)言模型時(shí)代的思維慣性?！?/p>

大語(yǔ)言模型證明了，海量數(shù)據(jù)和大規(guī)模預(yù)訓(xùn)練可以涌現(xiàn)出強(qiáng)大的語(yǔ)言理解和推理能力。視覺(jué)語(yǔ)言模型進(jìn)一步證明，模型不只可以處理文本，也可以理解圖像和視頻。到了機(jī)器人這里，一個(gè)自然的想法就是：既然模型能看懂，也能聽(tīng)懂，那它為什么不能動(dòng)起來(lái)？

這也是VLA迅速流行的原因。

它給機(jī)器人行業(yè)提供了一套簡(jiǎn)單、統(tǒng)一、易于講述的“大腦范式”：過(guò)去的機(jī)器人是執(zhí)行機(jī)器，VLA之后的機(jī)器人開(kāi)始具備任務(wù)理解能力。

從產(chǎn)業(yè)實(shí)踐看，優(yōu)必選Walker S2、智平方AlphaBot 2、銀河通用Galbot等，都在不同程度上搭載或強(qiáng)調(diào)VLA模型；智平方曾推出GOVLA 0.5，并試圖在VLA框架下引入全域感知、全身控制和統(tǒng)一決策；宇樹(shù)科技也在2026年1月開(kāi)源發(fā)布UnifoLM-VLA-0模型，用于復(fù)雜操作任務(wù)。

這些案例說(shuō)明，VLA確實(shí)推動(dòng)了機(jī)器人從“固定動(dòng)作執(zhí)行”向“開(kāi)放任務(wù)理解”邁了一步。

但問(wèn)題在于，行業(yè)很快發(fā)現(xiàn)：理解任務(wù)，不等于理解物理世界。

機(jī)器人不是只要知道“杯子是什么”“人要我拿杯子”就夠了。它還要知道杯子的重量、摩擦、重心、材質(zhì)，手指從哪個(gè)角度接近，抓握力度多大，拿起過(guò)程中液體是否會(huì)晃動(dòng)，放下時(shí)桌面是否平整。

2026年3月，科技博客Not Boring的作者Packy McCormick與General Intuition CEO Pim De Witte聯(lián)合發(fā)表了一篇約三萬(wàn)字的長(zhǎng)文，名為《World Models: Computing the Uncomputable》。在這篇文章中，作者假設(shè)了一個(gè)簡(jiǎn)單的場(chǎng)景：

試著僅用文字來(lái)描述拍手。雙手在空間中的相對(duì)位置、以皮秒為單位的變化、接觸點(diǎn)、聲音、雙手靠近和分開(kāi)時(shí)的樣子、手掌如何擠壓對(duì)方、兩掌之間的空氣發(fā)生了什么？你拍手時(shí)視野中看到了什么？你的手臂是怎么彎曲來(lái)配合拍手的？你袖子上的布料有什么反應(yīng)？背景中在發(fā)生什么？你旁邊的人注意到你在拍手了嗎？他們有什么反應(yīng)？

很顯然，任何一個(gè)人都做不到用語(yǔ)言來(lái)描述這個(gè)場(chǎng)景。

小鵬集團(tuán)董事長(zhǎng)何小鵬也發(fā)表過(guò)類似的觀點(diǎn)，他曾表示：“一段1200多字的文字描述，也無(wú)法精準(zhǔn)地‘翻譯’一個(gè)十幾秒視頻?！?/p>

而這種由于語(yǔ)言轉(zhuǎn)譯造成的精度缺失，以及VLA模型“靠推理得出空間幾何規(guī)律和物理定律”的底層運(yùn)行邏輯，極易讓機(jī)器人的抓握誤差增加，任何一個(gè)物理的狀態(tài)變化，比如光線折射、物理變形都會(huì)嚴(yán)重影響VLA模型的動(dòng)作輸出。

而這些問(wèn)題造成的后果，就是業(yè)內(nèi)詬病的泛化性不足。

流形空間創(chuàng)始人兼CEO武偉告訴「甲子光年」，VLA本質(zhì)是將高維度的視頻域降維到語(yǔ)言域，將視頻與文本指令對(duì)齊，再通過(guò)大量的機(jī)器人經(jīng)驗(yàn)數(shù)據(jù)（如軌跡數(shù)據(jù)、動(dòng)作數(shù)據(jù)）進(jìn)行對(duì)齊和訓(xùn)練，讓機(jī)器能夠讀懂語(yǔ)言指令，并基于模仿學(xué)習(xí)高效、可靠地完成具體任務(wù)。其范式本質(zhì)是基于已有VLM基座模型在做“機(jī)器翻譯”任務(wù)的“后訓(xùn)練”。

他認(rèn)為，這種訓(xùn)練方式會(huì)造成兩個(gè)弊端。

一方面，VLA模型在訓(xùn)練時(shí)與特定的機(jī)器人本體強(qiáng)綁定。換一個(gè)機(jī)器人形態(tài)，例如從人形機(jī)器人換成四足機(jī)器狗，甚至是換一種機(jī)器人本體構(gòu)型，模型就需要大量后訓(xùn)練數(shù)據(jù)重新適配，部署成本高昂。

另一方面，VLA模型只是“知其然”，但“不知其所以然”。其本質(zhì)是通過(guò)大量模仿學(xué)習(xí)到某種經(jīng)驗(yàn)，并在需要的時(shí)候?qū)⒔?jīng)驗(yàn)復(fù)刻出來(lái)。它只能執(zhí)行它見(jiàn)過(guò)的動(dòng)作，當(dāng)遇到訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過(guò)的、需要推理和規(guī)劃的新穎場(chǎng)景（即長(zhǎng)尾問(wèn)題中的長(zhǎng)尾），它會(huì)束手無(wú)策，它無(wú)法預(yù)測(cè)一個(gè)動(dòng)作的連鎖反應(yīng)。

這些問(wèn)題不是語(yǔ)義問(wèn)題，而是物理問(wèn)題，這也是傳統(tǒng)VLA模型路線的短板。

2.被誤讀的VLA

圖片來(lái)源：AI生成

“VLA已死”這句話太鋒利，也太容易被誤讀。

如果把它理解成“機(jī)器人不再需要視覺(jué)、語(yǔ)言和動(dòng)作模型”，這是錯(cuò)誤的。

雖然Jim Fan讓“VLA安息”，但即使是英偉達(dá)自己，也并沒(méi)有真正放棄VLA。英偉達(dá)Cosmos官方資料顯示，Cosmos Predict可以生成面向physical AI任務(wù)的預(yù)測(cè)視頻世界，并可用于后訓(xùn)練、閉環(huán)策略和機(jī)器人中心仿真；同時(shí)，英偉達(dá)也仍在用Cosmos等世界基礎(chǔ)模型為GR00T等機(jī)器人模型生成訓(xùn)練數(shù)據(jù)。

這說(shuō)明英偉達(dá)的真實(shí)路線不是“拋棄VLA”，而是把VLA、世界模型、合成數(shù)據(jù)、仿真、真實(shí)機(jī)器人數(shù)據(jù)和低層控制重新組合。

換句話說(shuō)，VLA正在被重新定位。

傳統(tǒng)VLA的問(wèn)題是它很容易被簡(jiǎn)化成：視覺(jué)/語(yǔ)言輸入 → 動(dòng)作輸出。這種架構(gòu)的最大優(yōu)勢(shì)是語(yǔ)義泛化。它能利用互聯(lián)網(wǎng)規(guī)模的視覺(jué)語(yǔ)言知識(shí)，讓機(jī)器人理解更多物體、更多指令、更多任務(wù)關(guān)系。

但它的短板也很明顯：它對(duì)物理過(guò)程的建模不夠顯式。它擅長(zhǎng)回答“這是什么”“我要做什么”，卻不一定擅長(zhǎng)回答“我這樣做之后，世界會(huì)發(fā)生什么”。

Jim Fan批評(píng)的正是這種重心錯(cuò)配：過(guò)去的VLA把大量能力放在語(yǔ)言和知識(shí)理解上，卻把連續(xù)動(dòng)作、接觸動(dòng)力學(xué)、狀態(tài)變化這些機(jī)器人最困難的問(wèn)題，壓縮成了一個(gè)動(dòng)作頭（action head）。

所以，更準(zhǔn)確的判斷應(yīng)該是：傳統(tǒng)VLA范式正在被挑戰(zhàn)，但VLA能力本身并沒(méi)有失效。

VLA仍然是機(jī)器人理解任務(wù)的重要接口。沒(méi)有VLA，機(jī)器人很難擺脫固定程序和封閉指令；但只有VLA，機(jī)器人也很難真正進(jìn)入復(fù)雜物理世界。

這就是“VLA已死”最應(yīng)該被校正的地方。

VLA不是死了，而是不夠了。

3.世界模型不是終局

2026年3月，AMI Labs CEO Alexandre LeBrun公開(kāi)表示：“我預(yù)測(cè)世界模型將成為下一個(gè)流行詞。六個(gè)月后，每家公司都會(huì)自稱世界模型公司來(lái)融資。”

這或許可以成為如今世界模型熱潮中一個(gè)鮮明的注腳，甚至有人表態(tài)，世界模型會(huì)全面取代VLA。

VLA和世界模型并不是同一層?xùn)|西。

VLA更接近一個(gè)行動(dòng)策略模型。它回答的是：我現(xiàn)在該做什么？

世界模型更接近一個(gè)環(huán)境預(yù)測(cè)模型。它回答的是：如果我這樣做，世界會(huì)怎樣？

這兩個(gè)問(wèn)題看似接近，實(shí)際差別很大。

一個(gè)VLA系統(tǒng)接收到圖像和語(yǔ)言指令后，通常要輸出機(jī)器人動(dòng)作，比如機(jī)械臂移動(dòng)、夾爪開(kāi)合、手指軌跡、身體姿態(tài)調(diào)整。它的核心是把“觀察”和“指令”映射成“行動(dòng)”。

而世界模型關(guān)心的是狀態(tài)變化。它不是直接問(wèn)機(jī)器人下一步怎么動(dòng)，而是預(yù)測(cè)：在當(dāng)前狀態(tài)下，如果執(zhí)行某個(gè)動(dòng)作，下一時(shí)刻的世界會(huì)變成什么樣。

還是以前文提到的拍手為例。對(duì)人類來(lái)說(shuō)，拍手是極其簡(jiǎn)單的動(dòng)作；但如果用語(yǔ)言完整描述它，就會(huì)涉及雙手空間位置、接近速度、接觸點(diǎn)、壓力、聲音、空氣擾動(dòng)、手臂彎曲、衣物褶皺、周圍環(huán)境反饋等大量連續(xù)變化。

VLA可以把“拍手”理解為一個(gè)任務(wù)，但世界模型試圖理解的是：兩只手在運(yùn)動(dòng)中會(huì)如何接近、接觸、反彈，聲音如何產(chǎn)生，動(dòng)作完成后狀態(tài)如何變化。

因此，VLA和世界模型的區(qū)別可以壓縮成一句話：VLA讓機(jī)器人理解任務(wù)，世界模型讓機(jī)器人預(yù)判后果。

這也是為什么世界模型會(huì)變得重要。

世界模型在產(chǎn)業(yè)里至少有三種用途：

第一，作為數(shù)據(jù)生成器，補(bǔ)充昂貴的真實(shí)機(jī)器人數(shù)據(jù)。

第二，作為仿真訓(xùn)練場(chǎng)，降低真實(shí)試錯(cuò)成本。

第三，作為預(yù)測(cè)模塊，幫助機(jī)器人在行動(dòng)前評(píng)估未來(lái)狀態(tài)。

Jim Fan提出的WAM，則更進(jìn)一步：不是把世界模型放在外面做訓(xùn)練場(chǎng)，而是讓模型同時(shí)預(yù)測(cè)未來(lái)世界狀態(tài)和機(jī)器人動(dòng)作，把“世界預(yù)測(cè)”和“動(dòng)作生成”放進(jìn)同一套架構(gòu)里。DreamZero論文也把這一點(diǎn)作為區(qū)別于傳統(tǒng)VLA的核心：WAM通過(guò)視頻作為世界演化的稠密表征，聯(lián)合建模視頻與動(dòng)作。

但反過(guò)來(lái)，世界模型也不能被神化。

今天行業(yè)里最大的問(wèn)題之一，是幾乎所有人都可以說(shuō)自己在做世界模型。

據(jù)不完全統(tǒng)計(jì)，目前中國(guó)市場(chǎng)上有超過(guò)30家公司在不同程度上宣稱自己是世界模型或擁有世界模型屬性：做視頻生成的，可以說(shuō)自己在生成世界；做仿真的，可以說(shuō)自己在構(gòu)建世界；做自動(dòng)駕駛模擬器的，可以說(shuō)自己在預(yù)測(cè)世界；做機(jī)器人訓(xùn)練數(shù)據(jù)的，也可以說(shuō)自己在建模世界。

結(jié)果是，世界模型正在從一個(gè)技術(shù)方向，變成一個(gè)筐，什么都能往里裝。

其實(shí)，世界模型在學(xué)術(shù)界和產(chǎn)業(yè)界都還存在定義爭(zhēng)議：有人認(rèn)為世界模型必須包含對(duì)潛在狀態(tài)的精確預(yù)測(cè)和物理因果理解，而不是模擬一種可能出現(xiàn)的視覺(jué)結(jié)果；也有人認(rèn)為通過(guò)像素級(jí)視頻預(yù)測(cè)，同樣能讓模型學(xué)會(huì)物理規(guī)律。

一位AI從業(yè)者告訴「甲子光年」：“現(xiàn)在來(lái)說(shuō)，世界模型沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義。市場(chǎng)上有很多流派，有的流派認(rèn)為做視頻生成也算世界模型，有的則不這么認(rèn)為，每個(gè)流派也都有一個(gè)大佬在后面撐腰?！?/p>

這正是今天行業(yè)討論世界模型時(shí)最需要警惕的地方。

對(duì)機(jī)器人來(lái)說(shuō)，一個(gè)世界模型是否有價(jià)值，不取決于它生成的視頻多真實(shí)，而取決于它能否進(jìn)入真實(shí)任務(wù)閉環(huán)：

它預(yù)測(cè)的狀態(tài)是否符合物理規(guī)律？

它生成的數(shù)據(jù)能否提升真實(shí)機(jī)器人表現(xiàn)？

它能否幫助機(jī)器人減少試錯(cuò)？

它能否處理接觸、摩擦、遮擋、柔性物體和長(zhǎng)程任務(wù)？

它能否和機(jī)器人控制系統(tǒng)穩(wěn)定耦合？

如果不能回答這些問(wèn)題，世界模型就只是更高級(jí)的視頻生成，而不是具身智能的基礎(chǔ)設(shè)施。

更重要的是，世界模型本身也有幻覺(jué)風(fēng)險(xiǎn)。在視頻生成里，物體穿模、反重力、邊界模糊、狀態(tài)不一致，可能只是畫面瑕疵；但在機(jī)器人訓(xùn)練里，這些錯(cuò)誤會(huì)變成錯(cuò)誤的物理經(jīng)驗(yàn)。

一個(gè)看起來(lái)合理但物理上錯(cuò)誤的世界，對(duì)機(jī)器人來(lái)說(shuō)可能比沒(méi)有世界模型更危險(xiǎn)。

所以，不能因?yàn)閂LA有短板，就把世界模型推上神壇。世界模型補(bǔ)的是“物理預(yù)判”這塊短板，但它還必須接受真實(shí)世界校驗(yàn)。

這也是為什么，大量機(jī)器人公司依然在采集遙操數(shù)據(jù)、真機(jī)數(shù)據(jù)、工廠數(shù)據(jù)和客戶現(xiàn)場(chǎng)數(shù)據(jù)。仿真可以加速訓(xùn)練，但真實(shí)世界仍然是最后的裁判。

4.比流行詞更重要的事情

把VLA和世界模型放在一起討論，最容易犯的錯(cuò)誤，是把它們理解成替代關(guān)系。

舊路線叫VLA，新路線叫世界模型。VLA過(guò)時(shí)了，世界模型上位了。這種敘事很爽，但不準(zhǔn)確。

更接近現(xiàn)實(shí)的情況是，機(jī)器人系統(tǒng)正在從單一模型敘事，走向分層架構(gòu)敘事。

「甲子光年」認(rèn)為，一個(gè)真正可用的機(jī)器人，至少需要四層能力。

第一層是任務(wù)理解。它要知道人要它做什么，目標(biāo)物體在哪里，任務(wù)成功的標(biāo)準(zhǔn)是什么。這里VLA仍然有價(jià)值。

第二層是狀態(tài)預(yù)測(cè)。它要知道如果自己采取某個(gè)動(dòng)作，物體、環(huán)境、人和自身會(huì)如何變化。這里世界模型或者WAM會(huì)發(fā)揮更大作用。

第三層是運(yùn)動(dòng)控制。它要把高層意圖變成連續(xù)、穩(wěn)定、可執(zhí)行的身體動(dòng)作，包括軌跡規(guī)劃、力控、避障、平衡和異?；謴?fù)。

第四層是數(shù)據(jù)閉環(huán)。它要從每一次成功和失敗中回收數(shù)據(jù)，判斷是識(shí)別錯(cuò)了、預(yù)測(cè)錯(cuò)了、控制錯(cuò)了，還是場(chǎng)景本身超出了能力邊界。

這四層能力，沒(méi)有任何一層能單獨(dú)構(gòu)成“通用機(jī)器人”。

VLA解決不了全部問(wèn)題，世界模型也解決不了全部問(wèn)題。VLA更像任務(wù)入口，世界模型更像物理預(yù)測(cè)器，控制系統(tǒng)是執(zhí)行器，真實(shí)數(shù)據(jù)是校準(zhǔn)器。

「甲子光年」了解到，一些團(tuán)隊(duì)會(huì)將世界模型作為一個(gè)VLA模型的數(shù)據(jù)生成器和仿真訓(xùn)練平臺(tái)，用世界模型合成的數(shù)據(jù)投喂給VLA，或者直接讓VLA模型在一個(gè)世界模型中進(jìn)行訓(xùn)練，以增強(qiáng)其動(dòng)作精度和泛化能力。

此外，部分前沿團(tuán)隊(duì)也在嘗試將世界模型能力直接注入VLA架構(gòu)。

比如智平方的GOVLA 1.0（Video2Act）大模型，雖然整體架構(gòu)仍是VLA模型，但其明確表示嵌入了世界模型，并且引入了快慢系統(tǒng)的概念，世界模型就運(yùn)行在慢系統(tǒng)中，完成任務(wù)拆解、邏輯推理、行動(dòng)預(yù)測(cè)等工作。

智平方創(chuàng)始人郭彥東告訴「甲子光年」：“VLA在具身智能產(chǎn)品上，是一個(gè)具有‘終局感’的架構(gòu)范式?！蓖瑫r(shí)他還表示：“把世界模型用來(lái)增強(qiáng)VLA，和把世界模型融入VLA，是不同的兩個(gè)范式。我們認(rèn)為把世界模型融入到VLA里面，讓VLA具備更強(qiáng)的泛化能力，是VLA變得更強(qiáng)的必由之路。”

一些更前沿的學(xué)術(shù)研究，也在試圖讓VLA和世界模型共享輸入信息的表征，并且共同完成動(dòng)作輸出決策，當(dāng)然這種技術(shù)路徑目前還很初期。

“VLA已死”是一個(gè)好標(biāo)題，但不是一個(gè)好結(jié)論。

它的價(jià)值在于提醒行業(yè)：不要再把大語(yǔ)言模型的成功經(jīng)驗(yàn)簡(jiǎn)單套到機(jī)器人身上。機(jī)器人不是ChatGPT套一個(gè)機(jī)械臂，也不是VLM后面接一個(gè)動(dòng)作頭。真實(shí)世界的連續(xù)性、物理性和不可逆性，決定了機(jī)器人必須學(xué)習(xí)動(dòng)作如何改變世界。

VLA真正需要的不是葬禮，而是進(jìn)化；世界模型真正需要的也不是造神，而是落地。

具身智能行業(yè)其實(shí)并不需要看下一個(gè)流行詞是什么，大家的關(guān)注點(diǎn)更應(yīng)放在誰(shuí)能把任務(wù)理解、世界預(yù)測(cè)、運(yùn)動(dòng)控制和真實(shí)數(shù)據(jù)閉環(huán)變成一個(gè)可部署的系統(tǒng)。

到那一天，VLA也好，世界模型也好，都不會(huì)再是文章標(biāo)題里的爭(zhēng)議詞。

它們會(huì)變成機(jī)器人真正干活時(shí)，身體里不再被單獨(dú)提起的基礎(chǔ)能力。

（封面圖來(lái)源：AI生成）

原標(biāo)題：《別著急宣布VLA已死｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)