智元彭志輝：2026具身智能進(jìn)入“部署態(tài)”元年

澎湃科技

2026-03-03 14:34

來源：澎湃新聞

聽全文

2月28日，2026人形機(jī)器人與具身智能標(biāo)準(zhǔn)化（HEIS）年會(huì)在北京舉行。工業(yè)和信息化部人形機(jī)器人與具身智能標(biāo)準(zhǔn)化技術(shù)委員會(huì)副主任委員、智元機(jī)器人聯(lián)合創(chuàng)始人、總裁兼CTO彭志輝（稚暉君）在演講中表示，具身智能行業(yè)目前進(jìn)入了下半場(chǎng)，2026年人形機(jī)器人迎來“部署態(tài)”元年?！罢麄€(gè)具身智能行業(yè)目前還在共同探索，沒有任何一家企業(yè)能獨(dú)自給出正確答案?！迸碇据x開篇直言，“我們需要協(xié)力攻破瓶頸，在正確的時(shí)間做正確的事。”

談及產(chǎn)業(yè)現(xiàn)狀，他援引工信部數(shù)據(jù)稱：“國(guó)內(nèi)人形機(jī)器人整機(jī)企業(yè)已超140家，發(fā)布產(chǎn)品達(dá)330款，行業(yè)已從實(shí)驗(yàn)室炫技、Demo展示，進(jìn)入工程化、場(chǎng)景化競(jìng)爭(zhēng)的下半場(chǎng)?！彼貞?，2024年到2025年初，行業(yè)焦點(diǎn)還在比拼機(jī)器人走路是否自然，如今已能完成“飛檐走壁”般的高難度動(dòng)作?！氨倔w靈活性已達(dá)到實(shí)用化階段，接下來要比的，是誰的干活能力更強(qiáng)。不僅在國(guó)內(nèi)比，更要與海外頭部企業(yè)比，看誰能在‘部署態(tài)’真正落地?！?/p>

彭志輝認(rèn)為當(dāng)前人形機(jī)器人的最佳切入點(diǎn)是“在簡(jiǎn)單場(chǎng)景做復(fù)雜任務(wù)”。“比如在結(jié)構(gòu)化的工廠環(huán)境里，執(zhí)行高自由度、高維感知的復(fù)雜操作?！彼治龅?，雖然自動(dòng)駕駛是在復(fù)雜環(huán)境下做簡(jiǎn)單任務(wù)，但人形機(jī)器人與自動(dòng)駕駛的終局是一致的，即在復(fù)雜環(huán)境下完成復(fù)雜任務(wù)，“目前我們已在文娛商演、工業(yè)制造、物流分揀、安防巡檢等八大典型場(chǎng)景展開應(yīng)用，只有真實(shí)場(chǎng)景才是驗(yàn)證可靠性、迭代系統(tǒng)的最有效途徑?！?/p>

談及為何堅(jiān)持“人形”路線的底層邏輯，彭志輝給出了一個(gè)形象的比喻：“Computer Use（電腦使用）是數(shù)字世界的人形接口，而人形機(jī)器人就是物理世界的通用接口?！彼忉屨f，正如現(xiàn)有的軟件系統(tǒng)是為鼠標(biāo)鍵盤設(shè)計(jì)的一樣，整個(gè)物理世界——從門把手高度到工具形態(tài)——都是為人類身體設(shè)計(jì)的。“既然環(huán)境是圍繞人類構(gòu)建的，那么AI要實(shí)現(xiàn)最大化的通用性和兼容性，其終端形態(tài)大概率也要長(zhǎng)得像人。它未必是效率最高的，但一定是兼容性最強(qiáng)的。”他預(yù)判，未來人形機(jī)器人走進(jìn)家庭時(shí)，產(chǎn)業(yè)規(guī)模將是“手機(jī)數(shù)量乘以汽車價(jià)格”的級(jí)別。

作為標(biāo)委會(huì)副主任委員，彭志輝最后呼吁行業(yè)共建標(biāo)準(zhǔn)體系?！熬呱碇悄艿慕K局是基礎(chǔ)設(shè)施，而非單點(diǎn)產(chǎn)品?！彼硎荆拔锢鞟I規(guī)?；年P(guān)鍵在于數(shù)據(jù)閉環(huán)、可靠性工程以及可運(yùn)維能力的標(biāo)準(zhǔn)化。我們既要跑得快，也要跑得穩(wěn)。智元愿將一線實(shí)踐中的數(shù)據(jù)治理方法、評(píng)測(cè)體系和運(yùn)維經(jīng)驗(yàn)與行業(yè)共享，共同加速物理AI的系統(tǒng)性落地。通用能力的突破肯定來自全行業(yè)的產(chǎn)業(yè)遷移與生態(tài)共建，而標(biāo)準(zhǔn)化正是這一過程的加速器?！?/p>

智元機(jī)器人聯(lián)合創(chuàng)始人、總裁兼CTO彭志輝（稚暉君）。

以下為彭志輝在2026人形機(jī)器人與具身智能標(biāo)準(zhǔn)化（HEIS）年會(huì)上的演講全文：

我們整個(gè)行業(yè)目前還在共同探索，目前沒有任何一家企業(yè)可以說自己獨(dú)自給出正確答案。我們要大家一起協(xié)力攻破這些瓶頸。今天我個(gè)人經(jīng)過三年的階段性探索，想以實(shí)踐者的身份匯報(bào)我們智元對(duì)于行業(yè)發(fā)展的一些思考。首先一個(gè)實(shí)際問題，具身智能可能是下一次工業(yè)革命的重要引擎，革命成功的關(guān)鍵是要在正確的時(shí)間做正確的事情。很多人會(huì)問為什么是現(xiàn)在，為什么人形機(jī)器人這兩年突然成為風(fēng)口。

根本原因是AI技術(shù)的發(fā)展帶來的突破。從2015年可以看到，以深度學(xué)習(xí)為代表的分析式AI帶來了感知智能；到2022年開始，以超級(jí)大模型為代表的生成式AI引領(lǐng)了認(rèn)知智能；到今天我們正處在下一個(gè)重大轉(zhuǎn)折點(diǎn)，就是由AI加機(jī)器人驅(qū)動(dòng)的物理智慧世界正在加速到來。

我們定義的具身智能，是能在真實(shí)世界里面完成感知、決策、行動(dòng)、學(xué)習(xí)一個(gè)完整閉環(huán)的通用智能體，也就是所謂的通用智能體?；仡欉^去幾年，我們?nèi)祟愅瓿闪藬?shù)字AI的規(guī)模化。過去這幾年AI進(jìn)化速度呈爆炸式發(fā)展，DPC（編者注：DeepSeek的模型簡(jiǎn)稱）馬上也要發(fā)新模型了，大家可能覺得DPC已經(jīng)是很久以前的事情，其實(shí)才一年。整個(gè)大語言模型開始，大家的視野慢慢打開，也才3年時(shí)間。

最近，從Agent到MCP到Q，再到Open Cloud，幾乎每個(gè)月都有顛覆性進(jìn)展。大模型集群、海量數(shù)據(jù)、開發(fā)者生態(tài)，這一切都在讓AI在屏幕里、在云端變得無所不能。這也讓大家自然而然地會(huì)往它的延長(zhǎng)線上去看，什么時(shí)候AI能夠在物理世界發(fā)揮巨大價(jià)值，能夠幫我們干活。這就是我們未來十年要挑戰(zhàn)的更難命題，完成物理AI的規(guī)?；瑥臄?shù)字AI走向物理AI。正如我們從功能手機(jī)走向智能手機(jī)的轉(zhuǎn)變，通用機(jī)器人區(qū)別于之前的專用機(jī)器人，不再局限于單一任務(wù)，而是能夠靈活適應(yīng)多種不同工作場(chǎng)景，進(jìn)行廣泛應(yīng)用。通用機(jī)器人代表著具身技術(shù)的一種更為先進(jìn)的通用形態(tài)，能夠通過AI賦能，實(shí)現(xiàn)自主學(xué)習(xí)、多任務(wù)切換、長(zhǎng)程任務(wù)的環(huán)境適應(yīng)等。這種從專用到通用的跨越，為未來各行各業(yè)的應(yīng)用帶來了巨大可能性。

今天是標(biāo)委會(huì)的年會(huì)，我也想回應(yīng)一些政策背景。計(jì)算行業(yè)的蓬勃發(fā)展，離不開國(guó)家政策的支持。第一個(gè)是國(guó)家的戰(zhàn)略窗口目前已經(jīng)完全打開，人形機(jī)器人被納入推動(dòng)未來產(chǎn)業(yè)創(chuàng)新發(fā)展的重點(diǎn)方向。工信部規(guī)劃清晰，到2025年實(shí)現(xiàn)批量生產(chǎn)，2027年完成具有國(guó)際競(jìng)爭(zhēng)力的生態(tài)格局，這就是我們所依托的作戰(zhàn)地圖。第二點(diǎn)是產(chǎn)業(yè)側(cè)信號(hào)非常強(qiáng)烈。

今年1月21日，工信部在國(guó)信辦發(fā)布會(huì)上披露的數(shù)據(jù)顯示，國(guó)內(nèi)人形機(jī)器人整機(jī)企業(yè)已經(jīng)超過140家，發(fā)布的產(chǎn)品達(dá)330款。這意味著整個(gè)行業(yè)已經(jīng)從實(shí)驗(yàn)室里的炫技、做Demo，正式進(jìn)入工程化競(jìng)爭(zhēng)、場(chǎng)景化競(jìng)爭(zhēng)的下半場(chǎng)。2024年到2025年初，大家還在比拼誰家的機(jī)器人走路更直、更自然，到現(xiàn)在我們已經(jīng)能實(shí)現(xiàn)機(jī)器人飛檐走壁，人能做的工作機(jī)器人能做，人做不了的工作機(jī)器人也能做。本體的靈活性已經(jīng)達(dá)到一定的實(shí)用性階段，接下來我們要比誰的干活能力更強(qiáng)，不僅在國(guó)內(nèi)比，還要跟海外具身智能頭部企業(yè)比，看誰能在部署態(tài)真正落地。具體到企業(yè)實(shí)踐，我們智元總結(jié)出一套可落地的工程范式——一體三智。

首先是一體，一體指的是本體。在數(shù)字世界，代碼跑錯(cuò)了可以重新跑、可以重啟，但在物理世界有物理成本，有失效成本。本體是AI在真實(shí)世界的約束接口，真實(shí)的物理世界非常復(fù)雜，充滿了各種隨機(jī)的摩擦、碰撞、形變、誤差、老化、噪聲等。所以本體的設(shè)計(jì)，不只是簡(jiǎn)單的硬件堆疊，更是可靠性工程、供應(yīng)鏈工程和安全工程的綜合體。

當(dāng)前本體最核心、最重要的兩個(gè)零部件，一個(gè)是關(guān)節(jié)，決定了本體的運(yùn)動(dòng)能力上限；一個(gè)是靈巧手，決定了它的操作能力上限，這兩個(gè)部件也占據(jù)了整機(jī)成本的絕大部分。

行業(yè)早期，機(jī)器人的執(zhí)行器有很多不同的探索路徑，比如基于液壓驅(qū)動(dòng)、基于高速比高剛度的斜波驅(qū)動(dòng)、類似四缸的直線驅(qū)動(dòng)等。但從2023年開始，整個(gè)執(zhí)行器的方案都收斂到了新型關(guān)節(jié)。人形機(jī)器人的硬件技術(shù)和新能源車非常類似，這也是很多車企布局機(jī)器人領(lǐng)域的原因。

其中最核心的就是所謂的三電系統(tǒng)，三電系統(tǒng)里面的電機(jī)和電控，在機(jī)器人系統(tǒng)中體現(xiàn)為一體化的關(guān)節(jié)。

區(qū)別于汽車的點(diǎn)在于，一方面功放不一樣。機(jī)器人的自由度和任務(wù)空間遠(yuǎn)比汽車復(fù)雜，汽車的電機(jī)工況相對(duì)簡(jiǎn)單，基本是單向輸出，而機(jī)器人需要進(jìn)行高動(dòng)態(tài)、高頻的正反轉(zhuǎn)，所以功放不同。另一方面，汽車自由度相對(duì)低，只有方向盤、油門等，而機(jī)器人全身一般少則數(shù)十個(gè)、多則上百個(gè)運(yùn)動(dòng)自由度，如果算上手的話，自由度會(huì)更多。

更關(guān)鍵的是，機(jī)器人不同關(guān)節(jié)部位的各種規(guī)格指標(biāo)差距非常大，動(dòng)態(tài)范圍非常廣。比如手指的扭矩和大腿的扭矩，需求完全不在一個(gè)量級(jí)。但機(jī)器人自由度高，不可能為每個(gè)關(guān)節(jié)單獨(dú)設(shè)計(jì)一款對(duì)應(yīng)規(guī)格的產(chǎn)品，這會(huì)是量產(chǎn)的災(zāi)難。所以如何科學(xué)做好關(guān)節(jié)系列化規(guī)劃，是一個(gè)標(biāo)準(zhǔn)化流程，也是非?？简?yàn)系統(tǒng)設(shè)計(jì)能力的一點(diǎn)。比如我們?cè)趯?shí)踐中，把所有產(chǎn)品線將近10款產(chǎn)品、五大系列，全部規(guī)整到8款系列化關(guān)節(jié)設(shè)計(jì)上，這8款關(guān)節(jié)用在我們所有產(chǎn)品上，能夠滿足所有部位的關(guān)節(jié)需求。

這就是系列化、標(biāo)準(zhǔn)化帶來的收益。靈巧手也是一個(gè)復(fù)雜度非常高的核心零件，它的難點(diǎn)一方面是需要把10~20個(gè)自由度的運(yùn)動(dòng)部件結(jié)構(gòu)，塞進(jìn)比人手手掌還小的空間；另一方面是對(duì)靈巧手的高維感知能力要求非常高，最典型的就是觸覺。

觸覺在工業(yè)干活領(lǐng)域落地起核心作用。我們分析過大量工業(yè)作業(yè)場(chǎng)景，也實(shí)地走訪客戶、去工廠看每個(gè)工人的操作，得出的結(jié)論是，接近80%人類做得好、傳統(tǒng)自動(dòng)化做得不好的工序，都和觸覺有強(qiáng)相關(guān)。比如裝配，很多流水線上的工人會(huì)通過手感，也就是觸覺把兩個(gè)東西拼起來，聽到咔嚓一聲就知道裝配好了。這種咔嚓一聲怎么用數(shù)字描述，怎么和傳感器信號(hào)對(duì)應(yīng)起來，就是觸覺能體現(xiàn)價(jià)值的地方。但這里的瓶頸在于，觸覺傳感器的技術(shù)路徑還沒有收斂，沒有標(biāo)準(zhǔn)化。我們對(duì)比視覺，視覺是先有標(biāo)準(zhǔn)的傳感器技術(shù)，比如CCD、CMOS，再有標(biāo)準(zhǔn)的數(shù)據(jù)格式，比如JPG等，然后有標(biāo)準(zhǔn)的數(shù)據(jù)集，比如非常有名的ImageNet，之后才催生了各種深度學(xué)習(xí)模型的百花齊放，最終在各個(gè)場(chǎng)景廣泛應(yīng)用，這就是標(biāo)準(zhǔn)的價(jià)值。當(dāng)前觸覺在傳感器層面還沒有形成標(biāo)準(zhǔn)，硬件也沒有收斂，比如有基于電容的、基于電感的、基于壓電效應(yīng)的，還有基于其他技術(shù)的。

這是目前的一個(gè)瓶頸，我們也在這方面投入了大量研發(fā)精力，希望未來能看到好的收效。如果說硬件是軀體，那AI就是機(jī)器人的靈魂。我們現(xiàn)在把機(jī)器人的靈魂主要分為三個(gè)領(lǐng)域，就是運(yùn)動(dòng)智能、交互智能、作業(yè)智能。2024年以來，整個(gè)行業(yè)包括學(xué)術(shù)界、工業(yè)界，在運(yùn)控領(lǐng)域的進(jìn)步肉眼可見。這主要得益于三個(gè)方面：一是整體算法范式的轉(zhuǎn)變，從傳統(tǒng)的模型驅(qū)動(dòng)，也就是所謂的NPC，到后來強(qiáng)化學(xué)習(xí)RL的范式轉(zhuǎn)變；二是類似于SSA這種仿真框架的普及，使得大規(guī)模并行仿真和訓(xùn)練成為可能；三是前面提到的關(guān)節(jié)技術(shù)收斂，新型關(guān)節(jié)帶來的低難度控制模式。這些綜合收益，使得我們整體的運(yùn)動(dòng)智能得到突破性提升。

運(yùn)動(dòng)智能是交互智能和作業(yè)智能的基座，為人形機(jī)器人提供自主自由移動(dòng)和全身動(dòng)作的基礎(chǔ)能力。在運(yùn)動(dòng)智能基礎(chǔ)上，交互智能和作業(yè)智能分別提供情緒價(jià)值和生產(chǎn)力價(jià)值。

同時(shí)，各種復(fù)雜動(dòng)作的實(shí)現(xiàn)，對(duì)模型訓(xùn)練要求非常高，需要非常專業(yè)的AI背景和實(shí)操訓(xùn)練技巧，才能實(shí)現(xiàn)一些復(fù)雜動(dòng)作。我們?yōu)榱诉M(jìn)一步降低模型訓(xùn)練難度、降低開發(fā)門檻，以此豐富創(chuàng)作內(nèi)容，提出從最早的科研教育實(shí)驗(yàn)室的開發(fā)態(tài)，走向創(chuàng)作態(tài)，最終到部署態(tài)。針對(duì)創(chuàng)作態(tài)，我們開發(fā)了一些好用的工具鏈，比如去年發(fā)布的靈創(chuàng)平臺(tái)，它把整個(gè)基礎(chǔ)動(dòng)作訓(xùn)練的流程簡(jiǎn)化到只需上傳一個(gè)視頻。就像抖音一樣，拍一段人類跳舞或者做各種任務(wù)的視頻，上傳到我們平臺(tái)，它會(huì)自動(dòng)完成動(dòng)作關(guān)鍵點(diǎn)檢測(cè)、動(dòng)作遷移、IL訓(xùn)練、推理部署等所有流程，實(shí)現(xiàn)全自動(dòng)化，這是一個(gè)非常好的降低應(yīng)用門檻的工具。

第二個(gè)智能是交互智能。未來的機(jī)器人不能只聽懂語音指令，目前語音指令的實(shí)現(xiàn)還不夠完善，它需要從語音指令轉(zhuǎn)向多模態(tài)的感知和協(xié)作。比如它看到你的時(shí)候，能感受到你的情緒、聽懂你的語氣，甚至能提前預(yù)判你的意圖。交互智能的意義在于，我們希望打造出真正可溝通、可信賴的機(jī)器人伙伴。這種情緒價(jià)值的意義比很多人想象的要大得多，大家看春晚的機(jī)器人表演，就是在為大家提供情緒價(jià)值。

這一點(diǎn)不僅對(duì)用戶有價(jià)值，很多用戶也愿意為它買單、付費(fèi)。對(duì)于交互智能而言，它可以提供可交互的情緒價(jià)值。這一塊很大程度可以復(fù)用現(xiàn)在大語言模型的成果，目前國(guó)內(nèi)外的大模型，智商和情商都已經(jīng)非常高，還能形成多模態(tài)情感識(shí)別，我們?cè)跈C(jī)器人上可以直接復(fù)用這部分能力。但也有區(qū)別，比如模態(tài)的升級(jí)，現(xiàn)在我們使用的各種AI助手，缺失機(jī)器人所需要的一些模態(tài)，比如肢體動(dòng)作、表情等。

因?yàn)槲覀兊漠a(chǎn)品線非常多，所以希望通過一套標(biāo)準(zhǔn)化流程，形成能力復(fù)用、數(shù)據(jù)回流、模型進(jìn)化、產(chǎn)品升級(jí)的正向循環(huán)。同時(shí)我們也相信，技術(shù)的終極應(yīng)該是開放的，生態(tài)的力量肯定遠(yuǎn)大于單點(diǎn)突破，我們一家的突破遠(yuǎn)遠(yuǎn)不夠。所以我們也在構(gòu)建一個(gè)開放共享、持續(xù)進(jìn)化的生態(tài)，比如我們有很多開源的動(dòng)作。包括具身智能領(lǐng)域的安卓系統(tǒng)，我們叫靈渠OS，這個(gè)操作系統(tǒng)也是我們開源的；還有業(yè)界最大的真機(jī)數(shù)據(jù)集，也是我們?cè)?023年底開源的，英偉達(dá)很多模型也用了我們這個(gè)數(shù)據(jù)集。

有了技術(shù)之后，我們也希望匹配到合理、合適的場(chǎng)景里面去落地。不同階段的技術(shù)成熟度，會(huì)匹配到不同的落地場(chǎng)景，這就是所謂的沿途下蛋的思路。我們選擇場(chǎng)景會(huì)遵循一些原則，比如把任務(wù)維度分為兩個(gè)維度，一個(gè)是場(chǎng)景的復(fù)雜度，一個(gè)是任務(wù)本身的操作復(fù)雜度。場(chǎng)景復(fù)雜度實(shí)際上是一種約束，不體現(xiàn)價(jià)值，是一種障礙；任務(wù)的復(fù)雜度能夠體現(xiàn)價(jià)值。

一個(gè)典型的例子，比如自動(dòng)駕駛，就是在復(fù)雜的環(huán)境下做簡(jiǎn)單的任務(wù)。它的任務(wù)非常簡(jiǎn)單，就是從A點(diǎn)到B點(diǎn)，中間只有方向盤和油門，自由度非常低，但環(huán)境是非常復(fù)雜、開放的。

我們機(jī)器人現(xiàn)在正在做的事情，其實(shí)是在簡(jiǎn)單場(chǎng)景做復(fù)雜任務(wù)。比如在工廠里面的約束化、結(jié)構(gòu)化環(huán)境中，做的任務(wù)非常復(fù)雜，自由度非常高，還要涉及高維感知和一些長(zhǎng)程任務(wù)。

自動(dòng)駕駛和現(xiàn)在的具身智能，都會(huì)走向最終的目標(biāo)，就是在復(fù)雜環(huán)境下做復(fù)雜任務(wù)，真正替代人類的大部分工作。這是我們長(zhǎng)期選擇的一個(gè)原則。

基于這個(gè)原則，我們現(xiàn)在已經(jīng)在8大典型場(chǎng)景里面，開展了非常多的應(yīng)用。這里需要強(qiáng)調(diào)的是，我們不認(rèn)為自己找到的場(chǎng)景是絕對(duì)正確、唯一的選擇，而是確信真實(shí)的場(chǎng)景才是訓(xùn)練系統(tǒng)、驗(yàn)證可靠性的最有效市場(chǎng)。所以機(jī)器人一定要在真實(shí)場(chǎng)景里面去跑，收集數(shù)據(jù)、循環(huán)迭代，才有可能實(shí)現(xiàn)技術(shù)和應(yīng)用的突破。

最后我想聊一下為什么我們會(huì)這么執(zhí)著于人形形態(tài)。這里的關(guān)鍵邏輯在于，整個(gè)物理世界就是為人類設(shè)計(jì)的，人形機(jī)器人之所以有望成為未來的智能基礎(chǔ)設(shè)施，不是因?yàn)樗L(zhǎng)得像人，而是因?yàn)樗堑谝淮伟亚榫w價(jià)值和勞動(dòng)生產(chǎn)力，統(tǒng)一到同一個(gè)可規(guī)?；?、可進(jìn)化的物理終端載體中。我們可以舉一個(gè)最近的例子，大家都知道“問界到小龍蝦”非常火。2025年底大家還在討論哪個(gè)模型更聰明、哪個(gè)模型編程能力更強(qiáng)，但到了2026年初，這個(gè)話題幾乎迅速收斂到一個(gè)關(guān)鍵詞，就是Computer Use，也就是電腦的使用。簡(jiǎn)單說就是讓機(jī)器人能夠自己操作電腦，比如下載文件，它能自己操作電腦、自動(dòng)化完成任務(wù)。

最早掀起這股趨勢(shì)的是Open Cloud，它推出的所謂CoCo模式。隨著“小龍蝦”（OpenClaw）項(xiàng)目的開源，這個(gè)項(xiàng)目進(jìn)一步點(diǎn)燃了整個(gè)社區(qū)的熱度。其實(shí)模型能力的比拼也開始轉(zhuǎn)向，從最早的智力指標(biāo)，現(xiàn)在開始轉(zhuǎn)向執(zhí)行能力。

單純分析這個(gè)事情，從純技術(shù)效率的角度來看，讓AI通過模擬鼠標(biāo)和鍵盤的方式操作電腦，顯然不是最優(yōu)解。因?yàn)槔碚撋献顑?yōu)的方式，應(yīng)該是讓AI直接生成目標(biāo)的二進(jìn)制代碼，直接生成代碼在電腦上跑，繞開圖形界面和人為交互。但現(xiàn)實(shí)的問題在于，現(xiàn)在所有的軟件系統(tǒng)、操作系統(tǒng)，整個(gè)數(shù)字生態(tài)都是為人類設(shè)計(jì)的，都是為鼠標(biāo)和鍵盤這樣的交互模式設(shè)計(jì)的。正因如此，操作電腦反而成為一種高度通用的接口層，它不是最優(yōu)效率的路徑，但卻是覆蓋最廣的執(zhí)行通路。

回到人形機(jī)器人的事情上，邏輯是一樣的。我們的物理世界，各種建筑、工具、設(shè)備、交通系統(tǒng)，都是為人類的身體設(shè)計(jì)和實(shí)現(xiàn)的。比如門把手的高度、樓梯的尺寸、工具的把握形態(tài)、工具流的組織方式等，本質(zhì)上都假設(shè)了一個(gè)人類形態(tài)的操作者。所以從數(shù)字AI到物理AI，應(yīng)該也存在一條清晰的進(jìn)化路徑。既然整個(gè)環(huán)境是圍繞人類構(gòu)建的，那么AI如果要實(shí)現(xiàn)最大化的通用性和兼容性，最終的終端形態(tài)，大概率也要長(zhǎng)得像人類。

換句話說，Computer Use是數(shù)字世界里的人形接口，人形機(jī)器人就是物理世界里的通用接口。它們可能未必是最高效的平臺(tái)，但肯定是全世界最具兼容性的載體?；仡櫄v史上的幾個(gè)重要交互終端，PC和手機(jī)，它們連接的都是人和數(shù)字世界，未來的人形機(jī)器人，連接的是人與物理世界本身。

這也是為什么說我們?cè)趨⑴c時(shí)代級(jí)的基礎(chǔ)設(shè)施革命。我覺得未來機(jī)器人真正走進(jìn)家庭的時(shí)候，整個(gè)人形機(jī)器人的產(chǎn)業(yè)規(guī)模一定非常巨大，我們認(rèn)為它是一個(gè)手機(jī)數(shù)量乘以汽車價(jià)格的產(chǎn)業(yè)空間。前景非常廣闊，但挑戰(zhàn)也非常大。

同時(shí)再回到標(biāo)準(zhǔn)上，這不僅僅是技術(shù)問題，物理AI的社會(huì)接受度也取決于它的安全、隱私、網(wǎng)絡(luò)、數(shù)據(jù)、倫理治理等，這些都要形成標(biāo)準(zhǔn)。

所以我們既要跑得快，也要跑得穩(wěn)；既要采用一些新技術(shù)，也要守住產(chǎn)業(yè)底線，這就是我們建立標(biāo)準(zhǔn)的意義。

最后我想用三句話結(jié)束今天的分享：第一，具身智能的中局是基礎(chǔ)設(shè)施，而非單點(diǎn)產(chǎn)品；第二，物理AI規(guī)?；年P(guān)鍵在于數(shù)據(jù)閉環(huán)、可靠性工程、可運(yùn)維能力等形成標(biāo)準(zhǔn)；第三，人形機(jī)器人通用能力的突破，肯定來自全行業(yè)的產(chǎn)業(yè)遷移和生態(tài)共建。標(biāo)準(zhǔn)化不僅是技術(shù)規(guī)范，更是產(chǎn)業(yè)落地的加速器。未來我們智元非常愿意把一線實(shí)踐中的一些數(shù)據(jù)處理方法、評(píng)測(cè)體系、運(yùn)維經(jīng)驗(yàn)，和整個(gè)行業(yè)一起沉淀為可復(fù)用的方法論，共同加速把AI系統(tǒng)性地引入物理世界。

責(zé)任編輯：宦艷紅

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#智元 #具身智能