- +1
智元彭志輝:2026具身智能進(jìn)入“部署態(tài)”元年
2月28日,2026人形機(jī)器人與具身智能標(biāo)準(zhǔn)化(HEIS)年會(huì)在北京舉行。工業(yè)和信息化部人形機(jī)器人與具身智能標(biāo)準(zhǔn)化技術(shù)委員會(huì)副主任委員、智元機(jī)器人聯(lián)合創(chuàng)始人、總裁兼CTO彭志輝(稚暉君)在演講中表示,具身智能行業(yè)目前進(jìn)入了下半場(chǎng),2026年人形機(jī)器人迎來“部署態(tài)”元年?!罢麄€(gè)具身智能行業(yè)目前還在共同探索,沒有任何一家企業(yè)能獨(dú)自給出正確答案?!迸碇据x開篇直言,“我們需要協(xié)力攻破瓶頸,在正確的時(shí)間做正確的事。”
談及產(chǎn)業(yè)現(xiàn)狀,他援引工信部數(shù)據(jù)稱:“國(guó)內(nèi)人形機(jī)器人整機(jī)企業(yè)已超140家,發(fā)布產(chǎn)品達(dá)330款,行業(yè)已從實(shí)驗(yàn)室炫技、Demo展示,進(jìn)入工程化、場(chǎng)景化競(jìng)爭(zhēng)的下半場(chǎng)?!彼貞?,2024年到2025年初,行業(yè)焦點(diǎn)還在比拼機(jī)器人走路是否自然,如今已能完成“飛檐走壁”般的高難度動(dòng)作?!氨倔w靈活性已達(dá)到實(shí)用化階段,接下來要比的,是誰的干活能力更強(qiáng)。不僅在國(guó)內(nèi)比,更要與海外頭部企業(yè)比,看誰能在‘部署態(tài)’真正落地?!?/p>
彭志輝認(rèn)為當(dāng)前人形機(jī)器人的最佳切入點(diǎn)是“在簡(jiǎn)單場(chǎng)景做復(fù)雜任務(wù)”。“比如在結(jié)構(gòu)化的工廠環(huán)境里,執(zhí)行高自由度、高維感知的復(fù)雜操作?!彼治龅?,雖然自動(dòng)駕駛是在復(fù)雜環(huán)境下做簡(jiǎn)單任務(wù),但人形機(jī)器人與自動(dòng)駕駛的終局是一致的,即在復(fù)雜環(huán)境下完成復(fù)雜任務(wù),“目前我們已在文娛商演、工業(yè)制造、物流分揀、安防巡檢等八大典型場(chǎng)景展開應(yīng)用,只有真實(shí)場(chǎng)景才是驗(yàn)證可靠性、迭代系統(tǒng)的最有效途徑?!?/p>
談及為何堅(jiān)持“人形”路線的底層邏輯,彭志輝給出了一個(gè)形象的比喻:“Computer Use(電腦使用)是數(shù)字世界的人形接口,而人形機(jī)器人就是物理世界的通用接口?!彼忉屨f,正如現(xiàn)有的軟件系統(tǒng)是為鼠標(biāo)鍵盤設(shè)計(jì)的一樣,整個(gè)物理世界——從門把手高度到工具形態(tài)——都是為人類身體設(shè)計(jì)的。“既然環(huán)境是圍繞人類構(gòu)建的,那么AI要實(shí)現(xiàn)最大化的通用性和兼容性,其終端形態(tài)大概率也要長(zhǎng)得像人。它未必是效率最高的,但一定是兼容性最強(qiáng)的。”他預(yù)判,未來人形機(jī)器人走進(jìn)家庭時(shí),產(chǎn)業(yè)規(guī)模將是“手機(jī)數(shù)量乘以汽車價(jià)格”的級(jí)別。
作為標(biāo)委會(huì)副主任委員,彭志輝最后呼吁行業(yè)共建標(biāo)準(zhǔn)體系?!熬呱碇悄艿慕K局是基礎(chǔ)設(shè)施,而非單點(diǎn)產(chǎn)品?!彼硎荆拔锢鞟I規(guī)?;年P(guān)鍵在于數(shù)據(jù)閉環(huán)、可靠性工程以及可運(yùn)維能力的標(biāo)準(zhǔn)化。我們既要跑得快,也要跑得穩(wěn)。智元愿將一線實(shí)踐中的數(shù)據(jù)治理方法、評(píng)測(cè)體系和運(yùn)維經(jīng)驗(yàn)與行業(yè)共享,共同加速物理AI的系統(tǒng)性落地。通用能力的突破肯定來自全行業(yè)的產(chǎn)業(yè)遷移與生態(tài)共建,而標(biāo)準(zhǔn)化正是這一過程的加速器?!?/p>
智元機(jī)器人聯(lián)合創(chuàng)始人、總裁兼CTO彭志輝(稚暉君)。
以下為彭志輝在2026人形機(jī)器人與具身智能標(biāo)準(zhǔn)化(HEIS)年會(huì)上的演講全文:
我們整個(gè)行業(yè)目前還在共同探索,目前沒有任何一家企業(yè)可以說自己獨(dú)自給出正確答案。我們要大家一起協(xié)力攻破這些瓶頸。今天我個(gè)人經(jīng)過三年的階段性探索,想以實(shí)踐者的身份匯報(bào)我們智元對(duì)于行業(yè)發(fā)展的一些思考。首先一個(gè)實(shí)際問題,具身智能可能是下一次工業(yè)革命的重要引擎,革命成功的關(guān)鍵是要在正確的時(shí)間做正確的事情。很多人會(huì)問為什么是現(xiàn)在,為什么人形機(jī)器人這兩年突然成為風(fēng)口。
根本原因是AI技術(shù)的發(fā)展帶來的突破。從2015年可以看到,以深度學(xué)習(xí)為代表的分析式AI帶來了感知智能;到2022年開始,以超級(jí)大模型為代表的生成式AI引領(lǐng)了認(rèn)知智能;到今天我們正處在下一個(gè)重大轉(zhuǎn)折點(diǎn),就是由AI加機(jī)器人驅(qū)動(dòng)的物理智慧世界正在加速到來。
我們定義的具身智能,是能在真實(shí)世界里面完成感知、決策、行動(dòng)、學(xué)習(xí)一個(gè)完整閉環(huán)的通用智能體,也就是所謂的通用智能體?;仡欉^去幾年,我們?nèi)祟愅瓿闪藬?shù)字AI的規(guī)模化。過去這幾年AI進(jìn)化速度呈爆炸式發(fā)展,DPC(編者注:DeepSeek的模型簡(jiǎn)稱)馬上也要發(fā)新模型了,大家可能覺得DPC已經(jīng)是很久以前的事情,其實(shí)才一年。整個(gè)大語言模型開始,大家的視野慢慢打開,也才3年時(shí)間。
最近,從Agent到MCP到Q,再到Open Cloud,幾乎每個(gè)月都有顛覆性進(jìn)展。大模型集群、海量數(shù)據(jù)、開發(fā)者生態(tài),這一切都在讓AI在屏幕里、在云端變得無所不能。這也讓大家自然而然地會(huì)往它的延長(zhǎng)線上去看,什么時(shí)候AI能夠在物理世界發(fā)揮巨大價(jià)值,能夠幫我們干活。這就是我們未來十年要挑戰(zhàn)的更難命題,完成物理AI的規(guī)?;瑥臄?shù)字AI走向物理AI。正如我們從功能手機(jī)走向智能手機(jī)的轉(zhuǎn)變,通用機(jī)器人區(qū)別于之前的專用機(jī)器人,不再局限于單一任務(wù),而是能夠靈活適應(yīng)多種不同工作場(chǎng)景,進(jìn)行廣泛應(yīng)用。通用機(jī)器人代表著具身技術(shù)的一種更為先進(jìn)的通用形態(tài),能夠通過AI賦能,實(shí)現(xiàn)自主學(xué)習(xí)、多任務(wù)切換、長(zhǎng)程任務(wù)的環(huán)境適應(yīng)等。這種從專用到通用的跨越,為未來各行各業(yè)的應(yīng)用帶來了巨大可能性。
今天是標(biāo)委會(huì)的年會(huì),我也想回應(yīng)一些政策背景。計(jì)算行業(yè)的蓬勃發(fā)展,離不開國(guó)家政策的支持。第一個(gè)是國(guó)家的戰(zhàn)略窗口目前已經(jīng)完全打開,人形機(jī)器人被納入推動(dòng)未來產(chǎn)業(yè)創(chuàng)新發(fā)展的重點(diǎn)方向。工信部規(guī)劃清晰,到2025年實(shí)現(xiàn)批量生產(chǎn),2027年完成具有國(guó)際競(jìng)爭(zhēng)力的生態(tài)格局,這就是我們所依托的作戰(zhàn)地圖。第二點(diǎn)是產(chǎn)業(yè)側(cè)信號(hào)非常強(qiáng)烈。
今年1月21日,工信部在國(guó)信辦發(fā)布會(huì)上披露的數(shù)據(jù)顯示,國(guó)內(nèi)人形機(jī)器人整機(jī)企業(yè)已經(jīng)超過140家,發(fā)布的產(chǎn)品達(dá)330款。這意味著整個(gè)行業(yè)已經(jīng)從實(shí)驗(yàn)室里的炫技、做Demo,正式進(jìn)入工程化競(jìng)爭(zhēng)、場(chǎng)景化競(jìng)爭(zhēng)的下半場(chǎng)。2024年到2025年初,大家還在比拼誰家的機(jī)器人走路更直、更自然,到現(xiàn)在我們已經(jīng)能實(shí)現(xiàn)機(jī)器人飛檐走壁,人能做的工作機(jī)器人能做,人做不了的工作機(jī)器人也能做。本體的靈活性已經(jīng)達(dá)到一定的實(shí)用性階段,接下來我們要比誰的干活能力更強(qiáng),不僅在國(guó)內(nèi)比,還要跟海外具身智能頭部企業(yè)比,看誰能在部署態(tài)真正落地。具體到企業(yè)實(shí)踐,我們智元總結(jié)出一套可落地的工程范式——一體三智。
首先是一體,一體指的是本體。在數(shù)字世界,代碼跑錯(cuò)了可以重新跑、可以重啟,但在物理世界有物理成本,有失效成本。本體是AI在真實(shí)世界的約束接口,真實(shí)的物理世界非常復(fù)雜,充滿了各種隨機(jī)的摩擦、碰撞、形變、誤差、老化、噪聲等。所以本體的設(shè)計(jì),不只是簡(jiǎn)單的硬件堆疊,更是可靠性工程、供應(yīng)鏈工程和安全工程的綜合體。
當(dāng)前本體最核心、最重要的兩個(gè)零部件,一個(gè)是關(guān)節(jié),決定了本體的運(yùn)動(dòng)能力上限;一個(gè)是靈巧手,決定了它的操作能力上限,這兩個(gè)部件也占據(jù)了整機(jī)成本的絕大部分。
行業(yè)早期,機(jī)器人的執(zhí)行器有很多不同的探索路徑,比如基于液壓驅(qū)動(dòng)、基于高速比高剛度的斜波驅(qū)動(dòng)、類似四缸的直線驅(qū)動(dòng)等。但從2023年開始,整個(gè)執(zhí)行器的方案都收斂到了新型關(guān)節(jié)。人形機(jī)器人的硬件技術(shù)和新能源車非常類似,這也是很多車企布局機(jī)器人領(lǐng)域的原因。
其中最核心的就是所謂的三電系統(tǒng),三電系統(tǒng)里面的電機(jī)和電控,在機(jī)器人系統(tǒng)中體現(xiàn)為一體化的關(guān)節(jié)。
區(qū)別于汽車的點(diǎn)在于,一方面功放不一樣。機(jī)器人的自由度和任務(wù)空間遠(yuǎn)比汽車復(fù)雜,汽車的電機(jī)工況相對(duì)簡(jiǎn)單,基本是單向輸出,而機(jī)器人需要進(jìn)行高動(dòng)態(tài)、高頻的正反轉(zhuǎn),所以功放不同。另一方面,汽車自由度相對(duì)低,只有方向盤、油門等,而機(jī)器人全身一般少則數(shù)十個(gè)、多則上百個(gè)運(yùn)動(dòng)自由度,如果算上手的話,自由度會(huì)更多。
更關(guān)鍵的是,機(jī)器人不同關(guān)節(jié)部位的各種規(guī)格指標(biāo)差距非常大,動(dòng)態(tài)范圍非常廣。比如手指的扭矩和大腿的扭矩,需求完全不在一個(gè)量級(jí)。但機(jī)器人自由度高,不可能為每個(gè)關(guān)節(jié)單獨(dú)設(shè)計(jì)一款對(duì)應(yīng)規(guī)格的產(chǎn)品,這會(huì)是量產(chǎn)的災(zāi)難。所以如何科學(xué)做好關(guān)節(jié)系列化規(guī)劃,是一個(gè)標(biāo)準(zhǔn)化流程,也是非??简?yàn)系統(tǒng)設(shè)計(jì)能力的一點(diǎn)。比如我們?cè)趯?shí)踐中,把所有產(chǎn)品線將近10款產(chǎn)品、五大系列,全部規(guī)整到8款系列化關(guān)節(jié)設(shè)計(jì)上,這8款關(guān)節(jié)用在我們所有產(chǎn)品上,能夠滿足所有部位的關(guān)節(jié)需求。
這就是系列化、標(biāo)準(zhǔn)化帶來的收益。靈巧手也是一個(gè)復(fù)雜度非常高的核心零件,它的難點(diǎn)一方面是需要把10~20個(gè)自由度的運(yùn)動(dòng)部件結(jié)構(gòu),塞進(jìn)比人手手掌還小的空間;另一方面是對(duì)靈巧手的高維感知能力要求非常高,最典型的就是觸覺。
觸覺在工業(yè)干活領(lǐng)域落地起核心作用。我們分析過大量工業(yè)作業(yè)場(chǎng)景,也實(shí)地走訪客戶、去工廠看每個(gè)工人的操作,得出的結(jié)論是,接近80%人類做得好、傳統(tǒng)自動(dòng)化做得不好的工序,都和觸覺有強(qiáng)相關(guān)。比如裝配,很多流水線上的工人會(huì)通過手感,也就是觸覺把兩個(gè)東西拼起來,聽到咔嚓一聲就知道裝配好了。這種咔嚓一聲怎么用數(shù)字描述,怎么和傳感器信號(hào)對(duì)應(yīng)起來,就是觸覺能體現(xiàn)價(jià)值的地方。但這里的瓶頸在于,觸覺傳感器的技術(shù)路徑還沒有收斂,沒有標(biāo)準(zhǔn)化。我們對(duì)比視覺,視覺是先有標(biāo)準(zhǔn)的傳感器技術(shù),比如CCD、CMOS,再有標(biāo)準(zhǔn)的數(shù)據(jù)格式,比如JPG等,然后有標(biāo)準(zhǔn)的數(shù)據(jù)集,比如非常有名的ImageNet,之后才催生了各種深度學(xué)習(xí)模型的百花齊放,最終在各個(gè)場(chǎng)景廣泛應(yīng)用,這就是標(biāo)準(zhǔn)的價(jià)值。當(dāng)前觸覺在傳感器層面還沒有形成標(biāo)準(zhǔn),硬件也沒有收斂,比如有基于電容的、基于電感的、基于壓電效應(yīng)的,還有基于其他技術(shù)的。
這是目前的一個(gè)瓶頸,我們也在這方面投入了大量研發(fā)精力,希望未來能看到好的收效。如果說硬件是軀體,那AI就是機(jī)器人的靈魂。我們現(xiàn)在把機(jī)器人的靈魂主要分為三個(gè)領(lǐng)域,就是運(yùn)動(dòng)智能、交互智能、作業(yè)智能。2024年以來,整個(gè)行業(yè)包括學(xué)術(shù)界、工業(yè)界,在運(yùn)控領(lǐng)域的進(jìn)步肉眼可見。這主要得益于三個(gè)方面:一是整體算法范式的轉(zhuǎn)變,從傳統(tǒng)的模型驅(qū)動(dòng),也就是所謂的NPC,到后來強(qiáng)化學(xué)習(xí)RL的范式轉(zhuǎn)變;二是類似于SSA這種仿真框架的普及,使得大規(guī)模并行仿真和訓(xùn)練成為可能;三是前面提到的關(guān)節(jié)技術(shù)收斂,新型關(guān)節(jié)帶來的低難度控制模式。這些綜合收益,使得我們整體的運(yùn)動(dòng)智能得到突破性提升。
運(yùn)動(dòng)智能是交互智能和作業(yè)智能的基座,為人形機(jī)器人提供自主自由移動(dòng)和全身動(dòng)作的基礎(chǔ)能力。在運(yùn)動(dòng)智能基礎(chǔ)上,交互智能和作業(yè)智能分別提供情緒價(jià)值和生產(chǎn)力價(jià)值。
同時(shí),各種復(fù)雜動(dòng)作的實(shí)現(xiàn),對(duì)模型訓(xùn)練要求非常高,需要非常專業(yè)的AI背景和實(shí)操訓(xùn)練技巧,才能實(shí)現(xiàn)一些復(fù)雜動(dòng)作。我們?yōu)榱诉M(jìn)一步降低模型訓(xùn)練難度、降低開發(fā)門檻,以此豐富創(chuàng)作內(nèi)容,提出從最早的科研教育實(shí)驗(yàn)室的開發(fā)態(tài),走向創(chuàng)作態(tài),最終到部署態(tài)。針對(duì)創(chuàng)作態(tài),我們開發(fā)了一些好用的工具鏈,比如去年發(fā)布的靈創(chuàng)平臺(tái),它把整個(gè)基礎(chǔ)動(dòng)作訓(xùn)練的流程簡(jiǎn)化到只需上傳一個(gè)視頻。就像抖音一樣,拍一段人類跳舞或者做各種任務(wù)的視頻,上傳到我們平臺(tái),它會(huì)自動(dòng)完成動(dòng)作關(guān)鍵點(diǎn)檢測(cè)、動(dòng)作遷移、IL訓(xùn)練、推理部署等所有流程,實(shí)現(xiàn)全自動(dòng)化,這是一個(gè)非常好的降低應(yīng)用門檻的工具。
第二個(gè)智能是交互智能。未來的機(jī)器人不能只聽懂語音指令,目前語音指令的實(shí)現(xiàn)還不夠完善,它需要從語音指令轉(zhuǎn)向多模態(tài)的感知和協(xié)作。比如它看到你的時(shí)候,能感受到你的情緒、聽懂你的語氣,甚至能提前預(yù)判你的意圖。交互智能的意義在于,我們希望打造出真正可溝通、可信賴的機(jī)器人伙伴。這種情緒價(jià)值的意義比很多人想象的要大得多,大家看春晚的機(jī)器人表演,就是在為大家提供情緒價(jià)值。
這一點(diǎn)不僅對(duì)用戶有價(jià)值,很多用戶也愿意為它買單、付費(fèi)。對(duì)于交互智能而言,它可以提供可交互的情緒價(jià)值。這一塊很大程度可以復(fù)用現(xiàn)在大語言模型的成果,目前國(guó)內(nèi)外的大模型,智商和情商都已經(jīng)非常高,還能形成多模態(tài)情感識(shí)別,我們?cè)跈C(jī)器人上可以直接復(fù)用這部分能力。但也有區(qū)別,比如模態(tài)的升級(jí),現(xiàn)在我們使用的各種AI助手,缺失機(jī)器人所需要的一些模態(tài),比如肢體動(dòng)作、表情等。
因?yàn)槲覀兊漠a(chǎn)品線非常多,所以希望通過一套標(biāo)準(zhǔn)化流程,形成能力復(fù)用、數(shù)據(jù)回流、模型進(jìn)化、產(chǎn)品升級(jí)的正向循環(huán)。同時(shí)我們也相信,技術(shù)的終極應(yīng)該是開放的,生態(tài)的力量肯定遠(yuǎn)大于單點(diǎn)突破,我們一家的突破遠(yuǎn)遠(yuǎn)不夠。所以我們也在構(gòu)建一個(gè)開放共享、持續(xù)進(jìn)化的生態(tài),比如我們有很多開源的動(dòng)作。包括具身智能領(lǐng)域的安卓系統(tǒng),我們叫靈渠OS,這個(gè)操作系統(tǒng)也是我們開源的;還有業(yè)界最大的真機(jī)數(shù)據(jù)集,也是我們?cè)?023年底開源的,英偉達(dá)很多模型也用了我們這個(gè)數(shù)據(jù)集。
有了技術(shù)之后,我們也希望匹配到合理、合適的場(chǎng)景里面去落地。不同階段的技術(shù)成熟度,會(huì)匹配到不同的落地場(chǎng)景,這就是所謂的沿途下蛋的思路。我們選擇場(chǎng)景會(huì)遵循一些原則,比如把任務(wù)維度分為兩個(gè)維度,一個(gè)是場(chǎng)景的復(fù)雜度,一個(gè)是任務(wù)本身的操作復(fù)雜度。場(chǎng)景復(fù)雜度實(shí)際上是一種約束,不體現(xiàn)價(jià)值,是一種障礙;任務(wù)的復(fù)雜度能夠體現(xiàn)價(jià)值。
一個(gè)典型的例子,比如自動(dòng)駕駛,就是在復(fù)雜的環(huán)境下做簡(jiǎn)單的任務(wù)。它的任務(wù)非常簡(jiǎn)單,就是從A點(diǎn)到B點(diǎn),中間只有方向盤和油門,自由度非常低,但環(huán)境是非常復(fù)雜、開放的。
我們機(jī)器人現(xiàn)在正在做的事情,其實(shí)是在簡(jiǎn)單場(chǎng)景做復(fù)雜任務(wù)。比如在工廠里面的約束化、結(jié)構(gòu)化環(huán)境中,做的任務(wù)非常復(fù)雜,自由度非常高,還要涉及高維感知和一些長(zhǎng)程任務(wù)。
自動(dòng)駕駛和現(xiàn)在的具身智能,都會(huì)走向最終的目標(biāo),就是在復(fù)雜環(huán)境下做復(fù)雜任務(wù),真正替代人類的大部分工作。這是我們長(zhǎng)期選擇的一個(gè)原則。
基于這個(gè)原則,我們現(xiàn)在已經(jīng)在8大典型場(chǎng)景里面,開展了非常多的應(yīng)用。這里需要強(qiáng)調(diào)的是,我們不認(rèn)為自己找到的場(chǎng)景是絕對(duì)正確、唯一的選擇,而是確信真實(shí)的場(chǎng)景才是訓(xùn)練系統(tǒng)、驗(yàn)證可靠性的最有效市場(chǎng)。所以機(jī)器人一定要在真實(shí)場(chǎng)景里面去跑,收集數(shù)據(jù)、循環(huán)迭代,才有可能實(shí)現(xiàn)技術(shù)和應(yīng)用的突破。
最后我想聊一下為什么我們會(huì)這么執(zhí)著于人形形態(tài)。這里的關(guān)鍵邏輯在于,整個(gè)物理世界就是為人類設(shè)計(jì)的,人形機(jī)器人之所以有望成為未來的智能基礎(chǔ)設(shè)施,不是因?yàn)樗L(zhǎng)得像人,而是因?yàn)樗堑谝淮伟亚榫w價(jià)值和勞動(dòng)生產(chǎn)力,統(tǒng)一到同一個(gè)可規(guī)?;?、可進(jìn)化的物理終端載體中。我們可以舉一個(gè)最近的例子,大家都知道“問界到小龍蝦”非常火。2025年底大家還在討論哪個(gè)模型更聰明、哪個(gè)模型編程能力更強(qiáng),但到了2026年初,這個(gè)話題幾乎迅速收斂到一個(gè)關(guān)鍵詞,就是Computer Use,也就是電腦的使用。簡(jiǎn)單說就是讓機(jī)器人能夠自己操作電腦,比如下載文件,它能自己操作電腦、自動(dòng)化完成任務(wù)。
最早掀起這股趨勢(shì)的是Open Cloud,它推出的所謂CoCo模式。隨著“小龍蝦”(OpenClaw)項(xiàng)目的開源,這個(gè)項(xiàng)目進(jìn)一步點(diǎn)燃了整個(gè)社區(qū)的熱度。其實(shí)模型能力的比拼也開始轉(zhuǎn)向,從最早的智力指標(biāo),現(xiàn)在開始轉(zhuǎn)向執(zhí)行能力。
單純分析這個(gè)事情,從純技術(shù)效率的角度來看,讓AI通過模擬鼠標(biāo)和鍵盤的方式操作電腦,顯然不是最優(yōu)解。因?yàn)槔碚撋献顑?yōu)的方式,應(yīng)該是讓AI直接生成目標(biāo)的二進(jìn)制代碼,直接生成代碼在電腦上跑,繞開圖形界面和人為交互。但現(xiàn)實(shí)的問題在于,現(xiàn)在所有的軟件系統(tǒng)、操作系統(tǒng),整個(gè)數(shù)字生態(tài)都是為人類設(shè)計(jì)的,都是為鼠標(biāo)和鍵盤這樣的交互模式設(shè)計(jì)的。正因如此,操作電腦反而成為一種高度通用的接口層,它不是最優(yōu)效率的路徑,但卻是覆蓋最廣的執(zhí)行通路。
回到人形機(jī)器人的事情上,邏輯是一樣的。我們的物理世界,各種建筑、工具、設(shè)備、交通系統(tǒng),都是為人類的身體設(shè)計(jì)和實(shí)現(xiàn)的。比如門把手的高度、樓梯的尺寸、工具的把握形態(tài)、工具流的組織方式等,本質(zhì)上都假設(shè)了一個(gè)人類形態(tài)的操作者。所以從數(shù)字AI到物理AI,應(yīng)該也存在一條清晰的進(jìn)化路徑。既然整個(gè)環(huán)境是圍繞人類構(gòu)建的,那么AI如果要實(shí)現(xiàn)最大化的通用性和兼容性,最終的終端形態(tài),大概率也要長(zhǎng)得像人類。
換句話說,Computer Use是數(shù)字世界里的人形接口,人形機(jī)器人就是物理世界里的通用接口。它們可能未必是最高效的平臺(tái),但肯定是全世界最具兼容性的載體?;仡櫄v史上的幾個(gè)重要交互終端,PC和手機(jī),它們連接的都是人和數(shù)字世界,未來的人形機(jī)器人,連接的是人與物理世界本身。
這也是為什么說我們?cè)趨⑴c時(shí)代級(jí)的基礎(chǔ)設(shè)施革命。我覺得未來機(jī)器人真正走進(jìn)家庭的時(shí)候,整個(gè)人形機(jī)器人的產(chǎn)業(yè)規(guī)模一定非常巨大,我們認(rèn)為它是一個(gè)手機(jī)數(shù)量乘以汽車價(jià)格的產(chǎn)業(yè)空間。前景非常廣闊,但挑戰(zhàn)也非常大。
同時(shí)再回到標(biāo)準(zhǔn)上,這不僅僅是技術(shù)問題,物理AI的社會(huì)接受度也取決于它的安全、隱私、網(wǎng)絡(luò)、數(shù)據(jù)、倫理治理等,這些都要形成標(biāo)準(zhǔn)。
所以我們既要跑得快,也要跑得穩(wěn);既要采用一些新技術(shù),也要守住產(chǎn)業(yè)底線,這就是我們建立標(biāo)準(zhǔn)的意義。
最后我想用三句話結(jié)束今天的分享:第一,具身智能的中局是基礎(chǔ)設(shè)施,而非單點(diǎn)產(chǎn)品;第二,物理AI規(guī)?;年P(guān)鍵在于數(shù)據(jù)閉環(huán)、可靠性工程、可運(yùn)維能力等形成標(biāo)準(zhǔn);第三,人形機(jī)器人通用能力的突破,肯定來自全行業(yè)的產(chǎn)業(yè)遷移和生態(tài)共建。標(biāo)準(zhǔn)化不僅是技術(shù)規(guī)范,更是產(chǎn)業(yè)落地的加速器。未來我們智元非常愿意把一線實(shí)踐中的一些數(shù)據(jù)處理方法、評(píng)測(cè)體系、運(yùn)維經(jīng)驗(yàn),和整個(gè)行業(yè)一起沉淀為可復(fù)用的方法論,共同加速把AI系統(tǒng)性地引入物理世界。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




