- +1
在騰訊拆墻的人

出品 | 智械島
作者 | 沈懷錚(上海)
馬化騰說(shuō)騰訊慢了,慢了9個(gè)月到1年,這話是年會(huì)上當(dāng)著所有人的面說(shuō)的。
劉熾平接著又補(bǔ)了一刀,說(shuō)過(guò)去的混元是高中生背題,成績(jī)單好看,上了考場(chǎng)就露餡。
慢了,是因?yàn)橛袎Α?/p>
模型和產(chǎn)品之間有墻,訓(xùn)模型的人不懂業(yè)務(wù)場(chǎng)景,做產(chǎn)品的人等不起迭代周期。
研發(fā)和工程之間有墻,研究歸研究,落地歸落地,兩條線各跑各的。
混元團(tuán)隊(duì)和騰訊生態(tài)之間有墻,自家業(yè)務(wù)接入自家模型,比接入外部方案還費(fèi)勁。
背題能刷出好看的成績(jī)單,是因?yàn)榭碱}是封閉的。而真實(shí)場(chǎng)景是開(kāi)放的,墻不拆,模型永遠(yuǎn)走不進(jìn)現(xiàn)實(shí)。
所以姚順雨到了騰訊,做的第一件事不是把模型調(diào)得更快,是拆墻,先拆墻,再趕路。
拆墻本身就是一種慢,它不直接產(chǎn)生速度,只是在清除那些讓速度無(wú)法持續(xù)的障礙。
馬化騰說(shuō)完慢88天后,Hy3 preview上線,不到三個(gè)月,姚順雨把一個(gè)自家業(yè)務(wù)都不敢接的混元,重新捏成了一個(gè)能用的東西。
一、自家模型,坐不上自家的主桌
姚順雨到騰訊做的第一件事,是查問(wèn)題。
晚點(diǎn)報(bào)道過(guò),這位新任首席AI科學(xué)家和同事、實(shí)習(xí)生聊到深夜,一個(gè)模塊一個(gè)模塊地排查混元長(zhǎng)期表現(xiàn)不佳的原因,然后把診斷結(jié)果直接報(bào)給了劉熾平。
那段時(shí)間,混元在騰訊內(nèi)部的位置可以用一句話概括:自家業(yè)務(wù)都坐不上主桌。
微信、游戲、廣告、企服,都需要AI能力,但混元接不?。灰恍┖诵臉I(yè)務(wù)寧可繞開(kāi)自研模型,自己找方案。
一個(gè)大廠自研的模型,在自己家里當(dāng)客人,這道墻比任何跑分都更致命。
姚順雨到任后,先拆了離地基最近的那面墻:數(shù)據(jù)。
過(guò)去混元的SFT數(shù)據(jù)沒(méi)有去重,重復(fù)、冗余的數(shù)據(jù)能到上千萬(wàn)條。工期一緊,數(shù)據(jù)審核就被排到最后。
姚順雨拉起一個(gè)20多人的預(yù)訓(xùn)練數(shù)據(jù)團(tuán)隊(duì),專做最臟最累的數(shù)據(jù)審核,幾個(gè)月把冗余數(shù)據(jù)控制在一萬(wàn)多條。
然后是Infra,姚順雨主導(dǎo)重建了強(qiáng)化學(xué)習(xí)管線,讓萬(wàn)卡集群能穩(wěn)定跑起來(lái)。
同期,成立十年的騰訊AI Lab被撤銷,核心人員并入混元,統(tǒng)一匯報(bào)。
AI Lab曾是騰訊AI體系里獨(dú)立于混元的存在,研究歸研究,產(chǎn)品歸產(chǎn)品,兩套體系各自運(yùn)行。
這面組織墻存在了十年,姚順雨直接拆了。
二、所有人都在沖榜,
姚順雨在問(wèn)模型到底學(xué)會(huì)了沒(méi)有
Hy3 preview發(fā)布那天,行業(yè)正處在一輪密集交卷的高潮。前有阿里、Kimi、小米,后有GPT-5.5和DeepSeek V4。
一個(gè)295B的模型被扔進(jìn)這個(gè)池子,幾乎聽(tīng)不見(jiàn)水花。
但有一個(gè)動(dòng)作被很多人忽略了:發(fā)布前,CL-bench論文先放了出來(lái)。這篇論文測(cè)的是上下文學(xué)習(xí)能力,最好模型的解題率只有23.7%,核心短板不在“讀不全、找不到”,而在“學(xué)不會(huì)、用不對(duì)、執(zhí)行不了”。
這是一個(gè)被行業(yè)長(zhǎng)期回避的問(wèn)題。上下文窗口越做越長(zhǎng),大海撈針測(cè)試接近滿分,但一進(jìn)真實(shí)場(chǎng)景就掉鏈子。
姚順雨的判斷是:這個(gè)問(wèn)題不解決,Agent永遠(yuǎn)只能是demo。
所以Hy3 preview的首個(gè)動(dòng)作,就是把“上下文學(xué)習(xí)和指令遵循”寫(xiě)進(jìn)了核心能力清單第一條。
沒(méi)追SWE-Bench Verified,沒(méi)追Terminal-Bench 2.0。放出來(lái)的是AdvancedIF、AA-LCR和自己搞的CL-bench。
這是姚順雨做研究的底層邏輯,ReAct在探索推理和行動(dòng)怎么協(xié)同,CL-bench在追問(wèn)模型能不能從上下文里真學(xué)會(huì)點(diǎn)什么,Hy3 preview是這兩個(gè)方向在產(chǎn)品上的第一次合攏。
當(dāng)行業(yè)在追熱點(diǎn),這個(gè)人在追問(wèn)題本身。
三、能做,但還不夠穩(wěn)
Hy3 preview是1月底開(kāi)訓(xùn)、4月上線的,不到三個(gè)月,從零到可用。
不是參數(shù)的魔法,是重建了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的整套基礎(chǔ)設(shè)施。用騰訊內(nèi)部的話說(shuō),混元團(tuán)隊(duì)在過(guò)去幾個(gè)月做的事情,比過(guò)去兩年加起來(lái)都重。
但Preview終究是Preview,代碼能力大致追到智譜去年12月的水平,差了約四個(gè)月。
在WorkBuddy上實(shí)測(cè),能穩(wěn)跑495步的復(fù)雜工作流,但換個(gè)場(chǎng)景,抓金融數(shù)據(jù)、算相關(guān)性、寫(xiě)資產(chǎn)配置報(bào)告,就會(huì)在數(shù)據(jù)獲取階段反復(fù)碰壁,最后交出來(lái)的分析只有幾行要點(diǎn),不是成文的段落。
騰訊內(nèi)部對(duì)這版模型的定位是“混元重建的第一步”。
注意這個(gè)措辭,不是追趕的一步,不是超越的一步,是重建的第一步。姚順雨說(shuō)希望通過(guò)開(kāi)源自社區(qū)拿真實(shí)反饋,幫正式版提升實(shí)用性。
混元定下的三條原則里,有一條叫“評(píng)測(cè)真實(shí)性”:跳出容易被刷榜的公開(kāi)數(shù)據(jù)集,自建50多套內(nèi)部評(píng)測(cè),用真實(shí)考題、人工評(píng)測(cè)、產(chǎn)品眾測(cè)來(lái)驗(yàn)證。
翻譯過(guò)來(lái)就是:別再背題了,去真實(shí)世界做事。
四、知道差多少,所以不裝
很多人拿Hy3 preview和DeepSeek V4比。這種比較對(duì)姚順雨其實(shí)不公平。
V4是在已經(jīng)跑通的體系上做極限突破,不急著商業(yè)化,專注向上捅天花板。Hy3 preview是推倒重來(lái),在廢墟上先搭一個(gè)能用的框架。二者不在一個(gè)階段。
但有一點(diǎn)值得比。DeepSeek開(kāi)源,坦誠(chéng)得要命,技術(shù)報(bào)告里直接寫(xiě)“落后GPT-5.4三到六個(gè)月”。姚順雨這次也開(kāi)源了Hy3 preview,在國(guó)產(chǎn)廠商紛紛閉源的當(dāng)口,說(shuō)的是拿真實(shí)反饋,磨實(shí)用能力。
潛臺(tái)詞是:知道還差多少,所以不裝。
今年1月的AGI-Next峰會(huì)上,姚順雨說(shuō)生產(chǎn)力Agent才剛剛開(kāi)始,即使今天所有模型訓(xùn)練都停止,把現(xiàn)有模型部署到企業(yè)里,已經(jīng)能帶來(lái)10倍甚至100倍的收益。
真正的戰(zhàn)場(chǎng)不在訓(xùn)練端,在落地端。
騰訊手里有中國(guó)最大的社交生態(tài)、最多的用戶觸點(diǎn)、最密的產(chǎn)品矩陣。但這些牌要打得出來(lái),地基得先搭穩(wěn)。
姚順雨三個(gè)月搭了一個(gè)預(yù)覽版的地基,證明了一件事:騰訊的AI能干真活了。
至于能干到什么份上,Hy3 preview給不了答案。
墻拆完以后,考驗(yàn)才真正開(kāi)始。騰訊內(nèi)部的墻姚順雨拆得動(dòng),但還有一些墻不在手上。
行業(yè)進(jìn)度不等人,競(jìng)爭(zhēng)對(duì)手不減速,市場(chǎng)耐心有限度。
Hy3 preview只證明了方法論通了,新團(tuán)隊(duì)能打仗了,重建方向是對(duì)的。更大的模型還在訓(xùn),正式版才是這套方法論能不能站住的第一場(chǎng)硬仗。
五、結(jié)語(yǔ)
姚順雨說(shuō)過(guò),自己最喜歡的工作是ReAct。
那個(gè)框架的核心邏輯是:推理完就行動(dòng),行動(dòng)完再觀察,觀察完再推理,一個(gè)不停歇的循環(huán)。
現(xiàn)在他就卡在這個(gè)循環(huán)里,交了一個(gè)預(yù)覽版的答卷。
接下來(lái)是觀察,拿開(kāi)源社區(qū)的反饋,騰訊業(yè)務(wù)的實(shí)測(cè)數(shù)據(jù),看哪里裂了、哪里歪了,再進(jìn)行下一輪推理和行動(dòng)。
27歲,執(zhí)掌一個(gè)大廠的AI命脈。外界看到的是光環(huán),姚順雨面對(duì)的卻是墻。
舊的墻拆了,新的墻還會(huì)長(zhǎng)出來(lái)。組織有慣性,文化有惰性,大廠尤其如此。
拆墻不是一次性的事。一個(gè)人,對(duì)著一個(gè)千億帝國(guó)的內(nèi)部結(jié)構(gòu),只能一堵一堵地拆。
而拆墻這件事,從來(lái)不在某個(gè)版本號(hào)里宣告完工。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




