9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

同一個(gè)Deepseek R1,不同“買家秀”?實(shí)測(cè)不同云平臺(tái)ds性能

2025-03-05 07:21
來源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

作者|冰拿鐵

編輯|星奈

媒體|AI大模型工場(chǎng)

大模型“撞衫”不可怕,誰性能差誰尷尬——今年年初,DeepSeek R1大模型橫空出世,推理能力、性能媲美OpenAI o1,引起模圈震動(dòng),得益于其開源策略與靈活部署能力,火山引擎、阿里云、騰訊云、百度智能云等平臺(tái)爭(zhēng)相接入:

數(shù)據(jù)顯示,DeepSeek 相關(guān)平臺(tái)的API調(diào)用量急劇增長(zhǎng),根據(jù)調(diào)研,數(shù)碼企業(yè)、法務(wù)公司、電商企業(yè)均加速接入DeepSeek-R1開源大模型。而隨著越來越多主流廠商接入Deepseek,一場(chǎng)關(guān)于基礎(chǔ)設(shè)施適配能力的暗戰(zhàn)悄然展開:

當(dāng)下,同一款大模型在各平臺(tái)上呈現(xiàn)出顯著的性能分野。前不久,中國(guó)軟件評(píng)測(cè)中心人工智能部選擇十余家國(guó)內(nèi)外服務(wù)的廠商開展全面評(píng)測(cè),結(jié)果顯示,各廠商深度思考能力、代碼能力等維度分化明顯,如火山引擎、訊飛開放等代碼任務(wù)能力較強(qiáng);硅基流動(dòng)與百度智能云在代碼任務(wù)中出現(xiàn)少許截?cái)嗷蛭椿貜?fù)情況;

推理維度,百度智能云、訊飛開放、火山引擎等平臺(tái)的生成內(nèi)容的總字?jǐn)?shù)都接近三千字,其中推理字?jǐn)?shù)占比分別達(dá)到68%、69%以及60%,展現(xiàn)出更強(qiáng)的邏輯延展性,相較之下,部分平臺(tái)僅能提供淺層推理。

這種“橘生淮南則為橘”的現(xiàn)象,揭示了技術(shù)適配、資源調(diào)度與生態(tài)協(xié)同的深層博弈。那么,真的有那么明顯的差距嗎?誰又是DeepSeek的最強(qiáng)輔助?讓我們一起試試吧!

一、各平臺(tái)AIME答疑表現(xiàn):火山正確率最高,官方其次

眾所周知,deepseek最明顯的長(zhǎng)板即深度推理能力,通過強(qiáng)化學(xué)習(xí)和混合專家架構(gòu)(MoE)等技術(shù),顯著提升了推理效率和性能。為此,我們選取在大模型測(cè)評(píng)領(lǐng)域具有權(quán)威性的測(cè)試集——AIME 數(shù)學(xué)競(jìng)賽題目。作為美國(guó)數(shù)學(xué)邀請(qǐng)賽,AIME 包含算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論、概率等多個(gè)領(lǐng)域,要求參賽者在 3 小時(shí)內(nèi)完成 15 道高難度填空題,且答案需精確到三位數(shù),對(duì)模型的數(shù)學(xué)推理能力、邏輯嚴(yán)謹(jǐn)性和計(jì)算精度提出了極高要求。

同時(shí),在技術(shù)層面,AIME 題目往往需要多步推理和創(chuàng)造性解題策略,例如通過假設(shè)驗(yàn)證、思路糾偏或單位換算等復(fù)雜操作才能完成解答,這種特性使其成為檢驗(yàn)大模型深度推理能力的有效工具。此前,DeepSeek-R1官方在AIME 2024基準(zhǔn)測(cè)試中取得了79.8%的pass@1得分。

而此次我們通過Python 腳本進(jìn)行測(cè)評(píng)(腳本放在文末),選取了火山引擎、阿里云、官方Deepseek、騰訊云四位考生,感興趣的朋友一起試試吧!

結(jié)果:AIME題庫下,正確率由高到低依次是:火山引擎83.33% ;官方Deepseek 73.33% ;阿里云 71.67% ;騰訊云58.33% 。

其中火山、 Deepseek各網(wǎng)絡(luò)狀態(tài)下表現(xiàn)平穩(wěn),測(cè)試均為一遍過,30道題全部響應(yīng),測(cè)得比較省心。

阿里云在電信下異常中斷較嚴(yán)重,聯(lián)通下表現(xiàn)良好,電信下響應(yīng)7道題,正確率為57.14%,聯(lián)通下響應(yīng)29道題,正確率86.20%,取兩次的平均值。

騰訊網(wǎng)絡(luò)無響應(yīng)情況稍顯頻繁,同樣取多次測(cè)試的平均值。

順帶吐槽下,這兩家頻頻不響應(yīng),一做題CPU就燒的廠商把我們公司本職程序員,被臨時(shí)搖來測(cè)評(píng)的同學(xué)脾氣都磨沒了,一天的測(cè)評(píng)任務(wù)硬生生三天才完成,不是在刷新頁面就是在刷新頁面的路上,白天在公司修BUG,半夜兼職跑數(shù)據(jù)的日子,讓其本來就不濃郁的頭發(fā)此刻更顯稀疏。對(duì)此,他表示無力吐槽:

“尤其是阿里,在電信網(wǎng)絡(luò)里像是被拔了網(wǎng)線的AI高考生,做了7道題直接擺爛,一換到聯(lián)通網(wǎng)絡(luò)立刻化身學(xué)霸,不演了,堪比期末考前夜的突擊戰(zhàn)神,小丫頭還有兩幅面孔呢?”

(讓程序員同學(xué)兩眼一黑的超時(shí)現(xiàn)場(chǎng))

那么,這三家的思考過程究竟是啥樣的呢,有沒有更直觀的體現(xiàn)?接下來,我們手動(dòng)選取了一道AIME試題,看其具體推理、思考過程及表現(xiàn)。結(jié)果可見,同樣的問題雖然幾家最終都取得了正確結(jié)果,但火山速度最快、解題步驟也更為清晰明了,還貼心地翻譯成了中文,更適合中國(guó)寶寶體質(zhì)。速度上,同樣的問題火山用時(shí)13.68秒,官方最慢,81秒。

火山引擎

騰 訊云

(官方DeepSeek內(nèi)心os:我不要面子的嘛?)

那么,正確率和速度之外,如果想更全面、綜合地測(cè)評(píng)各廠商API性能,還有哪些維度可以涵蓋進(jìn)去呢?

二、性能、速度、穩(wěn)定性綜合比拼:Deepseek六邊形最強(qiáng)輔助出爐

測(cè)評(píng)一時(shí)爽,一直測(cè)評(píng)火葬場(chǎng),這部分,我們一致決定:還是抱大腿抄作業(yè),直接搬運(yùn)個(gè)大神的測(cè)評(píng)吧!

功夫不負(fù)有心人,一番5G沖浪,我們扒到了一個(gè)硬核實(shí)測(cè)——由第三方開發(fā)者實(shí)時(shí)檢測(cè)各云廠商DeepSeek API性能指標(biāo)的項(xiàng)目,不僅從TTFT(Time To First Token)、TBT(Total Blocking Time)、Throughput (吞吐量)等維度全面測(cè)評(píng),堪稱測(cè)評(píng)界的心電圖,還貼心地繪制了圖表,得來全不費(fèi)工夫!

附網(wǎng)站地址:https://deepseek.ai-infra.fun/ ,里面有性能指標(biāo)和實(shí)時(shí)數(shù)據(jù)更新呦。有DeepSeek API選型需求的企業(yè)可以蹲蹲最新數(shù)據(jù),直接Ctrl+C走這份實(shí)戰(zhàn)指南。

【PS:TTFT指標(biāo)顯示了用戶在看到模型輸出之前需要等待的時(shí)間,TTFT 越小,用戶等待時(shí)間越短,體驗(yàn)越好。TBT表示生成相鄰 token 之間的平均時(shí)間間隔,反映了模型生成文本的連續(xù)性和流暢度,數(shù)值越低表示生成速度越快,用戶獲得完整回復(fù)的時(shí)間越短;Throughput (吞吐量)反映了模型的實(shí)際生成效率,數(shù)值越高表示生成速度越快】

可見,生成速度、效率領(lǐng)域,火山引擎遙遙領(lǐng)先,通過 29.50 tokens/s 的吞吐量實(shí)現(xiàn)行業(yè)最高效的文本生成能力,較阿里百煉(6.70 tokens/s)快340%。這意味著在生成1000 tokens的文檔時(shí),火山引擎僅需34秒,而阿里百煉需要149秒。而33.9ms 的TBT指標(biāo),確保相鄰token生成間隔控制在人類無感閾值內(nèi),避免對(duì)話機(jī)器人出現(xiàn)"打字機(jī)效應(yīng)"。

其次,高負(fù)載下的穩(wěn)定性保障維度,火山引擎在保證TTFT(首token響應(yīng)時(shí)間)0.46秒的同時(shí),仍能維持超高吞吐量,體現(xiàn)動(dòng)態(tài)資源調(diào)度技術(shù)的成熟度。相較騰訊知識(shí)引擎(TTFT 0.70s時(shí)吞吐26.04 tokens/s),火山引擎的單位時(shí)間資源利用率提升42%。

為此,我們做出場(chǎng)景優(yōu)勢(shì)總結(jié):火山引擎在生成速度、效率、穩(wěn)定性領(lǐng)域兼具綜合優(yōu)勢(shì),在需要實(shí)時(shí)交互(客服/助手)、長(zhǎng)文本生成(創(chuàng)作/代碼)等硬核業(yè)務(wù)場(chǎng)景中,可首選火山方舟,TBT 33.90ms + TTFT 0.46s雙管齊下=絲滑流暢。

而另一家權(quán)威機(jī)構(gòu)中國(guó)軟件評(píng)測(cè)中心人工智能部的評(píng)測(cè)也佐證了這一趨勢(shì):

其指出,各平臺(tái)正確率區(qū)分小,性能的資源效率差異較大,其中,深度思考時(shí)間以及吞吐速率的表現(xiàn)大相徑庭。火山引擎、納米AI搜索等平臺(tái)在既保證了準(zhǔn)確率的情況下,吞吐速率也較快。無問芯穹、百度智能云、訊飛開放等平臺(tái)雖正確率較高,但吞吐速率較低,用戶體驗(yàn)受限。以無問芯穹為例(硅基流動(dòng)平臺(tái)無響應(yīng)),吞吐速率僅為9字/秒,盡管能夠得到較為準(zhǔn)確的答案,但是在使用體驗(yàn)上很是卡頓,甚至?xí)霈F(xiàn)截?cái)嗟那闆r;POE平臺(tái)以33.78字/秒的吞吐速率領(lǐng)先,但正確率僅50%。

綜合以上來看,火山引擎目前確實(shí)是Deepseek最強(qiáng)“六邊形戰(zhàn)士”輔助。不過,AI戰(zhàn)場(chǎng)瞬息萬變,從Deepseek的橫空出世、彎道超車就能看出來,沒有哪家廠商擁有永恒不變的優(yōu)勢(shì)地位,同志仍需努力!當(dāng)然,AI大模型工場(chǎng)也會(huì)持續(xù)關(guān)注行業(yè)動(dòng)向做出更新,為需要的企業(yè)、開發(fā)者發(fā)回“一線電報(bào)”。

尾聲:

最后,DeepSeek R1的云平臺(tái)分化現(xiàn)象,本質(zhì)是AI基礎(chǔ)設(shè)施能力的一次公開檢驗(yàn),既映射著各廠商在算力基建、工程化能力和生態(tài)整合上的實(shí)力差距,也暴露出國(guó)產(chǎn)AI產(chǎn)業(yè)鏈條中芯片適配、模型優(yōu)化等關(guān)鍵環(huán)節(jié)的攻堅(jiān)難點(diǎn)。未來,云廠商需在算力國(guó)產(chǎn)化、數(shù)據(jù)工程化、生態(tài)開放化等方面構(gòu)筑護(hù)城河。

而對(duì)用戶而言,“橘生淮南”的差異恰是精細(xì)化選擇的機(jī)遇——唯有深入理解技術(shù)棧與業(yè)務(wù)場(chǎng)景的耦合關(guān)系,方能真正釋放大模型的變革潛力。

不過,值得欣慰的是,當(dāng)前行業(yè)領(lǐng)跑者已開啟能力普惠化進(jìn)程,將技術(shù)優(yōu)勢(shì)轉(zhuǎn)化為用戶體驗(yàn)紅利。以火山引擎為例,其目前正在做拉新活動(dòng),暢享DeepSeek R1 和 V3,支持3萬RPM和500萬TPM不限速,分享即可領(lǐng)tokens!如果想快速上手deepseek、獲得絲滑流暢體驗(yàn),即刻邀請(qǐng)好友免費(fèi)領(lǐng)大模型!成功邀請(qǐng)1位新用戶,最高雙方可得145元代金券,可抵扣3625萬tokens,多邀多得不封頂。

對(duì)于亟需平衡成本與效能的開發(fā)者,這類“先試后買”的體驗(yàn)機(jī)會(huì),恰好是理解不同平臺(tái)技術(shù)底座、并在自家業(yè)務(wù)上試點(diǎn)的絕佳契機(jī)??靵硌?qǐng)你身邊的開發(fā)者吧!地址:https://www.volcengine.com/activity/deepseek

附文中測(cè)評(píng)Python腳本,感興趣的朋友可以自己跑跑,也可以搬走自行調(diào)整配置文件和模板快速適配不同評(píng)估需求:

git 地址:

https://gitee.com/ai-large-model-factory/evals.git

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司

            囊谦县| 沾益县| 视频| 呼玛县| 长兴县| 松原市| 迁西县| 西贡区| 威远县| 宜黄县| 辽中县| 凉山| 永胜县| 苍山县| 全椒县| 灵寿县| 榆中县| 偃师市| 东港市| 罗甸县| 玉山县| 高阳县| 道孚县| 宁国市| 志丹县| 金溪县| 黔东| 黎川县| 青海省| 湘阴县| 西盟| 高州市| 深泽县| 诸暨市| 崇左市| 陵水| 周宁县| 巫溪县| 鄂温| 东海县| 光山县|