- +1
DeepSeek、智譜大模型接連上新,華為、寒武紀(jì)等國產(chǎn)芯片火速適配意味著什么
在國慶節(jié)前夕,DeepSeek和智譜先后宣布推出新一代大模型。與此同時(shí),國產(chǎn)芯片廠商都在第一時(shí)間宣布適配,這標(biāo)志著國產(chǎn)GPU已具備與前沿大模型協(xié)同迭代的能力,加速構(gòu)建自主可控的AI技術(shù)生態(tài)。
9月29日,DeepSeek宣布開源DeepSeek-V3.2-Exp實(shí)驗(yàn)版模型,該模型首次引入了Attention稀疏注意力架構(gòu),并在幾乎不影響模型輸出效果的前提下,大幅度提升了長(zhǎng)文本訓(xùn)練和推理效率,被DeepSeek定義為“邁向新一代架構(gòu)的中間步驟”。
華為、寒武紀(jì)、海光已經(jīng)完成適配DeepSeek-V3.2-Exp實(shí)驗(yàn)版模型
在DeepSeek宣布后,算力芯片廠商華為、寒武紀(jì)(688256)、海光信息(688041)等AI芯片廠商已經(jīng)宣布適配DeepSeek-V3.2-Exp。
“華為計(jì)算”公眾號(hào)發(fā)文宣布,昇騰已快速基于vLLM/SGLang等推理框架完成適配部署,實(shí)現(xiàn)DeepSeek-V3.2-Exp Day 0(第零天)支持,并面向開發(fā)者開源所有推理代碼和算子實(shí)現(xiàn)。DeepSeek-V3.2-Exp在昇騰設(shè)備上128K長(zhǎng)序列輸出,能夠保持TTFT(首token輸出耗時(shí))低于2秒、TPOT(每token輸出耗時(shí))低于30毫秒的推理生成速度。
在DeepSeek-V3.2-Exp模型宣布開源幾分鐘內(nèi),寒武紀(jì)也發(fā)文稱其已同步實(shí)現(xiàn)對(duì)該模型的Day 0適配,并開源大模型推理引擎vLLM-MLU源代碼。
寒武紀(jì)稱,公司一直高度重視大模型軟件生態(tài)建設(shè),支持以DeepSeek為代表的所有主流開源大模型。借助于長(zhǎng)期活躍的生態(tài)建設(shè)和技術(shù)積累,寒武紀(jì)得以快速實(shí)現(xiàn)對(duì)DeepSeek-V3.2-Exp這一全新實(shí)驗(yàn)性模型架構(gòu)的day 0適配和優(yōu)化。
寒武紀(jì)強(qiáng)調(diào),一直重視芯片和算法的聯(lián)合創(chuàng)新,致力于以軟硬件協(xié)同的方式,優(yōu)化大模型部署性能,降低部署成本。此前,寒武紀(jì)對(duì)DeepSeek系列模型進(jìn)行了深入的軟硬件協(xié)同性能優(yōu)化,達(dá)成了業(yè)界領(lǐng)先的算力利用率水平。
針對(duì)本次的DeepSeek-V3.2-Exp新模型架構(gòu),寒武紀(jì)通過Triton算子開發(fā)實(shí)現(xiàn)了快速適配,利用BangC融合算子開發(fā)實(shí)現(xiàn)了極致性能優(yōu)化,并基于計(jì)算與通信的并行策略,再次達(dá)成了業(yè)界領(lǐng)先的計(jì)算效率水平。依托DeepSeek-V3.2-Exp帶來的全新DeepSeek Sparse Attention機(jī)制,疊加寒武紀(jì)的極致計(jì)算效率,可大幅降低長(zhǎng)序列場(chǎng)景下的訓(xùn)推成本,共同為客戶提供極具競(jìng)爭(zhēng)力的軟硬件解決方案。
海光信息也宣布其DCU實(shí)現(xiàn)無縫適配+深度調(diào)優(yōu),做到大模型算力“零等待”部署。
海光信息表示,在“深算智能”戰(zhàn)略引領(lǐng)下,海光信息始終致力于AI軟件棧生態(tài)建設(shè),全面支持以DeepSeek為主流的全球主流開源大型。得益于長(zhǎng)期、活躍的技術(shù)積累,海光DCU得以快速對(duì)DeepSeek-V3.2-Exp完成“Day0”級(jí)高效適配與優(yōu)化。
基于GPGPU架構(gòu)強(qiáng)大的生態(tài)優(yōu)勢(shì),與編程開發(fā)軟件棧DIK的特性,DeepSeek-V3.2-Exp在海光DCU上展現(xiàn)出優(yōu)異的性能,充分驗(yàn)證海光DCU高通用性、高生態(tài)兼容度及自主可控的技術(shù)優(yōu)勢(shì),已成為支撐AI大模型訓(xùn)練與推理的關(guān)鍵基礎(chǔ)設(shè)施。
DeepSeek表示,得益于新模型服務(wù)成本的大幅降低,官方API價(jià)格也相應(yīng)下調(diào),開發(fā)者調(diào)用DeepSeek API的成本將降低50%以上。從價(jià)格來看,輸入緩存命中從0.5元降至0.2元/百萬tokens,緩存未命中從4元降至2元/百萬tokens,輸出由12元降至3元/百萬tokens。
寒武紀(jì)和摩爾線程宣布適配智譜新一代大模型 GLM-4.6
9月30日,智譜正式發(fā)布并開源新一代大模型 GLM-4.6,在 Agentic Coding等核心能力上實(shí)現(xiàn)大幅躍升。這是繼 DeepSeek-V3.2-Exp 與 Claude Sonnet 4.5 之后,國慶節(jié)前業(yè)界的又一重大技術(shù)發(fā)布。
智譜表示,在公開基準(zhǔn)測(cè)試和真實(shí)編程任務(wù)中,GLM-4.6的代碼生成能力已全面對(duì)齊Claude Sonnet 4,成為目前國內(nèi)最強(qiáng)的Coding模型。同時(shí),模型在長(zhǎng)上下文處理、推理能力、信息檢索、文本生成及智能體應(yīng)用等方面均實(shí)現(xiàn)全面升級(jí),整體性能超越DeepSeek-V3.2-Exp。作為開源模型,GLM-4.6目前是全球開源生態(tài)中性能最強(qiáng)的通用大模型之一,進(jìn)一步提升了國產(chǎn)大模型在全球競(jìng)爭(zhēng)格局中的地位。
智譜官方宣布,GLM-4.6 已在寒武紀(jì)領(lǐng)先的國產(chǎn) AI 芯片上實(shí)現(xiàn) FP8+Int4 混合量化推理部署,這也是首次在國產(chǎn)芯片上投產(chǎn)的 FP8+Int4 模型-芯片一體化解決方案。在保持模型精度不變的前提下,該方案大幅降低了推理成本,為國產(chǎn)芯片本地化運(yùn)行大模型提供了可行路徑和示范意義。
與此同時(shí),摩爾線程基于 vLLM 推理框架完成了對(duì)GLM-4.6 的適配,新一代GPU可在原生 FP8 精度下穩(wěn)定運(yùn)行模型,充分驗(yàn)證了MUSA 架構(gòu)及全功能GPU在生態(tài)兼容性和快速適配能力方面的優(yōu)勢(shì)。
華為、寒武紀(jì)、摩爾線程等芯片廠商完成對(duì)新一代前沿大模型的適配,這標(biāo)志著國產(chǎn)GPU已具備與前沿大模型協(xié)同迭代的能力,加速構(gòu)建自主可控的AI技術(shù)生態(tài)。
智譜表示,未來,國產(chǎn)原創(chuàng)的GLM系列大模型與國產(chǎn)芯片的深度協(xié)同,將在模型訓(xùn)練和推理環(huán)節(jié)持續(xù)推動(dòng)性能與效率的雙重優(yōu)化,構(gòu)建更加開放、可控、高效的人工智能基礎(chǔ)設(shè)施。
截至30日收盤,寒武紀(jì)報(bào)收1325元,微漲0.11%;海光信息報(bào)收252.6元,跌1.27%。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




