DeepSeek、智譜大模型接連上新，華為、寒武紀(jì)等國產(chǎn)芯片火速適配意味著什么

澎湃新聞?dòng)浾?周玲范佳來

2025-09-30 16:25

來源：澎湃新聞

聽全文

在國慶節(jié)前夕，DeepSeek和智譜先后宣布推出新一代大模型。與此同時(shí)，國產(chǎn)芯片廠商都在第一時(shí)間宣布適配，這標(biāo)志著國產(chǎn)GPU已具備與前沿大模型協(xié)同迭代的能力，加速構(gòu)建自主可控的AI技術(shù)生態(tài)。

9月29日，DeepSeek宣布開源DeepSeek-V3.2-Exp實(shí)驗(yàn)版模型，該模型首次引入了Attention稀疏注意力架構(gòu)，并在幾乎不影響模型輸出效果的前提下，大幅度提升了長(zhǎng)文本訓(xùn)練和推理效率，被DeepSeek定義為“邁向新一代架構(gòu)的中間步驟”。

華為、寒武紀(jì)、海光已經(jīng)完成適配DeepSeek-V3.2-Exp實(shí)驗(yàn)版模型

在DeepSeek宣布后，算力芯片廠商華為、寒武紀(jì)（688256）、海光信息（688041）等AI芯片廠商已經(jīng)宣布適配DeepSeek-V3.2-Exp。

“華為計(jì)算”公眾號(hào)發(fā)文宣布，昇騰已快速基于vLLM/SGLang等推理框架完成適配部署，實(shí)現(xiàn)DeepSeek-V3.2-Exp Day 0（第零天）支持，并面向開發(fā)者開源所有推理代碼和算子實(shí)現(xiàn)。DeepSeek-V3.2-Exp在昇騰設(shè)備上128K長(zhǎng)序列輸出，能夠保持TTFT（首token輸出耗時(shí)）低于2秒、TPOT（每token輸出耗時(shí)）低于30毫秒的推理生成速度。

在DeepSeek-V3.2-Exp模型宣布開源幾分鐘內(nèi)，寒武紀(jì)也發(fā)文稱其已同步實(shí)現(xiàn)對(duì)該模型的Day 0適配，并開源大模型推理引擎vLLM-MLU源代碼。

寒武紀(jì)稱，公司一直高度重視大模型軟件生態(tài)建設(shè)，支持以DeepSeek為代表的所有主流開源大模型。借助于長(zhǎng)期活躍的生態(tài)建設(shè)和技術(shù)積累，寒武紀(jì)得以快速實(shí)現(xiàn)對(duì)DeepSeek-V3.2-Exp這一全新實(shí)驗(yàn)性模型架構(gòu)的day 0適配和優(yōu)化。

寒武紀(jì)強(qiáng)調(diào)，一直重視芯片和算法的聯(lián)合創(chuàng)新，致力于以軟硬件協(xié)同的方式，優(yōu)化大模型部署性能，降低部署成本。此前，寒武紀(jì)對(duì)DeepSeek系列模型進(jìn)行了深入的軟硬件協(xié)同性能優(yōu)化，達(dá)成了業(yè)界領(lǐng)先的算力利用率水平。

針對(duì)本次的DeepSeek-V3.2-Exp新模型架構(gòu)，寒武紀(jì)通過Triton算子開發(fā)實(shí)現(xiàn)了快速適配，利用BangC融合算子開發(fā)實(shí)現(xiàn)了極致性能優(yōu)化，并基于計(jì)算與通信的并行策略，再次達(dá)成了業(yè)界領(lǐng)先的計(jì)算效率水平。依托DeepSeek-V3.2-Exp帶來的全新DeepSeek Sparse Attention機(jī)制，疊加寒武紀(jì)的極致計(jì)算效率，可大幅降低長(zhǎng)序列場(chǎng)景下的訓(xùn)推成本，共同為客戶提供極具競(jìng)爭(zhēng)力的軟硬件解決方案。

海光信息也宣布其DCU實(shí)現(xiàn)無縫適配+深度調(diào)優(yōu)，做到大模型算力“零等待”部署。

海光信息表示，在“深算智能”戰(zhàn)略引領(lǐng)下，海光信息始終致力于AI軟件棧生態(tài)建設(shè)，全面支持以DeepSeek為主流的全球主流開源大型。得益于長(zhǎng)期、活躍的技術(shù)積累，海光DCU得以快速對(duì)DeepSeek-V3.2-Exp完成“Day0”級(jí)高效適配與優(yōu)化。

基于GPGPU架構(gòu)強(qiáng)大的生態(tài)優(yōu)勢(shì)，與編程開發(fā)軟件棧DIK的特性，DeepSeek-V3.2-Exp在海光DCU上展現(xiàn)出優(yōu)異的性能，充分驗(yàn)證海光DCU高通用性、高生態(tài)兼容度及自主可控的技術(shù)優(yōu)勢(shì)，已成為支撐AI大模型訓(xùn)練與推理的關(guān)鍵基礎(chǔ)設(shè)施。

DeepSeek表示，得益于新模型服務(wù)成本的大幅降低，官方API價(jià)格也相應(yīng)下調(diào)，開發(fā)者調(diào)用DeepSeek API的成本將降低50%以上。從價(jià)格來看，輸入緩存命中從0.5元降至0.2元/百萬tokens，緩存未命中從4元降至2元/百萬tokens，輸出由12元降至3元/百萬tokens。

寒武紀(jì)和摩爾線程宣布適配智譜新一代大模型 GLM-4.6

9月30日，智譜正式發(fā)布并開源新一代大模型 GLM-4.6，在 Agentic Coding等核心能力上實(shí)現(xiàn)大幅躍升。這是繼 DeepSeek-V3.2-Exp 與 Claude Sonnet 4.5 之后，國慶節(jié)前業(yè)界的又一重大技術(shù)發(fā)布。

智譜表示，在公開基準(zhǔn)測(cè)試和真實(shí)編程任務(wù)中，GLM-4.6的代碼生成能力已全面對(duì)齊Claude Sonnet 4，成為目前國內(nèi)最強(qiáng)的Coding模型。同時(shí)，模型在長(zhǎng)上下文處理、推理能力、信息檢索、文本生成及智能體應(yīng)用等方面均實(shí)現(xiàn)全面升級(jí)，整體性能超越DeepSeek-V3.2-Exp。作為開源模型，GLM-4.6目前是全球開源生態(tài)中性能最強(qiáng)的通用大模型之一，進(jìn)一步提升了國產(chǎn)大模型在全球競(jìng)爭(zhēng)格局中的地位。

智譜官方宣布，GLM-4.6 已在寒武紀(jì)領(lǐng)先的國產(chǎn) AI 芯片上實(shí)現(xiàn) FP8+Int4 混合量化推理部署，這也是首次在國產(chǎn)芯片上投產(chǎn)的 FP8+Int4 模型-芯片一體化解決方案。在保持模型精度不變的前提下，該方案大幅降低了推理成本，為國產(chǎn)芯片本地化運(yùn)行大模型提供了可行路徑和示范意義。

與此同時(shí)，摩爾線程基于 vLLM 推理框架完成了對(duì)GLM-4.6 的適配，新一代GPU可在原生 FP8 精度下穩(wěn)定運(yùn)行模型，充分驗(yàn)證了MUSA 架構(gòu)及全功能GPU在生態(tài)兼容性和快速適配能力方面的優(yōu)勢(shì)。

華為、寒武紀(jì)、摩爾線程等芯片廠商完成對(duì)新一代前沿大模型的適配，這標(biāo)志著國產(chǎn)GPU已具備與前沿大模型協(xié)同迭代的能力，加速構(gòu)建自主可控的AI技術(shù)生態(tài)。

智譜表示，未來，國產(chǎn)原創(chuàng)的GLM系列大模型與國產(chǎn)芯片的深度協(xié)同，將在模型訓(xùn)練和推理環(huán)節(jié)持續(xù)推動(dòng)性能與效率的雙重優(yōu)化，構(gòu)建更加開放、可控、高效的人工智能基礎(chǔ)設(shè)施。

截至30日收盤，寒武紀(jì)報(bào)收1325元，微漲0.11%；海光信息報(bào)收252.6元，跌1.27%。

責(zé)任編輯：葛佳

圖片編輯：樂浴峰

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#DeepSeek #華為 #海光