下載客戶端

登錄

字節(jié)跳動發(fā)布開源Seed-OSS-36B模型，支持512K Token上下文

2025-08-23 16:25

來源：澎湃新聞·澎湃號·湃客

聽全文

TikTok今日再次成為頭條新聞，白宮正式入駐這一熱門社交媒體平臺，而其母公司、中國互聯網巨頭字節(jié)跳動也帶來了令人意外的重大發(fā)布。

字節(jié)跳動旗下Seed團隊的AI研究人員今日在AI代碼共享網站Hugging Face上發(fā)布了Seed-OSS-36B模型。

Seed-OSS-36B是一個全新的開源大語言模型系列，專為高級推理和開發(fā)者友好的可用性而設計。該模型擁有更長的Token上下文長度——即模型在單次交互中能夠接受和輸出的信息量——甚至超過了許多來自美國科技公司的競爭對手，包括OpenAI和Anthropic等行業(yè)領導者。

該系列推出了三個主要變體：

**Seed-OSS-36B-Base（含合成數據版本）**

**Seed-OSS-36B-Base（不含合成數據版本）**

**Seed-OSS-36B-Instruct**

Seed團隊通過發(fā)布Seed-OSS-36B-Base模型的合成數據和非合成數據兩個版本，力求在實際性能和研究靈活性之間找到平衡。

含合成數據的變體使用額外的指令數據進行訓練，在標準基準測試中始終獲得更高分數，旨在作為高性能的通用選擇。相比之下，非合成數據模型省略了這些增強功能，創(chuàng)建了更純凈的基礎版本，避免了合成指令數據可能引入的偏見或扭曲。

通過提供兩個版本，團隊為應用用戶提供了改進的結果，同時確保研究人員保留了一個中性基線來研究后訓練方法。

與此同時，Seed-OSS-36B-Instruct模型的不同之處在于，它通過指令數據進行后訓練，優(yōu)先考慮任務執(zhí)行和指令遵循，而不是純粹作為基礎模型。

所有三個模型都在Apache-2.0許可證下發(fā)布，允許企業(yè)的研究人員和開發(fā)者免費使用、修改和重新分發(fā)。

這意味著它們可以用于驅動商業(yè)應用程序，無論是公司內部還是面向外部/客戶的應用，都無需向字節(jié)跳動支付任何許可費用或應用程序編程接口(API)使用費。

這延續(xù)了2025年夏季中國公司發(fā)布強大開源模型的趨勢，而OpenAI則試圖通過本月早些時候發(fā)布的自己的開源gpt-oss duet來迎頭趕上。

Seed團隊將Seed-OSS定位為國際應用，強調在推理、智能體類任務執(zhí)行和多語言環(huán)境中的多功能性。

成立于2023年的Seed團隊一直專注于構建能夠同時服務于研究和應用用例的基礎模型。

**設計和核心特性**

Seed-OSS-36B背后的架構結合了熟悉的設計選擇，如因果語言建模、分組查詢注意力、SwiGLU激活、RMSNorm和RoPE位置編碼。

每個模型在64層中攜帶360億個參數，支持155,000個Token的詞匯表。

其定義特征之一是原生長上下文能力，最大長度為512,000個Token，旨在處理擴展文檔和推理鏈而不會出現性能損失。

這是OpenAI新GPT-5模型系列長度的兩倍，大約相當于1,600頁文本，相當于一本基督教圣經的長度。

另一個突出特點是引入了思考預算概念，讓開發(fā)者可以指定模型在給出答案之前應該進行多少推理。

我們在其他最近的開源模型中也看到了這一點，包括英偉達新推出的Nemotron-Nano-9B-v2，也可在Hugging Face上獲得。

在實踐中，這意味著團隊可以根據任務的復雜性和部署的效率要求來調整性能。

建議預算以512個Token的倍數為單位，0提供直接響應模式。

**第三方基準測試中的競爭性表現**

隨版本發(fā)布的基準測試將Seed-OSS-36B定位為更強大的大型開源模型之一。特別是Instruct變體，在多個領域都發(fā)布了最先進的結果。

**數學和推理**：Seed-OSS-36B-Instruct在AIME24上達到91.7%，在BeyondAIME上達到65分，均代表開源"最先進"(SOTA)水平。

**編程**：在LiveCodeBench v6上，Instruct模型記錄了67.4分，這是另一個SOTA分數。

**長上下文處理**：在128K上下文長度的RULER測試中，它達到94.6分，標志著報告的最高開源結果。

**基礎模型性能**：含合成數據的Base變體在MMLU-Pro上達到65.1分，在MATH上達到81.7分，均為其類別中的最先進結果。

不含合成數據的Base版本雖然在許多指標上略有落后，但在其自身領域證明了競爭力。它在GPQA-D上超越了其合成數據對應版本，為研究人員提供了更清潔、無指令的實驗基線。

對于比較開源選項的企業(yè)來說，這些結果表明Seed-OSS在數學密集型、編程和長上下文工作負載方面提供了強大的潛力，同時仍為研究用例提供了靈活性。

**訪問和部署**

除了性能之外，Seed團隊還強調了對開發(fā)者和從業(yè)者的可訪問性。這些模型可以使用Hugging Face Transformers進行部署，支持4位和8位格式的量化以降低內存需求。

它們還與vLLM集成以實現可擴展服務，包括配置示例和API服務器說明。

為了進一步降低門檻，團隊包含了用于推理、提示定制和工具集成的腳本。

對于管理小團隊或在預算限制下工作的技術領導者來說，這些條款旨在讓360億參數模型的實驗變得更加可行。

**許可和企業(yè)決策者的考慮因素**

由于模型在Apache-2.0下提供，組織可以在沒有限制性許可條款的情況下采用它們，這對于平衡法律和運營問題的團隊來說是一個重要因素。

對于評估開源領域的決策者來說，此次發(fā)布帶來了三個要點：

在數學、編程和長上下文推理方面的最先進基準測試。

在高性能合成訓練模型和清潔研究基線之間的平衡。

為精簡工程團隊降低運營開銷的可訪問性功能。

通過在開放許可證下提供強大性能和靈活部署，字節(jié)跳動的Seed團隊為企業(yè)、研究人員和開發(fā)者alike增加了新的選擇。

Q&A

Q1：Seed-OSS-36B模型有什么特殊之處？

A：Seed-OSS-36B是字節(jié)跳動發(fā)布的開源大語言模型，擁有512K Token的超長上下文能力，相當于能處理1600頁文本，是OpenAI GPT-5的兩倍長度。它在數學推理、編程和長文本處理方面都達到了開源模型的最先進水平。

Q2：Seed-OSS-36B有哪些版本可以選擇？

A：該模型提供三個版本：含合成數據的Base版本（性能更強）、不含合成數據的Base版本（更純凈的研究基線）、以及Instruct版本（專門優(yōu)化指令執(zhí)行）。所有版本都采用Apache-2.0開源許可證，可免費商用。

Q3：企業(yè)如何使用Seed-OSS-36B模型？

A：企業(yè)可以通過Hugging Face平臺獲取模型，支持4位和8位量化部署以降低內存需求，還可與vLLM集成實現可擴展服務。由于采用Apache-2.0許可證，企業(yè)可以免費用于商業(yè)應用而無需支付許可費用。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#字節(jié)AI

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業(yè)務經營許可證：滬B2-2017116

? 2014-2026 上海東方報業(yè)有限公司

反饋

9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

字節(jié)跳動發(fā)布開源Seed-OSS-36B模型，支持512K Token上下文

掃碼下載澎湃新聞客戶端

字節(jié)跳動發(fā)布開源Seed-OSS-36B模型，支持512K Token上下文