9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

字節(jié)跳動發(fā)布開源Seed-OSS-36B模型,支持512K Token上下文

2025-08-23 16:25
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

TikTok今日再次成為頭條新聞,白宮正式入駐這一熱門社交媒體平臺,而其母公司、中國互聯網巨頭字節(jié)跳動也帶來了令人意外的重大發(fā)布。

字節(jié)跳動旗下Seed團隊的AI研究人員今日在AI代碼共享網站Hugging Face上發(fā)布了Seed-OSS-36B模型。

Seed-OSS-36B是一個全新的開源大語言模型系列,專為高級推理和開發(fā)者友好的可用性而設計。該模型擁有更長的Token上下文長度——即模型在單次交互中能夠接受和輸出的信息量——甚至超過了許多來自美國科技公司的競爭對手,包括OpenAI和Anthropic等行業(yè)領導者。

該系列推出了三個主要變體:

**Seed-OSS-36B-Base(含合成數據版本)**

**Seed-OSS-36B-Base(不含合成數據版本)**

**Seed-OSS-36B-Instruct**

Seed團隊通過發(fā)布Seed-OSS-36B-Base模型的合成數據和非合成數據兩個版本,力求在實際性能和研究靈活性之間找到平衡。

含合成數據的變體使用額外的指令數據進行訓練,在標準基準測試中始終獲得更高分數,旨在作為高性能的通用選擇。相比之下,非合成數據模型省略了這些增強功能,創(chuàng)建了更純凈的基礎版本,避免了合成指令數據可能引入的偏見或扭曲。

通過提供兩個版本,團隊為應用用戶提供了改進的結果,同時確保研究人員保留了一個中性基線來研究后訓練方法。

與此同時,Seed-OSS-36B-Instruct模型的不同之處在于,它通過指令數據進行后訓練,優(yōu)先考慮任務執(zhí)行和指令遵循,而不是純粹作為基礎模型。

所有三個模型都在Apache-2.0許可證下發(fā)布,允許企業(yè)的研究人員和開發(fā)者免費使用、修改和重新分發(fā)。

這意味著它們可以用于驅動商業(yè)應用程序,無論是公司內部還是面向外部/客戶的應用,都無需向字節(jié)跳動支付任何許可費用或應用程序編程接口(API)使用費。

這延續(xù)了2025年夏季中國公司發(fā)布強大開源模型的趨勢,而OpenAI則試圖通過本月早些時候發(fā)布的自己的開源gpt-oss duet來迎頭趕上。

Seed團隊將Seed-OSS定位為國際應用,強調在推理、智能體類任務執(zhí)行和多語言環(huán)境中的多功能性。

成立于2023年的Seed團隊一直專注于構建能夠同時服務于研究和應用用例的基礎模型。

**設計和核心特性**

Seed-OSS-36B背后的架構結合了熟悉的設計選擇,如因果語言建模、分組查詢注意力、SwiGLU激活、RMSNorm和RoPE位置編碼。

每個模型在64層中攜帶360億個參數,支持155,000個Token的詞匯表。

其定義特征之一是原生長上下文能力,最大長度為512,000個Token,旨在處理擴展文檔和推理鏈而不會出現性能損失。

這是OpenAI新GPT-5模型系列長度的兩倍,大約相當于1,600頁文本,相當于一本基督教圣經的長度。

另一個突出特點是引入了思考預算概念,讓開發(fā)者可以指定模型在給出答案之前應該進行多少推理。

我們在其他最近的開源模型中也看到了這一點,包括英偉達新推出的Nemotron-Nano-9B-v2,也可在Hugging Face上獲得。

在實踐中,這意味著團隊可以根據任務的復雜性和部署的效率要求來調整性能。

建議預算以512個Token的倍數為單位,0提供直接響應模式。

**第三方基準測試中的競爭性表現**

隨版本發(fā)布的基準測試將Seed-OSS-36B定位為更強大的大型開源模型之一。特別是Instruct變體,在多個領域都發(fā)布了最先進的結果。

**數學和推理**:Seed-OSS-36B-Instruct在AIME24上達到91.7%,在BeyondAIME上達到65分,均代表開源"最先進"(SOTA)水平。

**編程**:在LiveCodeBench v6上,Instruct模型記錄了67.4分,這是另一個SOTA分數。

**長上下文處理**:在128K上下文長度的RULER測試中,它達到94.6分,標志著報告的最高開源結果。

**基礎模型性能**:含合成數據的Base變體在MMLU-Pro上達到65.1分,在MATH上達到81.7分,均為其類別中的最先進結果。

不含合成數據的Base版本雖然在許多指標上略有落后,但在其自身領域證明了競爭力。它在GPQA-D上超越了其合成數據對應版本,為研究人員提供了更清潔、無指令的實驗基線。

對于比較開源選項的企業(yè)來說,這些結果表明Seed-OSS在數學密集型、編程和長上下文工作負載方面提供了強大的潛力,同時仍為研究用例提供了靈活性。

**訪問和部署**

除了性能之外,Seed團隊還強調了對開發(fā)者和從業(yè)者的可訪問性。這些模型可以使用Hugging Face Transformers進行部署,支持4位和8位格式的量化以降低內存需求。

它們還與vLLM集成以實現可擴展服務,包括配置示例和API服務器說明。

為了進一步降低門檻,團隊包含了用于推理、提示定制和工具集成的腳本。

對于管理小團隊或在預算限制下工作的技術領導者來說,這些條款旨在讓360億參數模型的實驗變得更加可行。

**許可和企業(yè)決策者的考慮因素**

由于模型在Apache-2.0下提供,組織可以在沒有限制性許可條款的情況下采用它們,這對于平衡法律和運營問題的團隊來說是一個重要因素。

對于評估開源領域的決策者來說,此次發(fā)布帶來了三個要點:

在數學、編程和長上下文推理方面的最先進基準測試。

在高性能合成訓練模型和清潔研究基線之間的平衡。

為精簡工程團隊降低運營開銷的可訪問性功能。

通過在開放許可證下提供強大性能和靈活部署,字節(jié)跳動的Seed團隊為企業(yè)、研究人員和開發(fā)者alike增加了新的選擇。

Q&A

Q1:Seed-OSS-36B模型有什么特殊之處?

A:Seed-OSS-36B是字節(jié)跳動發(fā)布的開源大語言模型,擁有512K Token的超長上下文能力,相當于能處理1600頁文本,是OpenAI GPT-5的兩倍長度。它在數學推理、編程和長文本處理方面都達到了開源模型的最先進水平。

Q2:Seed-OSS-36B有哪些版本可以選擇?

A:該模型提供三個版本:含合成數據的Base版本(性能更強)、不含合成數據的Base版本(更純凈的研究基線)、以及Instruct版本(專門優(yōu)化指令執(zhí)行)。所有版本都采用Apache-2.0開源許可證,可免費商用。

Q3:企業(yè)如何使用Seed-OSS-36B模型?

A:企業(yè)可以通過Hugging Face平臺獲取模型,支持4位和8位量化部署以降低內存需求,還可與vLLM集成實現可擴展服務。由于采用Apache-2.0許可證,企業(yè)可以免費用于商業(yè)應用而無需支付許可費用。

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業(yè)務經營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司

            汝州市| 岫岩| 元江| 囊谦县| 南充市| 平潭县| 突泉县| 丹凤县| 沂源县| 布尔津县| 靖西县| 扬州市| 精河县| 汉寿县| 诸暨市| 措勤县| 如东县| 达州市| 扶余县| 云安县| 酉阳| 济阳县| 尼玛县| 依兰县| 湘潭县| 育儿| 常山县| 龙门县| 武功县| 浮山县| 金门县| 扎囊县| 永清县| 宁安市| 桑植县| 安顺市| 延长县| 永宁县| 青龙| 崇文区| 阿拉善右旗|