- +1
200億參數(shù)GPT-NeoX即將開(kāi)源:96塊A100訓(xùn)練三個(gè)月,野生GPT家族再添一員
機(jī)器之心報(bào)道
編輯:蛋醬
野生 GPT 家族又多了一個(gè)新成員:GPT-NeoX-20B。
經(jīng)歷了長(zhǎng)達(dá)數(shù)月的芯片短缺導(dǎo)致的出貨延遲、技術(shù)試驗(yàn)以及反復(fù)調(diào)試之后,EleutherAI 在今天官宣了最新的 200 億參數(shù)開(kāi)源語(yǔ)言模型「GPT-NeoX-20B」。
自從 2020 年 5 月 OpenAI 高調(diào)推出 1750 億參數(shù)「GPT-3」,人工智能領(lǐng)域就掀起了一陣大模型的巨浪。由于微軟擁有對(duì) GPT-3 源代碼的獨(dú)家訪問(wèn)權(quán),不同于 GPT-2 和 GPT-1,OpenAI 并沒(méi)有開(kāi)源 GPT-3,而是通過(guò)商業(yè) API 來(lái)提供該模型的能力及訓(xùn)練數(shù)據(jù)集。這些服務(wù)很快開(kāi)始收費(fèi),且價(jià)格不菲:
基礎(chǔ)模型價(jià)格標(biāo)準(zhǔn)。
微調(diào)模型價(jià)格標(biāo)準(zhǔn)。按照這樣的收費(fèi)標(biāo)準(zhǔn),很多普通用戶是玩不起的。所以,目前 OpenAI API 更適用于大規(guī)模企業(yè)用戶。
這種「矛盾」恰恰推動(dòng)了 EleutherAI 的誕生,促使其開(kāi)發(fā)「野生版」 GPT-3。
EleutherAI 成立于 2020 年 7 月,是一個(gè)由機(jī)器學(xué)習(xí)研究人員組成的小組,宗旨是努力構(gòu)建和開(kāi)源大型語(yǔ)言模型。此前,他們開(kāi)發(fā)了 GPT-Neo,這是 GPT-3 的復(fù)現(xiàn)與開(kāi)源中最優(yōu)秀的項(xiàng)目之一。去年 3 月,EleutherAI 在 GPT-Neo 項(xiàng)目主頁(yè)放出了復(fù)現(xiàn)版 GPT-3 的模型參數(shù)(1.3B 和 2.7B 級(jí)別),并將其更新在了 Colab notebook 上。不過(guò),GPT-Neo 開(kāi)源模型里較大的版本也只達(dá)到了 GPT-3 商用版里最小模型的參數(shù)量。去年 6 月,EleutherAI 又開(kāi)源了 60 億參數(shù)的自然語(yǔ)言處理 AI 模型 GPT-J。
現(xiàn)在,更大規(guī)模、更優(yōu)表現(xiàn)的 GPT-NeoX-20B 已經(jīng)面世。研究者稱,GPT-NeoX-20B 是目前最大的可公開(kāi)訪問(wèn)的預(yù)訓(xùn)練通用自回歸語(yǔ)言模型,并在多項(xiàng)任務(wù)上取得了優(yōu)于 OpenAI Curie 的不俗表現(xiàn)。
對(duì)于 EleutherAI 來(lái)說(shuō),GPT-NeoX-20B 只能算是一項(xiàng)階段性成果,他們的最終目標(biāo)是將參數(shù)規(guī)模擴(kuò)展到 1700 億左右,就像 GPT-3 一樣。如何打造 GPT-NeoX-20B
實(shí)際上,在打造類 GPT 系統(tǒng)的道路上,研究者首先發(fā)現(xiàn)了訓(xùn)練大模型時(shí)的數(shù)據(jù)挑戰(zhàn)。
由于 OpenAI 對(duì)訓(xùn)練過(guò)的數(shù)據(jù)細(xì)節(jié)很吝嗇(而且肯定不會(huì)發(fā)布副本),因此 EleutherAI 自己創(chuàng)建了一個(gè)用于語(yǔ)言建模的 800GB 多元文本數(shù)據(jù)集。
2021 年元旦,EleutherAI 發(fā)布了 The Pile,這是一個(gè) 825GB 的用于訓(xùn)練的多樣化文本數(shù)據(jù)集。The Pile 由 22 個(gè)不同的高質(zhì)量子集構(gòu)成,包括現(xiàn)有的和新建的,其中許多來(lái)源于學(xué)術(shù)領(lǐng)域或各專業(yè)領(lǐng)域。
論文鏈接:https://arxiv.org/abs/2101.00027下載地址:https://pile.eleuther.ai/
這個(gè)數(shù)據(jù)集也是開(kāi)源的,前不久,研究者另外發(fā)布了一份關(guān)于 The Pile 的數(shù)據(jù)手冊(cè):https://arxiv.org/pdf/2201.07311.pdf
The Pile 數(shù)據(jù)集為 GPT-NeoX-20B 的搭建鋪平了一半的道路,另一半挑戰(zhàn)則來(lái)自于硬件。此前,在 GPT-Neo 和 GPT-J 的訓(xùn)練過(guò)程中,EleutherAI 都是通過(guò) TPU Research Cloud (TRC) 訪問(wèn)搶占式 TPU,但想在合理的時(shí)間內(nèi)用 TRC TPU 訓(xùn)練超過(guò)數(shù)百億參數(shù)的模型是不現(xiàn)實(shí)的。
2021 年 1 月,EleutherAI 宣布與 CoreWeave 達(dá)成合作,CoreWeave 承諾為 GPT-NeoX-20B 模型訓(xùn)練提供 GPU 資源。研究者透露,他們?cè)?96 個(gè) A100 上完成了 GPT-NeoX-20B 的訓(xùn)練,這些 A100 分布在由 HDR Infiniband 互連的十幾個(gè)節(jié)點(diǎn)上,訓(xùn)練時(shí)間持續(xù)了大約三個(gè)月。
有人根據(jù) AWS 的收費(fèi)標(biāo)準(zhǔn)粗略地計(jì)算了一下訓(xùn)練過(guò)程所需要的成本,大概有 86 萬(wàn)美元:
在后續(xù)即將發(fā)布的詳細(xì)文檔中,研究者還將對(duì) GPT-NeoX-20B 的訓(xùn)練細(xì)節(jié)進(jìn)行更多介紹。GPT-NeoX-20B 性能如何?
研究者首先在 LAMBADA 等多項(xiàng)標(biāo)準(zhǔn)任務(wù)上對(duì)比了 GPT-NeoX-20B 與 Babbage、Curie、DaVinci 這些 OpenAI 商業(yè) API 以及 GPT-J-6B 等模型的表現(xiàn)。
從性能表現(xiàn)上來(lái)看,GPT-NeoX-20B 總體優(yōu)于 Babbage、Curie、GPT-J-6B,但和 DaVinci 相比還存在一定差距。
標(biāo)準(zhǔn)語(yǔ)言建模任務(wù)的準(zhǔn)確性對(duì)比。
根據(jù) HendrycksTest 評(píng)估,各模型對(duì)不同學(xué)科組事實(shí)知識(shí)的準(zhǔn)確性測(cè)量對(duì)比。還有很重要的一點(diǎn)是:GPT-NeoX-20B 如何開(kāi)源并提供給廣大開(kāi)發(fā)者使用?
有人表示,自己曾在一年前申請(qǐng)了 GPT-3 的訪問(wèn)權(quán)限,但從未收到回復(fù)。在 GPT-NeoX-20B 項(xiàng)目中,這樣的情況顯然不會(huì)發(fā)生。
從 2 月 9 日開(kāi)始,GPT-NeoX-20B 完整的模型權(quán)重可以在 The Eye 的 Apache 2.0 許可下免費(fèi)下載。此外,用戶也可以在 https://goose.ai (https://goose.ai/) 上試用該模型。參考鏈接:
https://blog.eleuther.ai/announcing-20b/
https://www.reddit.com/r/MachineLearning/comments/sit4ro/n_eleutherai_announces_a_20_billion_parameter/、? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
原標(biāo)題:《200億參數(shù)GPT-NeoX即將開(kāi)源:96塊A100訓(xùn)練三個(gè)月,野生GPT家族再添一員》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




