問鼎“最強AI”？Claude 3支持20萬Token

2024-03-06 16:16

來源：澎湃新聞·澎湃號·湃客

聽全文

剛剛，Anthropic 丟出一顆“王炸”，聲稱其Claude 3 Opus模型在基準測試上優(yōu)于 OpenAI 的 GPT-4 和 Google 的 Gemini 1.0 Ultra，三個版本均支持20萬Token輸入并成為“最接近人”應答的大模型。

Claude 3 系列模型有三個版本：Claude 3 Haiku 輕便快捷、Claude 3 Sonnet 是技巧與速度的最佳結合以及性能最強大的 Claude 3 Opus。

Claude 3主打安全無害

Anthropic是由前 OpenAI 研究高管創(chuàng)立，擁有包括谷歌、Salesforce 和亞馬遜云科技在內的支持者，并在過去一年完成了五筆不同的融資交易，融資總額達到了 73 億美元。

Claude 3大模型不同于GPT-4與Gemini ，Anthropic 希望打造安全的人工智能系統(tǒng)，并能讓人們能可靠地部署，通過在數據對齊方面的努力，追求從人類的反饋中進行強化學習，以培養(yǎng)出一個有益無害的助手。

Anthropic認為人工智能是一門系統(tǒng)科學。為此他們開發(fā)了標度定律（scaling laws）。這是受到在統(tǒng)計物理學中標度普遍性的啟發(fā)。Anthropic發(fā)現 Transformer語言模型中性能與訓練時間、上下文長度、數據集大小、模型大小和計算預算等因素之間存在精確的冪律關系。通過使用足夠小的批次大小時所需的計算量預測，并且這對于理解語言模型的性能和優(yōu)化計算資源分配具有重要意義。

安全性的研究則更為重要。技術的迭代讓人們每次都會看到比以往性能更好、更大的模型和網絡。這些更大的網絡也帶來了新的安全挑戰(zhàn)。Anthropic更加關注大型模型的安全問題，以便找到使其更可靠的方法，并提高整個領域的安全部署結果。Anthropic當前的重點是原型系統(tǒng)，將這些安全技術與分析文本和代碼的工具相結合。因此，在Claude 2 有時會過度拒絕，Claude 3 對提示的理解更加細致。

Anthropic高度重視項目合作，并致力于自上而下和自下而上的研究規(guī)劃相結合。Anthropic非常重視讓每個人——研究人員、工程師、社會影響專家和政策分析師——都參與到確定這一方向中來。希望與其他實驗室和研究人員合作，因為我們相信，表征這些系統(tǒng)的最佳研究將來自廣泛的研究人員群體。

為了讓模型有益無害，Anthropic利用一種方法，通過收集人類偏好數據并應用偏好建模（Preference Modeling，PMing）和從人類反饋中強化學習（Reinforcement Learning from Human Feedback，RLHF）的技術來訓練出一種相對有助且無害的自然語言助理。

強大的性能超越 OpenAI和 Google

Claude Opus 是最智能的模型，在人工智能系統(tǒng)的大多數常見評估基準上都優(yōu)于同行，包括本科水平專家知識 (MMLU)、研究生水平專家推理 (GPQA)、基礎數學 (GSM8K) 等。它在復雜任務上表現出接近人類水平的理解力和流暢性，引領通用智能的前沿。

快速是其另一大優(yōu)勢。Claude 3 模型在20萬上下文的巨大輸入內容下也可快速應答問題?？梢灾С謱崟r客戶聊天、自動完成和數據提取任務，其中響應是立即且實時。Haiku 可以在不到三秒的時間內閱讀 arXiv 上包含圖表和圖形的信息和數據密集的研究論文。

此外還具備強大視覺能力：他們可以處理各種視覺格式，包括照片、圖表、圖形和技術圖表。我們特別高興能夠為我們的企業(yè)客戶提供這種新模式，其中一些客戶的知識庫高達 50% 以各種格式編碼，例如 PDF、流程圖或演示幻燈片。

“風浪越大魚越貴”在大語言模型領域也不例外。Anthropic 表示，Claude 3 Opus 收取每百萬Token的數據的費用為 15 美元，而處理相同數據的較小模型的費用至少要低五倍。相比之下，OpenAI 對輸入其 GPT-4 Turbo 模型的每百萬Token收取 10 美元。

與云服務企業(yè)深入合作，幫助企業(yè)快速落地

大語言模型擁有具有巨大的商業(yè)潛力。大語言模型可以用于自然語言處理、智能對話系統(tǒng)、文本生成、翻譯等多個領域。通過開發(fā)和推廣大語言模型，企業(yè)可以為其產品和服務增加更強大的自然語言處理能力，從而提升用戶體驗，擴大市場份額。

谷歌云和亞馬遜云科技都加入了對Claude 3 的支持與部署。

Google Cloud 云人工智能產品管理高級總監(jiān)沃倫·巴克利表示：“ 為了增強客戶的選擇和創(chuàng)新能力 Google Cloud 通過在 Vertex AI 中提供的精選第一方、開源和第三方模型。Claude 3將在未來幾周內在Vertex AI Model Garden中全面推出?！?/p>

Google Cloud 客戶將能夠通過Vertex AI Model Garden中的 API 訪問從所有三個 Claude 3 模型中進行選擇。

通過 Vertex AI 中的簡單 API 調用快速訪問 Claude 的預訓練模型加速 AI 開發(fā)。使用戶專注應用，而不是基礎設施。付費更加靈活，通過按需付費優(yōu)化成本。并利用 Google Cloud 的內置安全性、隱私性和合規(guī)性部署。

亞馬遜云科技也迅速加入了對Claude 3系列模型的支持，并基于Amazon Bedrock提供服務。亞馬遜云科技數據和AI副總裁Swami Sivasubramanian博士表示：“我們與Anthropic展開合作，旨在將領先的生成式AI技術帶給全球客戶，如在亞馬遜云科技的先進基礎設施（如AI芯片Amazon Trainium）上進行構建。我們很榮幸能夠繼往開來，在Amazon Bedrock上引入Claude 3模型。

用戶將可以通過Amazon Bedrock訪問Claude 3系列的三個支持視覺功能的模型——Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。其中Sonnet模型現已在美東（北弗吉尼亞州）和美西（俄勒岡州）區(qū)域正式可用，Opus模型和Haiku模型將在未來數周內推出。

AI技術更新速度可謂是“日新月異”，科技企業(yè)為了不掉隊，通過資本的方式投注新技術：因此我們看到了Google、亞馬遜云科技、Meta這樣的企業(yè)除了自研大模型還不斷投資新興的大模型創(chuàng)業(yè)公司。在需求端，企業(yè)面對快速的技術更迭，軟件定義硬件的趨勢更加明顯，以往通過購買IT硬件再部署軟件上線業(yè)務的模式恐將“一去不返”。取而代之的是根據應用需求，采取軟硬件的訂閱模式：硬件按需求、性能訂閱算力、存儲等云服務，軟件也將在云上直接部署按Token付費。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Claude3