數(shù)據(jù)分析加速如何解決AI隱藏的瓶頸

2025-04-28 11:24

來源：澎湃新聞·澎湃號(hào)·湃客

聽全文

快節(jié)奏的 AI 領(lǐng)域從不缺乏頭條新聞。例如，去年 11 月，Cerebras 宣稱他們制造了世界上最快的 AI 推理芯片。今年 4 月，OpenAI 推出了其稱為全新“巨型”且“昂貴”的模型，該模型“讓人感覺仿佛在與一位深思熟慮的人對(duì)話”。

然而，在這些喧囂的表象下，企業(yè)團(tuán)隊(duì)內(nèi)部正發(fā)生著某種變化。

當(dāng)許多 CEO 紛紛大談經(jīng)過精細(xì)調(diào)試的助手、多模態(tài)奇跡和巨資投資時(shí)，那些常常深陷在 AI 真正生死攸關(guān)的數(shù)據(jù)戰(zhàn)場(chǎng)中的工程師，卻在觀察著他們的儀表板亮起異常信號(hào)：查詢時(shí)間飆升、數(shù)據(jù)管道堵塞、模型停滯。

生成式 AI 的熱潮引發(fā)了一場(chǎng)擴(kuò)展更大模型的競(jìng)賽，其中 OpenAI CEO Sam Altman 是最為直言不諱的擁護(hù)者。然而，在這股炒作浪潮中，潛藏的數(shù)據(jù)分析瓶頸正在削弱許多企業(yè)的 AI 目標(biāo)。

大多數(shù)組織仍在努力理解龐大而混亂的數(shù)據(jù)集。盡管 GPU 已極大地加速了模型訓(xùn)練，但數(shù)據(jù)準(zhǔn)備 — 這一不太引人注目的確保輸入準(zhǔn)確性的工作 — 仍然停留在以 CPU 為主的架構(gòu)上，而這些架構(gòu)從未為這種規(guī)模設(shè)計(jì)。

簡單地說，數(shù)據(jù)量的增長速度遠(yuǎn)快于我們處理數(shù)據(jù)的能力。

正如 NeuroBlade 的 CEO 兼聯(lián)合創(chuàng)始人 Elad Sity 在一次采訪中指出的：“盡管業(yè)界長期以來依賴 CPU 進(jìn)行數(shù)據(jù)準(zhǔn)備，但它們已經(jīng)成為瓶頸 — 消耗了 AI 流程中超過 30% 的資源。”

結(jié)果如何？數(shù)據(jù)管道運(yùn)行緩慢，成本急劇上升，企業(yè)的 AI 目標(biāo)與實(shí)際投資回報(bào)率之間的差距不斷擴(kuò)大。

正如 Sity 所解釋的，這種壓力促使了思維方式的重大轉(zhuǎn)變，業(yè)內(nèi)正積極尋求解決方案。他表示：“這正推動(dòng)著一場(chǎng)靜默的革命，正在重塑數(shù)據(jù)分析 — 從依賴人工洞察轉(zhuǎn)向由 AI 模型消耗并基于不斷增長的數(shù)據(jù)集采取行動(dòng)，從而加速數(shù)據(jù)采集和處理的循環(huán)?！?/p>

由 Sity 聯(lián)合創(chuàng)立的以色列半導(dǎo)體初創(chuàng)公司 NeuroBlade 認(rèn)為，答案在于一種專為加速數(shù)據(jù)分析而設(shè)計(jì)的新型硬件。他們的 Analytics Accelerator 不僅僅是一塊更快的 CPU — 而是一種根本不同的架構(gòu)，專門用于處理現(xiàn)代數(shù)據(jù)庫工作負(fù)載。

但它能否實(shí)質(zhì)性地重塑企業(yè) AI 的經(jīng)濟(jì)模式呢？

數(shù)據(jù)準(zhǔn)備為何拖慢了 AI 的發(fā)展企業(yè)正在發(fā)現(xiàn)，AI 的瓶頸并不總是出現(xiàn)在模型上，而是在上游的數(shù)據(jù)本身。正如 Pragmatic Institute 的一份報(bào)告顯示的那樣：“數(shù)據(jù)從業(yè)者將 80% 的寶貴時(shí)間花在尋找、清洗和組織數(shù)據(jù)上?！?/p>

雖然對(duì)數(shù)據(jù)科學(xué)家在清洗和準(zhǔn)備數(shù)據(jù)上所花時(shí)間的估計(jì)各不相同，但業(yè)界共識(shí)十分明確：數(shù)據(jù)科學(xué)家在數(shù)據(jù)準(zhǔn)備上投入的時(shí)間遠(yuǎn)遠(yuǎn)超過分析和建模。

數(shù)據(jù)準(zhǔn)備工作包括提取、轉(zhuǎn)換和聯(lián)結(jié)大量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，而這些數(shù)據(jù)常常分布在龐大的 lakehouse 環(huán)境中。這構(gòu)成了問題，因?yàn)榇蟛糠止ぷ魅匀灰蕾囃ㄓ眯?CPU 運(yùn)作。

根據(jù) AMD 的數(shù)據(jù)，當(dāng)前市場(chǎng)大約支持 200 萬個(gè) CPU 插槽用于數(shù)據(jù)分析工作負(fù)載，預(yù)計(jì)到 2027 年這一數(shù)字將增至 400-500 萬。這實(shí)在是大量通用硬件在支撐著那些并非為 PB 級(jí)規(guī)模運(yùn)行而設(shè)計(jì)的查詢。

正如 Sity 所解釋的：“企業(yè)在傳統(tǒng) CPU 擴(kuò)展方面已經(jīng)遇到了瓶頸。我們看到超大規(guī)模數(shù)據(jù)中心和云服務(wù)提供商每年花費(fèi)數(shù)十億美元僅僅為了維護(hù)其數(shù)據(jù)分析基礎(chǔ)設(shè)施，但回報(bào)卻趨于平緩?！?/p>

增加更多的 CPU 只能帶來有限的提升，因?yàn)閿U(kuò)展集群會(huì)呈指數(shù)級(jí)增加節(jié)點(diǎn)之間的通信開銷 — 這會(huì)引發(fā)性能、功耗和成本的障礙。在某個(gè)臨界點(diǎn)之后，成本（包括硬件、能源和數(shù)據(jù)中心場(chǎng)地費(fèi)用）開始超過性能收益。這種情況在對(duì)延遲十分敏感且陳舊數(shù)據(jù)會(huì)降低模型準(zhǔn)確度的 AI 環(huán)境中尤為嚴(yán)重。

專用數(shù)據(jù)分析處理器的崛起 NeuroBlade 的 Accelerator 大幅提升性能并縮短查詢時(shí)間，從而釋放數(shù)據(jù)分析平臺(tái)的全部潛力。通過將操作從 CPU 卸載到專用硬件上 — 這一過程稱為 pushdown — 它提升了每臺(tái)服務(wù)器的計(jì)算能力，使得比起僅依賴 CPU 的部署，使用更小規(guī)模的集群也能更快速地處理大規(guī)模數(shù)據(jù)集。

正如 Sity 指出的：“通用型 CPU 無法足夠迅速地?cái)U(kuò)展以應(yīng)對(duì)不斷增長的性能需求和數(shù)據(jù)量，這迫使組織不得不擴(kuò)大集群規(guī)模?！?/p>

“專用硬件通過提升每臺(tái)服務(wù)器在數(shù)據(jù)分析上的計(jì)算能力，減少了對(duì)大型集群的依賴，并有助于避免諸如網(wǎng)絡(luò)開銷、功率限制和操作復(fù)雜性等瓶頸?！?/p>

在 TPC-H 基準(zhǔn)測(cè)試 ( 用于評(píng)估決策支持系統(tǒng)的標(biāo)準(zhǔn) ) 中，Sity 指出 NeuroBlade 的 Accelerator 其性能約比領(lǐng)先的向量化 CPU 實(shí)現(xiàn) ( 例如 Presto-Velox ) 快 4 倍左右。

NeuroBlade 的主張是，通過將數(shù)據(jù)分析任務(wù)從 CPU 卸載至專用硅芯片，企業(yè)可以通過更少的基礎(chǔ)設(shè)施獲得更優(yōu)的性能 — 從而一步到位地降低成本、能耗和復(fù)雜性。

云服務(wù)商也開始關(guān)注這種轉(zhuǎn)變并非孤立發(fā)生。NeuroBlade 已與 Amazon Web Services 緊密合作，將其 Analytics Accelerator 集成到 AWS EC2 F2 實(shí)例中，使云端客戶也能使用這一產(chǎn)品 — 尤其適用于金融數(shù)據(jù)分析或 AI 模型更新等領(lǐng)域。

Sity 告訴我：“這種朝著定制數(shù)據(jù)分析處理方向的轉(zhuǎn)變，與我們?cè)娮C GPU 在 AI 中的崛起非常相似。首先是超大規(guī)模數(shù)據(jù)中心先行跟進(jìn)，然后更廣泛的市場(chǎng)便會(huì)隨之而來?！?/p>

主要的半導(dǎo)體廠商也在紛紛涉足這一領(lǐng)域。隨著 Nvidia 在 AI 加速器市場(chǎng)的統(tǒng)治地位不斷加強(qiáng)，像 Intel 和 AMD 等公司正尋求在相關(guān)計(jì)算領(lǐng)域站穩(wěn)腳跟。這意味著，專用數(shù)據(jù)分析硬件可能成為下一個(gè)重要的 AI 競(jìng)爭(zhēng)戰(zhàn)場(chǎng)。

AI 與數(shù)據(jù)分析的融合不久之前，AI 和數(shù)據(jù)分析分別運(yùn)行在不同的系統(tǒng)上。但如今，多虧稱為 data lakehouse 的平臺(tái)，公司可以利用單一數(shù)據(jù)源同時(shí)支持儀表板和機(jī)器學(xué)習(xí)模型。

盡管這種設(shè)置可以提高效率，但也帶來了新的風(fēng)險(xiǎn)。如果 lakehouse 中的數(shù)據(jù)混亂或過時(shí)，可能會(huì)拖慢一切進(jìn)程 — 從業(yè)務(wù)報(bào)告到 AI 性能均受影響。

傳統(tǒng)的商業(yè)智能工具是為人工操作而構(gòu)建，并且通常按照預(yù)定時(shí)間表運(yùn)行。而 AI 系統(tǒng)則始終在線，需要持續(xù)不斷的數(shù)據(jù) — 實(shí)時(shí)、大規(guī)模的數(shù)據(jù)。

這就是為何加快數(shù)據(jù)準(zhǔn)備和處理速度不再是可有可無的選擇，而是保持模型新鮮、洞察力相關(guān)以及決策迅速的關(guān)鍵所在。

Sity 解釋道：“通過減少數(shù)據(jù)準(zhǔn)備和查詢所需的時(shí)間，企業(yè)能夠更頻繁地更新模型，縮短反饋周期，并促進(jìn)更好的實(shí)時(shí)決策，特別是在金融、網(wǎng)絡(luò)安全、醫(yī)療保健等高風(fēng)險(xiǎn)行業(yè)?！?/p>

重新思考數(shù)據(jù)分析基礎(chǔ)設(shè)施需要明確的是，數(shù)據(jù)分析加速市場(chǎng)仍處于初期階段。因此，其普及可能還需要時(shí)間。企業(yè)在核心基礎(chǔ)設(shè)施上的決策往往較為緩慢，而且更換硅芯片從來都不簡單。但跡象已經(jīng)初現(xiàn)：大型云集成、令人鼓舞的基準(zhǔn)測(cè)試以及越來越多的共識(shí)，即 AI 的真正價(jià)值不僅取決于模型規(guī)模，還取決于你如何高效地移動(dòng)和理解數(shù)據(jù)。

Sity 指出：“我們正處于專用計(jì)算新紀(jì)元的開端。正如 GPU 通過提供專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的硬件而改變了 AI 一樣，數(shù)據(jù)分析處理器將通過解決查詢執(zhí)行中的特定瓶頸來變革我們處理數(shù)據(jù)的方式。”

對(duì)于那些在將 AI 投資轉(zhuǎn)化為實(shí)際投資回報(bào)上苦苦掙扎的組織來說，解決數(shù)據(jù)分析瓶頸或許是第一個(gè)真正的突破口。未來的 AI 勝利不僅僅取決于更大的模型 — 而在于你能多高效地將正確的數(shù)據(jù)傳遞給它們。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#數(shù)據(jù)分析