9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

數(shù)據(jù)分析加速如何解決AI隱藏的瓶頸

2025-04-28 11:24
來源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

快節(jié)奏的 AI 領(lǐng)域從不缺乏頭條新聞。例如,去年 11 月,Cerebras 宣稱他們制造了世界上最快的 AI 推理芯片。今年 4 月,OpenAI 推出了其稱為全新“巨型”且“昂貴”的模型,該模型“讓人感覺仿佛在與一位深思熟慮的人對(duì)話”。

然而,在這些喧囂的表象下,企業(yè)團(tuán)隊(duì)內(nèi)部正發(fā)生著某種變化。

當(dāng)許多 CEO 紛紛大談經(jīng)過精細(xì)調(diào)試的助手、多模態(tài)奇跡和巨資投資時(shí),那些常常深陷在 AI 真正生死攸關(guān)的數(shù)據(jù)戰(zhàn)場(chǎng)中的工程師,卻在觀察著他們的儀表板亮起異常信號(hào):查詢時(shí)間飆升、數(shù)據(jù)管道堵塞、模型停滯。

生成式 AI 的熱潮引發(fā)了一場(chǎng)擴(kuò)展更大模型的競(jìng)賽,其中 OpenAI CEO Sam Altman 是最為直言不諱的擁護(hù)者。然而,在這股炒作浪潮中,潛藏的數(shù)據(jù)分析瓶頸正在削弱許多企業(yè)的 AI 目標(biāo)。

大多數(shù)組織仍在努力理解龐大而混亂的數(shù)據(jù)集。盡管 GPU 已極大地加速了模型訓(xùn)練,但數(shù)據(jù)準(zhǔn)備 — 這一不太引人注目的確保輸入準(zhǔn)確性的工作 — 仍然停留在以 CPU 為主的架構(gòu)上,而這些架構(gòu)從未為這種規(guī)模設(shè)計(jì)。

簡單地說,數(shù)據(jù)量的增長速度遠(yuǎn)快于我們處理數(shù)據(jù)的能力。

正如 NeuroBlade 的 CEO 兼聯(lián)合創(chuàng)始人 Elad Sity 在一次采訪中指出的:“盡管業(yè)界長期以來依賴 CPU 進(jìn)行數(shù)據(jù)準(zhǔn)備,但它們已經(jīng)成為瓶頸 — 消耗了 AI 流程中超過 30% 的資源。”

結(jié)果如何?數(shù)據(jù)管道運(yùn)行緩慢,成本急劇上升,企業(yè)的 AI 目標(biāo)與實(shí)際投資回報(bào)率之間的差距不斷擴(kuò)大。

正如 Sity 所解釋的,這種壓力促使了思維方式的重大轉(zhuǎn)變,業(yè)內(nèi)正積極尋求解決方案。他表示:“這正推動(dòng)著一場(chǎng)靜默的革命,正在重塑數(shù)據(jù)分析 — 從依賴人工洞察轉(zhuǎn)向由 AI 模型消耗并基于不斷增長的數(shù)據(jù)集采取行動(dòng),從而加速數(shù)據(jù)采集和處理的循環(huán)?!?/p>

由 Sity 聯(lián)合創(chuàng)立的以色列半導(dǎo)體初創(chuàng)公司 NeuroBlade 認(rèn)為,答案在于一種專為加速數(shù)據(jù)分析而設(shè)計(jì)的新型硬件。他們的 Analytics Accelerator 不僅僅是一塊更快的 CPU — 而是一種根本不同的架構(gòu),專門用于處理現(xiàn)代數(shù)據(jù)庫工作負(fù)載。

但它能否實(shí)質(zhì)性地重塑企業(yè) AI 的經(jīng)濟(jì)模式呢?

數(shù)據(jù)準(zhǔn)備為何拖慢了 AI 的發(fā)展 企業(yè)正在發(fā)現(xiàn),AI 的瓶頸并不總是出現(xiàn)在模型上,而是在上游的數(shù)據(jù)本身。正如 Pragmatic Institute 的一份報(bào)告顯示的那樣:“數(shù)據(jù)從業(yè)者將 80% 的寶貴時(shí)間花在尋找、清洗和組織數(shù)據(jù)上?!?/p>

雖然對(duì)數(shù)據(jù)科學(xué)家在清洗和準(zhǔn)備數(shù)據(jù)上所花時(shí)間的估計(jì)各不相同,但業(yè)界共識(shí)十分明確:數(shù)據(jù)科學(xué)家在數(shù)據(jù)準(zhǔn)備上投入的時(shí)間遠(yuǎn)遠(yuǎn)超過分析和建模。

數(shù)據(jù)準(zhǔn)備工作包括提取、轉(zhuǎn)換和聯(lián)結(jié)大量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而這些數(shù)據(jù)常常分布在龐大的 lakehouse 環(huán)境中。這構(gòu)成了問題,因?yàn)榇蟛糠止ぷ魅匀灰蕾囃ㄓ眯?CPU 運(yùn)作。

根據(jù) AMD 的數(shù)據(jù),當(dāng)前市場(chǎng)大約支持 200 萬個(gè) CPU 插槽用于數(shù)據(jù)分析工作負(fù)載,預(yù)計(jì)到 2027 年這一數(shù)字將增至 400-500 萬。這實(shí)在是大量通用硬件在支撐著那些并非為 PB 級(jí)規(guī)模運(yùn)行而設(shè)計(jì)的查詢。

正如 Sity 所解釋的:“企業(yè)在傳統(tǒng) CPU 擴(kuò)展方面已經(jīng)遇到了瓶頸。我們看到超大規(guī)模數(shù)據(jù)中心和云服務(wù)提供商每年花費(fèi)數(shù)十億美元僅僅為了維護(hù)其數(shù)據(jù)分析基礎(chǔ)設(shè)施,但回報(bào)卻趨于平緩?!?/p>

增加更多的 CPU 只能帶來有限的提升,因?yàn)閿U(kuò)展集群會(huì)呈指數(shù)級(jí)增加節(jié)點(diǎn)之間的通信開銷 — 這會(huì)引發(fā)性能、功耗和成本的障礙。在某個(gè)臨界點(diǎn)之后,成本(包括硬件、能源和數(shù)據(jù)中心場(chǎng)地費(fèi)用)開始超過性能收益。這種情況在對(duì)延遲十分敏感且陳舊數(shù)據(jù)會(huì)降低模型準(zhǔn)確度的 AI 環(huán)境中尤為嚴(yán)重。

專用數(shù)據(jù)分析處理器的崛起 NeuroBlade 的 Accelerator 大幅提升性能并縮短查詢時(shí)間,從而釋放數(shù)據(jù)分析平臺(tái)的全部潛力。通過將操作從 CPU 卸載到專用硬件上 — 這一過程稱為 pushdown — 它提升了每臺(tái)服務(wù)器的計(jì)算能力,使得比起僅依賴 CPU 的部署,使用更小規(guī)模的集群也能更快速地處理大規(guī)模數(shù)據(jù)集。

正如 Sity 指出的:“通用型 CPU 無法足夠迅速地?cái)U(kuò)展以應(yīng)對(duì)不斷增長的性能需求和數(shù)據(jù)量,這迫使組織不得不擴(kuò)大集群規(guī)模?!?/p>

“專用硬件通過提升每臺(tái)服務(wù)器在數(shù)據(jù)分析上的計(jì)算能力,減少了對(duì)大型集群的依賴,并有助于避免諸如網(wǎng)絡(luò)開銷、功率限制和操作復(fù)雜性等瓶頸?!?/p>

在 TPC-H 基準(zhǔn)測(cè)試 ( 用于評(píng)估決策支持系統(tǒng)的標(biāo)準(zhǔn) ) 中,Sity 指出 NeuroBlade 的 Accelerator 其性能約比領(lǐng)先的向量化 CPU 實(shí)現(xiàn) ( 例如 Presto-Velox ) 快 4 倍左右。

NeuroBlade 的主張是,通過將數(shù)據(jù)分析任務(wù)從 CPU 卸載至專用硅芯片,企業(yè)可以通過更少的基礎(chǔ)設(shè)施獲得更優(yōu)的性能 — 從而一步到位地降低成本、能耗和復(fù)雜性。

云服務(wù)商也開始關(guān)注 這種轉(zhuǎn)變并非孤立發(fā)生。NeuroBlade 已與 Amazon Web Services 緊密合作,將其 Analytics Accelerator 集成到 AWS EC2 F2 實(shí)例中,使云端客戶也能使用這一產(chǎn)品 — 尤其適用于金融數(shù)據(jù)分析或 AI 模型更新等領(lǐng)域。

Sity 告訴我:“這種朝著定制數(shù)據(jù)分析處理方向的轉(zhuǎn)變,與我們?cè)娮C GPU 在 AI 中的崛起非常相似。首先是超大規(guī)模數(shù)據(jù)中心先行跟進(jìn),然后更廣泛的市場(chǎng)便會(huì)隨之而來?!?/p>

主要的半導(dǎo)體廠商也在紛紛涉足這一領(lǐng)域。隨著 Nvidia 在 AI 加速器市場(chǎng)的統(tǒng)治地位不斷加強(qiáng),像 Intel 和 AMD 等公司正尋求在相關(guān)計(jì)算領(lǐng)域站穩(wěn)腳跟。這意味著,專用數(shù)據(jù)分析硬件可能成為下一個(gè)重要的 AI 競(jìng)爭(zhēng)戰(zhàn)場(chǎng)。

AI 與數(shù)據(jù)分析的融合 不久之前,AI 和數(shù)據(jù)分析分別運(yùn)行在不同的系統(tǒng)上。但如今,多虧稱為 data lakehouse 的平臺(tái),公司可以利用單一數(shù)據(jù)源同時(shí)支持儀表板和機(jī)器學(xué)習(xí)模型。

盡管這種設(shè)置可以提高效率,但也帶來了新的風(fēng)險(xiǎn)。如果 lakehouse 中的數(shù)據(jù)混亂或過時(shí),可能會(huì)拖慢一切進(jìn)程 — 從業(yè)務(wù)報(bào)告到 AI 性能均受影響。

傳統(tǒng)的商業(yè)智能工具是為人工操作而構(gòu)建,并且通常按照預(yù)定時(shí)間表運(yùn)行。而 AI 系統(tǒng)則始終在線,需要持續(xù)不斷的數(shù)據(jù) — 實(shí)時(shí)、大規(guī)模的數(shù)據(jù)。

這就是為何加快數(shù)據(jù)準(zhǔn)備和處理速度不再是可有可無的選擇,而是保持模型新鮮、洞察力相關(guān)以及決策迅速的關(guān)鍵所在。

Sity 解釋道:“通過減少數(shù)據(jù)準(zhǔn)備和查詢所需的時(shí)間,企業(yè)能夠更頻繁地更新模型,縮短反饋周期,并促進(jìn)更好的實(shí)時(shí)決策,特別是在金融、網(wǎng)絡(luò)安全、醫(yī)療保健等高風(fēng)險(xiǎn)行業(yè)?!?/p>

重新思考數(shù)據(jù)分析基礎(chǔ)設(shè)施 需要明確的是,數(shù)據(jù)分析加速市場(chǎng)仍處于初期階段。因此,其普及可能還需要時(shí)間。企業(yè)在核心基礎(chǔ)設(shè)施上的決策往往較為緩慢,而且更換硅芯片從來都不簡單。但跡象已經(jīng)初現(xiàn):大型云集成、令人鼓舞的基準(zhǔn)測(cè)試以及越來越多的共識(shí),即 AI 的真正價(jià)值不僅取決于模型規(guī)模,還取決于你如何高效地移動(dòng)和理解數(shù)據(jù)。

Sity 指出:“我們正處于專用計(jì)算新紀(jì)元的開端。正如 GPU 通過提供專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的硬件而改變了 AI 一樣,數(shù)據(jù)分析處理器將通過解決查詢執(zhí)行中的特定瓶頸來變革我們處理數(shù)據(jù)的方式。”

對(duì)于那些在將 AI 投資轉(zhuǎn)化為實(shí)際投資回報(bào)上苦苦掙扎的組織來說,解決數(shù)據(jù)分析瓶頸或許是第一個(gè)真正的突破口。未來的 AI 勝利不僅僅取決于更大的模型 — 而在于你能多高效地將正確的數(shù)據(jù)傳遞給它們。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司

            昭觉县| 綦江县| 武山县| 齐河县| 隆回县| 商城县| 宁远县| 都江堰市| 玉溪市| 涟源市| 瓦房店市| 石楼县| 从江县| 平和县| 辽阳市| 扶余县| 兴安盟| 东乡族自治县| 乌拉特后旗| 梨树县| 富民县| 宝清县| 贡觉县| 南康市| 环江| 琼海市| 垣曲县| 益阳市| 基隆市| 长宁县| 辽中县| 潮州市| 大石桥市| 镇康县| 长治市| 佛山市| 中西区| 乌拉特前旗| 黄龙县| 专栏| 建阳市|