9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

知識(shí)圖譜:企業(yè)AI中的關(guān)鍵紐帶

2025-01-31 16:23
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽(tīng)全文
字號(hào)

大語(yǔ)言模型 (LLM) 擅長(zhǎng)從非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)。但企業(yè)所擁有的大量專有價(jià)值被鎖在關(guān)系數(shù)據(jù)庫(kù)、電子表格和其他結(jié)構(gòu)化文件類型中。

大型企業(yè)長(zhǎng)期以來(lái)一直使用知識(shí)圖譜來(lái)更好地理解數(shù)據(jù)點(diǎn)之間的潛在關(guān)系,但這些圖譜難以構(gòu)建和維護(hù),需要開(kāi)發(fā)人員、數(shù)據(jù)工程師和了解數(shù)據(jù)實(shí)際含義的領(lǐng)域?qū)<腋冻雠Α?/p>

知識(shí)圖譜是位于原始數(shù)據(jù)存儲(chǔ)之上的連接層,將信息轉(zhuǎn)化為具有上下文意義的知識(shí)。因此理論上,它們是幫助 LLM 理解企業(yè)數(shù)據(jù)集含義的絕佳方式,使公司更容易、更高效地找到相關(guān)數(shù)據(jù)嵌入查詢中,同時(shí)使 LLM 本身更快速、更準(zhǔn)確。

2023 年 6 月,Gartner 研究人員表示,數(shù)據(jù)和分析領(lǐng)導(dǎo)者必須利用 LLM 的力量和知識(shí)圖譜的穩(wěn)健性來(lái)構(gòu)建容錯(cuò) AI 應(yīng)用。供應(yīng)商們迅速采取行動(dòng)。第一個(gè)重大公告是圖數(shù)據(jù)庫(kù)公司 NebulaGraph 在 2023 年 9 月發(fā)布的。他們的工具 Graph RAG 使企業(yè)更容易將知識(shí)圖譜作為檢索增強(qiáng)生成 (RAG) 實(shí)現(xiàn)的一部分。

RAG 是指不僅僅向 LLM 發(fā)送簡(jiǎn)單問(wèn)題,公司還通過(guò)從向量數(shù)據(jù)庫(kù)嵌入相關(guān)文檔或信息來(lái)為問(wèn)題添加上下文。沒(méi)有 RAG,LLM 只知道它們被訓(xùn)練的內(nèi)容。有了 RAG,公司可以添加最新信息或公司特有的信息。例如,如果要求 LLM 提供公司產(chǎn)品信息,該產(chǎn)品的手冊(cè)和其他參考資料將非常有幫助。

Microsoft 在 2 月宣布了其 GraphRAG 項(xiàng)目,并在 7 月開(kāi)源。圖數(shù)據(jù)庫(kù)公司 Neo4j 也構(gòu)建了 LLM Graph Transformer 工具,并在 3 月捐贈(zèng)給開(kāi)源 LangChain 項(xiàng)目。4 月,該工具作為 Google 的 GraphRAG 實(shí)現(xiàn)的一部分集成到 Google Cloud 和 Vertex AI 中。

最近,在 12 月初,Amazon 也宣布通過(guò) Amazon Neptune Analytics 支持 GraphRAG,作為 Amazon Bedrock Knowledge Bases 的一部分。

在這些活動(dòng)的推動(dòng)下,Gartner 在 11 月將 GraphRAG 列入其 2024 年生成式 AI 炒作周期,位于夸大期望峰值的半山腰。Gartner 表示 GraphRAG 需要 2-5 年才能達(dá)到成熟。相比之下,位于 GraphRAG 下方的自主代理需要 5-10 年。

Gartner 表示,GraphRAG 提高了 RAG 系統(tǒng)的準(zhǔn)確性、可靠性和可解釋性,但缺點(diǎn)是將知識(shí)圖譜與生成式 AI 模型集成在技術(shù)上復(fù)雜且計(jì)算成本高。更不用說(shuō)知識(shí)圖譜本身就不是一件容易的事。

ISG Research 的數(shù)據(jù)和分析研究總監(jiān) Matt Aslett 說(shuō):"我在數(shù)據(jù)領(lǐng)域工作了 20 年,至少有一半時(shí)間,人們一直在嘗試推廣知識(shí)圖譜。"

他補(bǔ)充說(shuō),一些組織已經(jīng)投資了這項(xiàng)技術(shù),比如大型媒體和出版公司,或從事藥物研發(fā)的制藥公司。例如,諾華使用圖數(shù)據(jù)庫(kù)將其內(nèi)部數(shù)據(jù)與外部研究摘要數(shù)據(jù)庫(kù)鏈接起來(lái),目標(biāo)是鏈接基因、疾病和化合物以加速藥物研發(fā)。

Intuit 使用 Neo4j 技術(shù)在知識(shí)圖譜上構(gòu)建了其安全知識(shí)平臺(tái),每小時(shí)有 7500 萬(wàn)次數(shù)據(jù)庫(kù)更新被輸入圖譜。但 Aslett 說(shuō),大多數(shù)企業(yè)并不使用知識(shí)圖譜。需要整合數(shù)據(jù)的公司通常只進(jìn)行一次性的數(shù)據(jù)集成項(xiàng)目。

他補(bǔ)充說(shuō):"如果你已經(jīng)經(jīng)歷了知識(shí)圖譜的過(guò)程,那么讓這些信息也可用于你的 AI 項(xiàng)目是有意義的。但如果你還沒(méi)有,那么你首先需要完成這個(gè)大項(xiàng)目,將信息轉(zhuǎn)化為知識(shí)圖譜。"

在過(guò)去,這將是一個(gè)令人生畏的提議。但現(xiàn)在生成式 AI 正被用來(lái)幫助創(chuàng)建這些知識(shí)圖譜,加速將企業(yè)數(shù)據(jù)轉(zhuǎn)化為可行洞察的良性循環(huán),同時(shí)提高 LLM 的準(zhǔn)確性,降低成本和延遲。

更好供應(yīng)的需求

知識(shí)圖譜可以內(nèi)置于數(shù)據(jù)庫(kù)中,位于數(shù)據(jù)庫(kù)之上,鏈接多個(gè)數(shù)據(jù)庫(kù),甚至可以從其他來(lái)源獲取信息,所有這些都無(wú)需更改底層數(shù)據(jù)結(jié)構(gòu)。

在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中,數(shù)據(jù)點(diǎn)之間的關(guān)系是數(shù)據(jù)庫(kù)結(jié)構(gòu)本身的一部分,通常僅限于關(guān)鍵信息。例如,客戶記錄可能通過(guò)共同的客戶識(shí)別號(hào)與個(gè)別交易鏈接。而這些交易又可以通過(guò)共同的產(chǎn)品 鏈接到產(chǎn)品數(shù)據(jù)庫(kù)。

但要發(fā)現(xiàn)特定群體的客戶都有相同的偏好會(huì)稍微復(fù)雜一些,當(dāng)關(guān)系更加微妙時(shí),事情會(huì)變得更加復(fù)雜。

通過(guò)知識(shí)圖譜明確所有這些關(guān)系,可以在需要為 LLM 提供回答問(wèn)題所需的上下文時(shí)更容易提取所有相關(guān)信息,從而產(chǎn)生更準(zhǔn)確的結(jié)果。

企業(yè)通常使用 RAG 嵌入來(lái)用其專有知識(shí)增強(qiáng) LLM 查詢,但專家估計(jì)準(zhǔn)確率通常高達(dá) 70%。

Data2(一家致力于解決準(zhǔn)確性問(wèn)題的軟件創(chuàng)業(yè)公司)的 CTO Daniel Bukowski 說(shuō):"傳統(tǒng)的檢索增強(qiáng)生成等方法通常無(wú)法達(dá)到 80% 以上的準(zhǔn)確率。雖然這對(duì)某些用途可能足夠,但許多行業(yè)和情況需要達(dá)到或接近 99%。"

Neo4j 的 COO Sudhir Hasbe 補(bǔ)充說(shuō),LLM 針對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了優(yōu)化。"但很多企業(yè)數(shù)據(jù)也是結(jié)構(gòu)化的。那么如何將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合起來(lái)回答問(wèn)題呢?你希望能夠獲得答案,更重要的是,解釋為什么你得到這個(gè)答案。"

他說(shuō),知識(shí)圖譜減少了幻覺(jué),但它們也有助于解決可解釋性挑戰(zhàn)。Infosys 的 EVP Anant Adya 表示,知識(shí)圖譜位于傳統(tǒng)數(shù)據(jù)庫(kù)之上,提供連接和更深入理解的層面。他說(shuō):"你可以進(jìn)行更好的上下文搜索,這有助于你獲得更好的洞察。"

Infosys 現(xiàn)在正在運(yùn)行概念驗(yàn)證,使用知識(shí)圖譜將公司多年積累的知識(shí)與生成式 AI 工具結(jié)合起來(lái)。他說(shuō):"我們正在識(shí)別那些可以產(chǎn)生更大影響的用例。"這些包括自動(dòng)知識(shí)提取、預(yù)算編制、采購(gòu)和企業(yè)規(guī)劃。他補(bǔ)充說(shuō):"但這還很早期,還沒(méi)有投入生產(chǎn)。"

LinkedIn 是一家部署知識(shí)圖譜來(lái)提高生成式 AI 性能并撰寫(xiě)相關(guān)文章的公司。在 4 月發(fā)表的一篇論文中,LinkedIn 報(bào)告稱,將 RAG 與知識(shí)圖譜結(jié)合幫助其提高客戶服務(wù)生成式 AI 應(yīng)用的準(zhǔn)確率達(dá) 78%。在此前的六個(gè)月里,這種組合被 LinkedIn 的客戶服務(wù)團(tuán)隊(duì)使用,將每個(gè)問(wèn)題的中位數(shù)解決時(shí)間減少了 29%。

降低成本和延遲

當(dāng)將生成式 AI 功能添加到企業(yè)工作流程中時(shí),查詢通常會(huì)增加相關(guān)信息,通常來(lái)自向量數(shù)據(jù)庫(kù)??梢蕴砑拥讲樵冎械男畔⒃蕉啵琇LM 就有更多上下文來(lái)生成響應(yīng)。

EY 的技術(shù)、媒體、娛樂(lè)和電信 AI 負(fù)責(zé)人 Vamsi Duvvuri 說(shuō):"但我提供的上下文和文檔越多,RAG 就變得越來(lái)越大,我的系統(tǒng)也變得越來(lái)越慢。"此外,生成式 AI 供應(yīng)商通常按 token 收費(fèi);他們的模型處理的信息越多,成本就越高。

根據(jù) Microsoft 4 月的研究論文,GraphRAG 所需的 token 減少了高達(dá) 97%,同時(shí)仍然提供比標(biāo)準(zhǔn) RAG 更全面的答案。

當(dāng)知識(shí)圖譜作為 RAG 基礎(chǔ)設(shè)施的一部分使用時(shí),可以使用顯式連接快速鎖定最相關(guān)的信息。Duvvuri 說(shuō):"它變得非常高效。"他說(shuō)公司正在利用這一點(diǎn)。"棘手的問(wèn)題是有多少這樣的解決方案在生產(chǎn)中看到,這是相當(dāng)罕見(jiàn)的。但這對(duì)許多生成式 AI 應(yīng)用來(lái)說(shuō)都是如此。"

利用 LLM

創(chuàng)建知識(shí)圖譜的挑戰(zhàn)在于需要真正的專業(yè)知識(shí)。對(duì)于大型復(fù)雜數(shù)據(jù)集來(lái)說(shuō),這尤其困難,而這恰恰是最需要知識(shí)圖譜的地方。創(chuàng)建知識(shí)圖譜的大部分硬工作是建立本體,如定義術(shù)語(yǔ)、決定分類,以及找出兩個(gè)不同數(shù)據(jù)之間的某種關(guān)聯(lián)。ISG 的 Aslett 說(shuō):"這是生成式 AI 可以擅長(zhǎng)的領(lǐng)域。"他說(shuō),一些供應(yīng)商已經(jīng)在嘗試提供這種功能,但工具仍處于早期開(kāi)發(fā)階段。

在生成式 AI 之前,公司曾試圖用機(jī)器學(xué)習(xí)創(chuàng)建知識(shí)圖譜。Duvvuri 說(shuō):"我們過(guò)去使用自然語(yǔ)言處理來(lái)創(chuàng)建知識(shí)圖譜,使用命名實(shí)體識(shí)別并使用共現(xiàn)創(chuàng)建關(guān)系。創(chuàng)建過(guò)程非常耗時(shí),因?yàn)?NLP 管道需要訓(xùn)練。這是一種高投入的方式。"

今天,LLM 顯著減少了創(chuàng)建知識(shí)圖譜所需的時(shí)間。

他說(shuō):"我個(gè)人使用大語(yǔ)言模型創(chuàng)建過(guò)知識(shí)圖譜。這是提取關(guān)系的絕佳方式。使用大語(yǔ)言模型加速了知識(shí)圖譜的力量,將知識(shí)圖譜添加到 LLM 中加速了其性能并改善了成本。"

卡內(nèi)基梅隆大學(xué)泰珀商學(xué)院會(huì)計(jì)學(xué)教授 Pierre Liang 說(shuō),生成式 AI 有一種不可思議的方式來(lái)生成以前不可能生成的知識(shí)。他說(shuō):"我在實(shí)驗(yàn)室里看到過(guò)這樣的例子。企業(yè)使用 LLM 幫助我們生成和使用知識(shí)圖譜的機(jī)會(huì)非常有前途。"

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司

            永兴县| 宿松县| 密云县| 安多县| 通城县| 新余市| 涟水县| 北京市| 宁乡县| 沧源| 沐川县| 泰来县| 台中市| 张家界市| 巴林左旗| 廉江市| 丰宁| 宝丰县| 达孜县| 新巴尔虎右旗| 大安市| 花垣县| 和平区| 涟水县| 修武县| 望谟县| 中宁县| 伊春市| 茌平县| 肇庆市| 米林县| 青铜峡市| 瑞安市| 滨州市| 益阳市| 东安县| 东兰县| 会理县| 六枝特区| 仁怀市| 渝中区|