知識(shí)圖譜：企業(yè)AI中的關(guān)鍵紐帶

2025-01-31 16:23

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

大語(yǔ)言模型 (LLM) 擅長(zhǎng)從非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)。但企業(yè)所擁有的大量專有價(jià)值被鎖在關(guān)系數(shù)據(jù)庫(kù)、電子表格和其他結(jié)構(gòu)化文件類型中。

大型企業(yè)長(zhǎng)期以來(lái)一直使用知識(shí)圖譜來(lái)更好地理解數(shù)據(jù)點(diǎn)之間的潛在關(guān)系，但這些圖譜難以構(gòu)建和維護(hù)，需要開(kāi)發(fā)人員、數(shù)據(jù)工程師和了解數(shù)據(jù)實(shí)際含義的領(lǐng)域?qū)＜腋冻雠Α?/p>

知識(shí)圖譜是位于原始數(shù)據(jù)存儲(chǔ)之上的連接層，將信息轉(zhuǎn)化為具有上下文意義的知識(shí)。因此理論上，它們是幫助 LLM 理解企業(yè)數(shù)據(jù)集含義的絕佳方式，使公司更容易、更高效地找到相關(guān)數(shù)據(jù)嵌入查詢中，同時(shí)使 LLM 本身更快速、更準(zhǔn)確。

2023 年 6 月，Gartner 研究人員表示，數(shù)據(jù)和分析領(lǐng)導(dǎo)者必須利用 LLM 的力量和知識(shí)圖譜的穩(wěn)健性來(lái)構(gòu)建容錯(cuò) AI 應(yīng)用。供應(yīng)商們迅速采取行動(dòng)。第一個(gè)重大公告是圖數(shù)據(jù)庫(kù)公司 NebulaGraph 在 2023 年 9 月發(fā)布的。他們的工具 Graph RAG 使企業(yè)更容易將知識(shí)圖譜作為檢索增強(qiáng)生成 (RAG) 實(shí)現(xiàn)的一部分。

RAG 是指不僅僅向 LLM 發(fā)送簡(jiǎn)單問(wèn)題，公司還通過(guò)從向量數(shù)據(jù)庫(kù)嵌入相關(guān)文檔或信息來(lái)為問(wèn)題添加上下文。沒(méi)有 RAG，LLM 只知道它們被訓(xùn)練的內(nèi)容。有了 RAG，公司可以添加最新信息或公司特有的信息。例如，如果要求 LLM 提供公司產(chǎn)品信息，該產(chǎn)品的手冊(cè)和其他參考資料將非常有幫助。

Microsoft 在 2 月宣布了其 GraphRAG 項(xiàng)目，并在 7 月開(kāi)源。圖數(shù)據(jù)庫(kù)公司 Neo4j 也構(gòu)建了 LLM Graph Transformer 工具，并在 3 月捐贈(zèng)給開(kāi)源 LangChain 項(xiàng)目。4 月，該工具作為 Google 的 GraphRAG 實(shí)現(xiàn)的一部分集成到 Google Cloud 和 Vertex AI 中。

最近，在 12 月初，Amazon 也宣布通過(guò) Amazon Neptune Analytics 支持 GraphRAG，作為 Amazon Bedrock Knowledge Bases 的一部分。

在這些活動(dòng)的推動(dòng)下，Gartner 在 11 月將 GraphRAG 列入其 2024 年生成式 AI 炒作周期，位于夸大期望峰值的半山腰。Gartner 表示 GraphRAG 需要 2-5 年才能達(dá)到成熟。相比之下，位于 GraphRAG 下方的自主代理需要 5-10 年。

Gartner 表示，GraphRAG 提高了 RAG 系統(tǒng)的準(zhǔn)確性、可靠性和可解釋性，但缺點(diǎn)是將知識(shí)圖譜與生成式 AI 模型集成在技術(shù)上復(fù)雜且計(jì)算成本高。更不用說(shuō)知識(shí)圖譜本身就不是一件容易的事。

ISG Research 的數(shù)據(jù)和分析研究總監(jiān) Matt Aslett 說(shuō)："我在數(shù)據(jù)領(lǐng)域工作了 20 年，至少有一半時(shí)間，人們一直在嘗試推廣知識(shí)圖譜。"

他補(bǔ)充說(shuō)，一些組織已經(jīng)投資了這項(xiàng)技術(shù)，比如大型媒體和出版公司，或從事藥物研發(fā)的制藥公司。例如，諾華使用圖數(shù)據(jù)庫(kù)將其內(nèi)部數(shù)據(jù)與外部研究摘要數(shù)據(jù)庫(kù)鏈接起來(lái)，目標(biāo)是鏈接基因、疾病和化合物以加速藥物研發(fā)。

Intuit 使用 Neo4j 技術(shù)在知識(shí)圖譜上構(gòu)建了其安全知識(shí)平臺(tái)，每小時(shí)有 7500 萬(wàn)次數(shù)據(jù)庫(kù)更新被輸入圖譜。但 Aslett 說(shuō)，大多數(shù)企業(yè)并不使用知識(shí)圖譜。需要整合數(shù)據(jù)的公司通常只進(jìn)行一次性的數(shù)據(jù)集成項(xiàng)目。

他補(bǔ)充說(shuō)："如果你已經(jīng)經(jīng)歷了知識(shí)圖譜的過(guò)程，那么讓這些信息也可用于你的 AI 項(xiàng)目是有意義的。但如果你還沒(méi)有，那么你首先需要完成這個(gè)大項(xiàng)目，將信息轉(zhuǎn)化為知識(shí)圖譜。"

在過(guò)去，這將是一個(gè)令人生畏的提議。但現(xiàn)在生成式 AI 正被用來(lái)幫助創(chuàng)建這些知識(shí)圖譜，加速將企業(yè)數(shù)據(jù)轉(zhuǎn)化為可行洞察的良性循環(huán)，同時(shí)提高 LLM 的準(zhǔn)確性，降低成本和延遲。

更好供應(yīng)的需求

知識(shí)圖譜可以內(nèi)置于數(shù)據(jù)庫(kù)中，位于數(shù)據(jù)庫(kù)之上，鏈接多個(gè)數(shù)據(jù)庫(kù)，甚至可以從其他來(lái)源獲取信息，所有這些都無(wú)需更改底層數(shù)據(jù)結(jié)構(gòu)。

在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中，數(shù)據(jù)點(diǎn)之間的關(guān)系是數(shù)據(jù)庫(kù)結(jié)構(gòu)本身的一部分，通常僅限于關(guān)鍵信息。例如，客戶記錄可能通過(guò)共同的客戶識(shí)別號(hào)與個(gè)別交易鏈接。而這些交易又可以通過(guò)共同的產(chǎn)品鏈接到產(chǎn)品數(shù)據(jù)庫(kù)。

但要發(fā)現(xiàn)特定群體的客戶都有相同的偏好會(huì)稍微復(fù)雜一些，當(dāng)關(guān)系更加微妙時(shí)，事情會(huì)變得更加復(fù)雜。

通過(guò)知識(shí)圖譜明確所有這些關(guān)系，可以在需要為 LLM 提供回答問(wèn)題所需的上下文時(shí)更容易提取所有相關(guān)信息，從而產(chǎn)生更準(zhǔn)確的結(jié)果。

企業(yè)通常使用 RAG 嵌入來(lái)用其專有知識(shí)增強(qiáng) LLM 查詢，但專家估計(jì)準(zhǔn)確率通常高達(dá) 70%。

Data2（一家致力于解決準(zhǔn)確性問(wèn)題的軟件創(chuàng)業(yè)公司）的 CTO Daniel Bukowski 說(shuō)："傳統(tǒng)的檢索增強(qiáng)生成等方法通常無(wú)法達(dá)到 80% 以上的準(zhǔn)確率。雖然這對(duì)某些用途可能足夠，但許多行業(yè)和情況需要達(dá)到或接近 99%。"

Neo4j 的 COO Sudhir Hasbe 補(bǔ)充說(shuō)，LLM 針對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了優(yōu)化。"但很多企業(yè)數(shù)據(jù)也是結(jié)構(gòu)化的。那么如何將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合起來(lái)回答問(wèn)題呢？你希望能夠獲得答案，更重要的是，解釋為什么你得到這個(gè)答案。"

他說(shuō)，知識(shí)圖譜減少了幻覺(jué)，但它們也有助于解決可解釋性挑戰(zhàn)。Infosys 的 EVP Anant Adya 表示，知識(shí)圖譜位于傳統(tǒng)數(shù)據(jù)庫(kù)之上，提供連接和更深入理解的層面。他說(shuō)："你可以進(jìn)行更好的上下文搜索，這有助于你獲得更好的洞察。"

Infosys 現(xiàn)在正在運(yùn)行概念驗(yàn)證，使用知識(shí)圖譜將公司多年積累的知識(shí)與生成式 AI 工具結(jié)合起來(lái)。他說(shuō)："我們正在識(shí)別那些可以產(chǎn)生更大影響的用例。"這些包括自動(dòng)知識(shí)提取、預(yù)算編制、采購(gòu)和企業(yè)規(guī)劃。他補(bǔ)充說(shuō)："但這還很早期，還沒(méi)有投入生產(chǎn)。"

LinkedIn 是一家部署知識(shí)圖譜來(lái)提高生成式 AI 性能并撰寫(xiě)相關(guān)文章的公司。在 4 月發(fā)表的一篇論文中，LinkedIn 報(bào)告稱，將 RAG 與知識(shí)圖譜結(jié)合幫助其提高客戶服務(wù)生成式 AI 應(yīng)用的準(zhǔn)確率達(dá) 78%。在此前的六個(gè)月里，這種組合被 LinkedIn 的客戶服務(wù)團(tuán)隊(duì)使用，將每個(gè)問(wèn)題的中位數(shù)解決時(shí)間減少了 29%。

降低成本和延遲

當(dāng)將生成式 AI 功能添加到企業(yè)工作流程中時(shí)，查詢通常會(huì)增加相關(guān)信息，通常來(lái)自向量數(shù)據(jù)庫(kù)?？梢蕴砑拥讲樵冎械男畔⒃蕉啵琇LM 就有更多上下文來(lái)生成響應(yīng)。

EY 的技術(shù)、媒體、娛樂(lè)和電信 AI 負(fù)責(zé)人 Vamsi Duvvuri 說(shuō)："但我提供的上下文和文檔越多，RAG 就變得越來(lái)越大，我的系統(tǒng)也變得越來(lái)越慢。"此外，生成式 AI 供應(yīng)商通常按 token 收費(fèi)；他們的模型處理的信息越多，成本就越高。

根據(jù) Microsoft 4 月的研究論文，GraphRAG 所需的 token 減少了高達(dá) 97%，同時(shí)仍然提供比標(biāo)準(zhǔn) RAG 更全面的答案。

當(dāng)知識(shí)圖譜作為 RAG 基礎(chǔ)設(shè)施的一部分使用時(shí)，可以使用顯式連接快速鎖定最相關(guān)的信息。Duvvuri 說(shuō)："它變得非常高效。"他說(shuō)公司正在利用這一點(diǎn)。"棘手的問(wèn)題是有多少這樣的解決方案在生產(chǎn)中看到，這是相當(dāng)罕見(jiàn)的。但這對(duì)許多生成式 AI 應(yīng)用來(lái)說(shuō)都是如此。"

利用 LLM

創(chuàng)建知識(shí)圖譜的挑戰(zhàn)在于需要真正的專業(yè)知識(shí)。對(duì)于大型復(fù)雜數(shù)據(jù)集來(lái)說(shuō)，這尤其困難，而這恰恰是最需要知識(shí)圖譜的地方。創(chuàng)建知識(shí)圖譜的大部分硬工作是建立本體，如定義術(shù)語(yǔ)、決定分類，以及找出兩個(gè)不同數(shù)據(jù)之間的某種關(guān)聯(lián)。ISG 的 Aslett 說(shuō)："這是生成式 AI 可以擅長(zhǎng)的領(lǐng)域。"他說(shuō)，一些供應(yīng)商已經(jīng)在嘗試提供這種功能，但工具仍處于早期開(kāi)發(fā)階段。

在生成式 AI 之前，公司曾試圖用機(jī)器學(xué)習(xí)創(chuàng)建知識(shí)圖譜。Duvvuri 說(shuō)："我們過(guò)去使用自然語(yǔ)言處理來(lái)創(chuàng)建知識(shí)圖譜，使用命名實(shí)體識(shí)別并使用共現(xiàn)創(chuàng)建關(guān)系。創(chuàng)建過(guò)程非常耗時(shí)，因?yàn)?NLP 管道需要訓(xùn)練。這是一種高投入的方式。"

今天，LLM 顯著減少了創(chuàng)建知識(shí)圖譜所需的時(shí)間。

他說(shuō)："我個(gè)人使用大語(yǔ)言模型創(chuàng)建過(guò)知識(shí)圖譜。這是提取關(guān)系的絕佳方式。使用大語(yǔ)言模型加速了知識(shí)圖譜的力量，將知識(shí)圖譜添加到 LLM 中加速了其性能并改善了成本。"

卡內(nèi)基梅隆大學(xué)泰珀商學(xué)院會(huì)計(jì)學(xué)教授 Pierre Liang 說(shuō)，生成式 AI 有一種不可思議的方式來(lái)生成以前不可能生成的知識(shí)。他說(shuō)："我在實(shí)驗(yàn)室里看到過(guò)這樣的例子。企業(yè)使用 LLM 幫助我們生成和使用知識(shí)圖譜的機(jī)會(huì)非常有前途。"

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#知識(shí)圖譜