下載客戶端

登錄

從ACL 2020看知識(shí)圖譜研究進(jìn)展

2020-07-20 18:07

來源：澎湃新聞·澎湃號(hào)·湃客

原創(chuàng) Synced 機(jī)器之心

機(jī)器之心分析師網(wǎng)絡(luò)

作者：仵冀穎

編輯：H4O

本文選擇了 ACL 2020 中三篇與知識(shí)圖譜相關(guān)的文章進(jìn)行詳細(xì)解讀。

國(guó)際計(jì)算語言學(xué)協(xié)會(huì)年會(huì) ACL 2020 按照原定時(shí)間已經(jīng)于 7 月 5 日至 10 日召開，受到疫情影響，本次會(huì)議全部改為線上會(huì)議。ACL 2020 共收到了 3429 篇論文，收錄其中 779 篇論文，包括 571 篇長(zhǎng)論文和 208 篇短論文，論文的總接收率為 22.7%。ACL 2020 收錄文章數(shù)量前五位的主題分別是：機(jī)器學(xué)習(xí)（Machine Learning for NLP）、對(duì)話和交互技術(shù)（Dialog and Interactive Technologies）、機(jī)器翻譯（Machine Translation）、信息提?。↖nformation Extraction）和 NLP 應(yīng)用（NLP Application）。

目前，ACL 2020 收錄的文章大部分已經(jīng)在網(wǎng)上公開。從論文的題目、主題等關(guān)鍵詞可以看出，主要的研究方向包括人機(jī)對(duì)話，多模態(tài)、多語言和多領(lǐng)域，圖神經(jīng)網(wǎng)絡(luò)，以及經(jīng)典的信息提取類問題，包括實(shí)體抽?。∟ER）、事件抽取以及關(guān)系抽取等。研究手段則仍集中于各類機(jī)器學(xué)習(xí)的方法，包括：神經(jīng)網(wǎng)絡(luò)、預(yù)訓(xùn)練、注意力、知識(shí)圖譜等。還有一些文章特別關(guān)注了低資源、少樣本等實(shí)際應(yīng)用中經(jīng)常會(huì)遇到的問題。

我們選擇了 ACL 2020 中三篇與知識(shí)圖譜相關(guān)的文章進(jìn)行詳細(xì)解讀。其中，第一篇重點(diǎn)關(guān)注知識(shí)圖譜本身，提出了一種基于距離的知識(shí)圖譜中的源實(shí)體到目標(biāo)實(shí)體的鏈接預(yù)測(cè)（Link Prediction）方法。第二篇文章是知識(shí)圖譜在摘要生成任務(wù)中的應(yīng)用，第三篇文章是知識(shí)圖譜在會(huì)話生成任務(wù)中的應(yīng)用。

1. Orthogonal Relation Transforms with Graph Context Modeling for Knowledge Graph Embedding

論文地址：https://arxiv.org/pdf/1911.04910.pdf

本文是京東人工智能研究院的一篇文章，具體是提出了一種新的基于距離的知識(shí)圖譜嵌入方法，稱為基于圖上下文的正交變換嵌入（ orthogonal transform embedding，OTE），以解決知識(shí)圖譜中 1-to-N、N-to-1 和 N-to-N 的鏈接預(yù)測(cè)問題。京東人工智能研究院在關(guān)于京東智聯(lián)云的工作中，應(yīng)用知識(shí)圖譜技術(shù)構(gòu)建了基于商品的「商品圖譜」，并將「商品圖譜」與語言模型相結(jié)合實(shí)現(xiàn)了營(yíng)銷內(nèi)容智能生成，可以說是 NLP 技術(shù)很好的一個(gè)應(yīng)用實(shí)例。本文是關(guān)于知識(shí)圖譜本身構(gòu)建的工作，目的是改進(jìn)知識(shí)圖譜中源實(shí)體到目標(biāo)實(shí)體的鏈接預(yù)測(cè)水平。

1.1 背景知識(shí)介紹

知識(shí)圖譜（Knowledge Graph）是一種多關(guān)系圖，其中，節(jié)點(diǎn)表示實(shí)體，邊表示實(shí)體之間的關(guān)系。知識(shí)圖譜存儲(chǔ)來自不同來源的關(guān)于人、地方和世界的事實(shí)。這些事實(shí)以三元組形式保存（頭實(shí)體、關(guān)系實(shí)體、尾部實(shí)體），并表示為(h, r, t) 。知識(shí)圖譜在很多 NLP 領(lǐng)域中應(yīng)用獲得了很好的效果，例如推薦系統(tǒng)、問答系統(tǒng)，文本生成任務(wù)等。不過，知識(shí)圖譜需要定期更新事實(shí)，為此，人們提出了許多知識(shí)圖譜嵌入方法來完成知識(shí)圖譜的鏈接預(yù)測(cè)（Link Prediction）。

本文重點(diǎn)關(guān)注的就是知識(shí)圖譜中的鏈接預(yù)測(cè)問題。1-to-N、N-to-1 和 N-to-N 的鏈接預(yù)測(cè)是目前知識(shí)圖譜鏈接預(yù)測(cè)中的主要難點(diǎn)。以圖 1 中所示為例，關(guān)系「profession」展示了一個(gè) N-to-N 的例子，該示例中重點(diǎn)關(guān)注的邊被突出顯示為綠色。假設(shè)三元組（SergeiRachmaninoff, Profession, Pianist）是未知的。鏈接預(yù)測(cè)模型以「SergeiRachmaninoff」和關(guān)系「Profession」為基礎(chǔ)，對(duì)知識(shí)圖譜中的所有實(shí)體進(jìn)行排序，對(duì) 「Pianist」（「鋼琴家」）進(jìn)行預(yù)測(cè)。實(shí)體「SergeiRachmaninoff」通過關(guān)系「profession」連接到多個(gè)作為頭實(shí)體的實(shí)體，而作為尾部實(shí)體的「Pianist」也通過關(guān)系「profession」到達(dá)多個(gè)實(shí)體。從單個(gè)實(shí)體 - 關(guān)系對(duì)出發(fā)，會(huì)出現(xiàn)映射到多個(gè)不同的實(shí)體的情況，這使得 N-to-N 預(yù)測(cè)變得非常困難。同樣的問題也發(fā)生在 1-to-N 和 N-to-1 的預(yù)測(cè)中。

圖 1. FB15k-237 中的知識(shí)圖譜快照，其中，實(shí)體用金色塊表示。

知識(shí)圖譜嵌入方法大致可以分為兩類 [1]：基于距離的模型和語義匹配模型?；诰嚯x的模型也被稱為加性模型，因?yàn)樗鼘㈩^和尾部實(shí)體投影到同一個(gè)嵌入空間，使用兩個(gè)實(shí)體嵌入之間的距離評(píng)分來衡量給定三元組的合理性。TransE 是最有代表性的基于距離的模型[2]。語義匹配模型通常采用乘法得分函數(shù)來計(jì)算給定三元組的似然性。本文采用的是基于距離的模型，通過將上下文信息直接集成到距離評(píng)分函數(shù)中，實(shí)現(xiàn)在鏈接預(yù)測(cè)的過程中引入知識(shí)圖譜的結(jié)構(gòu)以及相鄰節(jié)點(diǎn)和邊的上下文信息。

1.2 方法介紹

把知識(shí)圖譜看作是一個(gè)三元組的集合 D={(h,r,t) }，其中 V 是圖的節(jié)點(diǎn)集，r 是圖的邊集。每個(gè)三元組都有一個(gè)頭實(shí)體 h 和尾部實(shí)體 t。關(guān)系 r 用從頭到尾的方向連接兩個(gè)實(shí)體。1-to-N、N-to-1 和 N-to-N 的鏈接預(yù)測(cè)問題是通過如下方法解決的：1）在嵌入空間組上實(shí)現(xiàn)的正交關(guān)系變換。每個(gè)小組都是獨(dú)立建模和評(píng)分的，最終得分是所有小組得分的總和。因此，每個(gè)組可以解決實(shí)體 - 關(guān)系對(duì)的不同方面，以解決 1-to-N 和 N-to-N 關(guān)系映射問題；2）引入有向圖上下文，整合知識(shí)圖譜結(jié)構(gòu)信息，減少歧義。

本文的工作主要受到 RotatE 啟發(fā)[3]。在 RotatE 中，距離評(píng)分是通過定義在復(fù)域上的 Hadamard 乘積（元素級(jí)）來完成的。對(duì)于三元組(h,r,t)，對(duì)應(yīng)的嵌入為 e_h, θ_r, e_t。對(duì)應(yīng)關(guān)系和頭實(shí)體的 t 的投影 e_t 以正交變換形式表達(dá)，如下所示：

其中，M_r(i) 為 2D 正交矩陣。雖然 RotatE 是一種簡(jiǎn)單有效的知識(shí)圖鏈接預(yù)測(cè)方法，但它定義在二維復(fù)域中，建模能力有限。

本文考慮的是正交嵌入變換（Orthogonal Transform Embedding，OTE）。使用用 e_h、M_r、e_t 來表示頭、關(guān)系和尾實(shí)體的嵌入。實(shí)體嵌入 e_x，其中 x ={ rh， tx}，進(jìn)一步的劃分為 K 個(gè)子嵌入, e_x=[e_x(1);...;e_x(K)]。對(duì)于每個(gè)關(guān)系 t 的子嵌入 e_t(i)，定義從 h 和 r 到 t 的映射為：

? 表示 Gram-Schmidt 過程。? (M_r(i)) 為正交矩陣。進(jìn)一步的，使用標(biāo)量張量 s_r(i) 來分別縮放每組嵌入的 L2 范數(shù)。則上式改寫為：

相應(yīng)的距離評(píng)分函數(shù)定義為：

對(duì)于頭實(shí)體 h 的每個(gè)子嵌入 e_h(i) ，定義從 r 和 t 到 h 的投影，如下所示：

對(duì)應(yīng)的距離評(píng)分函數(shù)為：

知識(shí)圖譜是有向圖，即存在(h, r, t)，不代表存在(t, r, h)。因此，對(duì)于知識(shí)圖譜中給定的實(shí)體，有兩種上下文信息：進(jìn)入它的節(jié)點(diǎn)和離開它的節(jié)點(diǎn)。特別地，在本文中，對(duì)于每個(gè)實(shí)體 e 考慮以下兩個(gè)上下文設(shè)置：

如果 e 是尾，那么尾為 e 的訓(xùn)練三元組中的所有（head, relation）對(duì)定義為「頭 -- 關(guān)系對(duì)上下文」（Head Relation Pair Context）；

如果 e 是頭，那么訓(xùn)練三元組中頭為 e 的所有 (relation, tail) 對(duì)都被定義為「關(guān)系—尾對(duì)上下文」（Relation Tail Pair Context）。

給定一個(gè)尾 t，三元組中以 t 為尾的全部頭 -- 關(guān)系對(duì) (h’, r’) 看作是 t 的圖上下文，定義為 N_g(t)。首先，計(jì)算頭 -- 關(guān)系對(duì)上下文表示如下：

其中，e_t 為 t 的嵌入，f(h’, r’)為利用公式（2）計(jì)算得到的表示。當(dāng) N_g(t)為空時(shí)，在式（6）中引入 e_t，從而保證上下文表示的計(jì)算成為可能。這可以看作是上下文表示計(jì)算的一種加性平滑。然后，計(jì)算 t 的頭相關(guān)上下文和相應(yīng)的基于正交變換的三元組表示的距離，如下所示：

圖上下文建模沒有引入新的參數(shù)，因?yàn)橄鬟f是通過 OTE 實(shí)體關(guān)系映射來完成的，通過替換 OTE，圖上下文可以很容易地應(yīng)用到其他平移嵌入算法中，如 RotatE 和 TransE 等。

對(duì)于給定的頭實(shí)體 h，將頭部為 h 的三元組的所有尾 -- 關(guān)系對(duì)視為其圖形上下文，并表示為 N_g(h) 。首先，計(jì)算尾 -- 關(guān)系對(duì)上下文表示如下：

其中 f(r’,t’)為公式（4）的計(jì)算結(jié)果。然后，計(jì)算 h 的尾 -- 關(guān)系對(duì)上下文和相應(yīng)的基于正交變換的三元組表示的距離，如下所示：

進(jìn)一步，將上面討論的四個(gè)距離分?jǐn)?shù)（式 3、式 5、式 7 和式 9）結(jié)合起來作為圖上下文正交變換嵌入（Graph Context-OTE，GC-OTE）的最終距離分?jǐn)?shù)，用于訓(xùn)練和推理。

因此，完整的 GC-OTE 模型可以看作是 K 個(gè)局部 GC-OTE 模型的集合。

1.3 實(shí)驗(yàn)分析

本文使用兩個(gè)基準(zhǔn)數(shù)據(jù)庫（FB15k-237 和 WN18RR）來評(píng)估性能。FB15k-237[12]數(shù)據(jù)集包含知識(shí)庫關(guān)系三元組和自由基實(shí)體對(duì)的文本提及。FB15k-237 中的知識(shí)庫三元組是 FB15K[13]的子集，最初取自 Freebase，但在構(gòu)建 FB15k-237 時(shí)取消了逆關(guān)系。WN18RR[14]源自 WN18，WN18 是 WordNet 的一個(gè)子集。WN18 由 18 個(gè)關(guān)系和 40943 個(gè)實(shí)體組成。然而，WN18 中許多文本三元組是通過從訓(xùn)練集中反轉(zhuǎn)三元組得到的。因此，創(chuàng)建 WN18RR 的目的是以確保評(píng)估數(shù)據(jù)集不會(huì)因冗余的反向關(guān)系而出現(xiàn)測(cè)試泄漏。

兩個(gè)庫中的鏈接預(yù)測(cè)性能見表 1。從表 1 可以看出：1）在 FB15k-237 上，OTE 的性能優(yōu)于 RotatE，GC-OTE 在所有指標(biāo)上都優(yōu)于其他所有模型。具體地說，MRR 從 0.338（RotatE）增加到 0.361，相對(duì)性能提高了約 7%。OTE 將子嵌入維度數(shù)從 2 增加到 20，每一個(gè)圖上下文都貢獻(xiàn)了大約一半的改進(jìn)；2）在 WN18RR 上，OTE 的性能優(yōu)于 RotatE 和 GC-OTE，達(dá)到了最新的最優(yōu)結(jié)果（據(jù)作者從已發(fā)表的論文中所知）。這些實(shí)驗(yàn)結(jié)果證明了所提出的 OTE 和圖上下文對(duì)于知識(shí)圖譜中缺失鏈接的預(yù)測(cè)是有效的。

表 1. FB15k-237 和 WN18RR 實(shí)驗(yàn)集中的鏈接預(yù)測(cè)性能

1.4 文章小結(jié)

本文提出了一種新的基于距離的知識(shí)圖嵌入方法。它主要包括兩個(gè)部分：首先，利用正交關(guān)系變換將 RotatE 從二維復(fù)域擴(kuò)展到高維空間。第二，提出用圖上下文將圖結(jié)構(gòu)信息集成到距離評(píng)分函數(shù)中，以衡量三元組在訓(xùn)練和推理過程中的合理性。

2. Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward

論文地址：https://arxiv.org/pdf/2005.01159.pdf

本文是美國(guó)東北大學(xué)和 IBM 研究人員的研究成果。本文重點(diǎn)關(guān)注知識(shí)圖譜在摘要生成任務(wù)中的應(yīng)用，提出了一種引入圖譜增強(qiáng)和語義驅(qū)動(dòng) RewarD 的摘要生成框架（Abstractive Summarization with Graph Augmentation and semantic-driven RewarD，ASGARD）。使用雙編碼器（dual encoders）：順序文檔編碼器和圖形結(jié)構(gòu)編碼器，來提取知識(shí)圖譜中實(shí)體的全局上下文特征和局部特征。進(jìn)一步，設(shè)計(jì)了一個(gè)基于多項(xiàng)選擇完形填空測(cè)試（a reward based on a multiple choice cloze test）的獎(jiǎng)勵(lì)，以驅(qū)動(dòng)模型更好地捕捉實(shí)體間的交互信息。

摘要生成（Abstractive Summarization）目的是產(chǎn)生簡(jiǎn)潔、信息豐富的摘要，從而促進(jìn)有效的信息消費(fèi)和知識(shí)獲取。針對(duì)單文檔摘要生成任務(wù)，基于序列對(duì)序列的神經(jīng)網(wǎng)絡(luò)模型取得了很好的效果。然而，由于模型結(jié)構(gòu)和基于詞預(yù)測(cè)的學(xué)習(xí)目標(biāo)的局限性，這些模型往往產(chǎn)生不真實(shí)的內(nèi)容和過于精練的摘要。這些情況表明，現(xiàn)有的模型缺乏對(duì)輸入的語義解釋，而對(duì)語義的正確理解對(duì)于摘要生成任務(wù)來說是至關(guān)重要的。本文作者認(rèn)為，摘要的信息性和簡(jiǎn)潔性的生成需要結(jié)構(gòu)化的表示，以便于實(shí)現(xiàn)相關(guān)主題之間的聯(lián)系，并保持有全局上下文信息，如實(shí)體交互和主題流。以圖 1 為示例，與同一實(shí)體相關(guān)的復(fù)雜事件可能跨越多個(gè)句子，這使得現(xiàn)有的序列模型難以捕捉這些信息。相反，圖表示能夠產(chǎn)生一個(gè)結(jié)構(gòu)化的摘要，并突出了相關(guān)概念的近似性。

圖 1. 根據(jù)文章片段構(gòu)造的示例知識(shí)圖譜，知識(shí)圖譜將實(shí)體或事件的相關(guān)信息局部化，并提供全局上下文信息。

本文提出了一個(gè)基于圖譜增強(qiáng)和語義驅(qū)動(dòng)的抽象摘要框架（Abstractive Summarization with Graph-Augmentation and semantic-driven RewarD，ASGARD）。在編解碼框架（encoder-decoder framework）下，利用開放信息抽取（OpenIE）系統(tǒng)的輸出，用單獨(dú)的圖結(jié)構(gòu)編碼器增強(qiáng)常規(guī)文檔編碼器，以保持實(shí)體的全局上下文信息和局部特征。

此外，本文還提出了一種新的多選完形填空（multi-choice cloze）獎(jiǎng)勵(lì)來驅(qū)動(dòng)模型獲得對(duì)輸入文檔的語義理解。具體地說，在設(shè)計(jì)完型填空問題時(shí)，移除與謂詞相關(guān)的成對(duì)實(shí)體或在人類生成的摘要句中同時(shí)出現(xiàn)的實(shí)體。而以往的研究中，一般只考慮使用單個(gè)實(shí)體來構(gòu)造問題。與知識(shí)圖譜編碼相結(jié)合，引入完形填空獎(jiǎng)勵(lì)進(jìn)一步通過強(qiáng)化學(xué)習(xí)獲得全局實(shí)體的交互信息。

2.1 方法介紹

2.1.1 編碼器部分

為了從輸入文檔構(gòu)建知識(shí)圖譜，利用 Stanford CoreNLP [4]首先從共指消解（coreference resolution）和開放信息抽取（open information extraction，OpenIE）模型中獲得輸出 [5]。接下來，利用 OpenIE 提取的 < subject，predicate，object > 三元組，去掉論點(diǎn)（主語或賓語）超過 10 個(gè)單詞的任何三元組。如果兩個(gè)三元組只相差一個(gè)參數(shù)，并且論點(diǎn)重疊，則保留較長(zhǎng)的三元組。

將主客體視為由有向邊連接的節(jié)點(diǎn)，謂詞作為屬性。進(jìn)一步，將同一實(shí)體的共同提及考慮為一個(gè)節(jié)點(diǎn)。通過這一點(diǎn)，可以定位與每個(gè)實(shí)體相關(guān)的顯著內(nèi)容，以及通過圖路徑連接展開的實(shí)體。ASGARD 框架如圖 2 所示。

圖 2. ASGARD 框架。通過同時(shí)關(guān)注圖譜和輸入文檔生成摘要。

模型以一個(gè)文檔作為輸入，表示為一系列的符號(hào) x={x_k}，以及一個(gè)由節(jié)點(diǎn) {v_i} 組成的知識(shí)圖譜 G。首先將 x 輸入 RoBERTa[6]，將最后一層的輸出作為嵌入。將嵌入輸入雙向 LSTM（Bi-LSTM），生成 k 時(shí)刻的編碼隱狀態(tài) h_k。利用上文生成的知識(shí)圖譜，為謂詞創(chuàng)建節(jié)點(diǎn)。增加從主語到謂語以及從謂語到賓語的有向、無標(biāo)記的邊。進(jìn)一步，添加反向邊和自循環(huán)來增強(qiáng)信息流，從而形成知識(shí)圖譜 G。

節(jié)點(diǎn)初始化（Node Initialization）。每個(gè)節(jié)點(diǎn)通常包含一個(gè)實(shí)體的多個(gè)引用。因此，通過使用其符號(hào)的平均嵌入來初始化節(jié)點(diǎn)表示 v_i。本文利用文檔編碼器的隱藏狀態(tài) h_k 作為符號(hào)的上下文表示。文檔中提到的節(jié)點(diǎn)次數(shù)作為一個(gè)額外的編碼添加到 v_i 中，以增強(qiáng)實(shí)體的顯著性。

上下文節(jié)點(diǎn)編碼（Contextualized Node Encoding）。圖編碼器改進(jìn)了圖注意力網(wǎng)絡(luò)（Graph Attention Networks，GATs）[7]，增加了層間的剩余連接。每個(gè)節(jié)點(diǎn) vi 由其相鄰節(jié)點(diǎn)的加權(quán)平均值表示：

其中，|| 表示 n 頭連接，每個(gè)都生成一個(gè)與 v_i 同等維度的向量。上述圖編碼器通過捕獲上述文檔的全局關(guān)系圖和編碼圖對(duì)文檔級(jí)的文檔進(jìn)行編碼，稱為 DOCGRAGH。

進(jìn)一步的，捕獲主題移位信息以得到 SEGGRAGH。通過對(duì)主題轉(zhuǎn)換和重現(xiàn)進(jìn)行建?？梢宰R(shí)別出文檔中的顯著內(nèi)容，從而有利于生成摘要。由于段落自然地將一個(gè)文檔分成不同的主題段，因此可以直接擴(kuò)展 DocGragh。首先使用相同的圖編碼器將每個(gè)段落編碼為子圖 G_p（對(duì)于第 p 個(gè)段落），然后用 BiLSTM 連接所有子圖。首先從最終 GAT 層的輸出對(duì)子圖 G_p 中的所有節(jié)點(diǎn)進(jìn)行最大池化處理。然后將池化的結(jié)果用作為 BiLSTM 的輸入，以產(chǎn)生 G_p 的最終子圖表示(h_p)^g。

2.1.2 摘要解碼器

摘要解碼器在步驟 t 使用一個(gè)單層單向 LSTM 生成隱藏狀態(tài) s_t，它通過共同關(guān)注輸入文檔和圖來循環(huán)生成摘要符號(hào)。

注意力圖表（Attending the Graph）。在每個(gè)解碼步驟 t，計(jì)算一個(gè)帶有注意機(jī)制的圖上下文向量 (c_t)^v：

注意力文件（Attending the Document）。類似地，通過考慮圖上下文向量(c_t)^v，在輸入符號(hào)上計(jì)算文檔上下文 c_t：

符號(hào)預(yù)測(cè) (Token Prediction)。圖和文檔上下文向量被視為從兩個(gè)來源總結(jié)得到的文檔顯著內(nèi)容，與解碼器隱藏狀態(tài) s_t 連接以生成詞匯分布 P_vocab：

通過使用輸入嵌入矩陣和矩陣 W_out 之間的權(quán)重共享，以允許復(fù)用語言知識(shí)。進(jìn)一步，添加了一個(gè)復(fù)制機(jī)制，計(jì)算復(fù)制概率為：

類似于上文針對(duì) SegGraph 的處理，引入分級(jí)注意機(jī)制。使用標(biāo)量乘法和重整化對(duì)輸入中的所有節(jié)點(diǎn)進(jìn)行處理，從而將子圖中節(jié)點(diǎn)的注意(a_t)^g 與先前計(jì)算得到的注意(a_t)^v 相結(jié)合。

2.1.3 訓(xùn)練

首先考慮一個(gè)最大似然（ML）訓(xùn)練目標(biāo)，最小化下述損失函數(shù)：

其中 x 是文檔，y 是取自訓(xùn)練集 D 的已知文檔，而θ是模型參數(shù)。該目標(biāo)函數(shù)的作用是使得生成的文檔 x 最大限度的與已知訓(xùn)練集中的已知確定文檔保持一致，從而實(shí)現(xiàn)對(duì)知識(shí)圖譜中節(jié)點(diǎn)所表征的文檔的局部特征進(jìn)行準(zhǔn)確描述。

除了對(duì)節(jié)點(diǎn)的局部特征進(jìn)行建模外，本文還增加了一個(gè)目標(biāo)函數(shù)來標(biāo)記節(jié)點(diǎn)的顯著性，即節(jié)點(diǎn)顯著性標(biāo)記（Node Salience Labeling）。例如，節(jié)點(diǎn)中的實(shí)體是否在作為參考的摘要中出現(xiàn)過？在每個(gè)節(jié)點(diǎn)被傳遞到圖編碼器之前，在每個(gè)節(jié)點(diǎn)中引入一個(gè)軟掩碼層（Soft Mask Layer），用以表征該節(jié)點(diǎn)的顯著性。該層的作用類似于一個(gè)「信息通道（information gate）」。針對(duì)每個(gè)節(jié)點(diǎn) v_i 預(yù)測(cè)得到一個(gè)實(shí)數(shù) m_i（m_i 大小滿足[0，1]），使用 m_i 乘以 v_i 得到掩碼。對(duì)于節(jié)點(diǎn) v_i，掩碼計(jì)算為：

其中，u_2 為訓(xùn)練參數(shù)。在訓(xùn)練期間，如果在參考引用的摘要中包含該節(jié)點(diǎn)的至少一個(gè)內(nèi)容詞，則該節(jié)點(diǎn)的標(biāo)準(zhǔn)掩碼 m_i 設(shè)置為 1，否則為 0。對(duì)數(shù)據(jù)庫 D 中的全部節(jié)點(diǎn)都增加下面的目標(biāo)函數(shù)：

最終得到的優(yōu)化目標(biāo)函數(shù)為：

2.1.4 完形填空強(qiáng)化學(xué)習(xí)

在使用 L_ml 進(jìn)行極大似然訓(xùn)練后，作者在第二階段強(qiáng)化學(xué)習(xí)（RL）中進(jìn)一步設(shè)計(jì)了一個(gè)多項(xiàng)選擇完形填空獎(jiǎng)勵(lì)，使得模型能夠生成更真實(shí)、信息更豐富的摘要。

對(duì)于 RL，本文引入一種自判別策略梯度算法（a self-critical policy gradient algorithm）[8]。在訓(xùn)練過程中，會(huì)生成兩個(gè)摘要：第一，摘要 y^s，在每個(gè)解碼步驟基于概率分布 p（y^s | x；θ）抽樣符號(hào)；第二，基線摘要 y^，在每個(gè)步驟中貪婪選擇概率最高的符號(hào)。定義目標(biāo)函數(shù)如下：

本文獎(jiǎng)勵(lì)函數(shù)使用 ROUGE 和下面介紹的多項(xiàng)選擇完形填空得分的組合：R(y) = R_rouge(y) +γ_clozeR_cloze。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)，是一種常用的機(jī)器翻譯和文章摘要評(píng)價(jià)指標(biāo)[9]，其表征的意義是系統(tǒng)算法生成的摘要與參考摘要相同的 N-gram 數(shù) / 參考摘要中的 N-gram 總數(shù)。本文提出了一種新的多選完形填空獎(jiǎng)勵(lì)，用以引導(dǎo)摘要模型提高實(shí)體互動(dòng)的意識(shí)。將系統(tǒng)生成的摘要視為上下文（context）。另外，提供了一組由人手工編寫的對(duì)應(yīng)于參考摘要自動(dòng)生成的問題（questions）。分別訓(xùn)練了一個(gè)問答（QA）模型，通過閱讀上下文來解決問題。如果系統(tǒng)摘要與參考文獻(xiàn)共享了顯著信息，問答模型將能夠以較高的概率給出正確答案。本文使用正確答案的平均概率作為完形填空的獎(jiǎng)勵(lì)。本文對(duì) RoBERTa 進(jìn)行微調(diào)，以構(gòu)建 QA 模型。

2.2 實(shí)驗(yàn)分析

本文實(shí)驗(yàn)采用兩個(gè)包含多個(gè)句子的摘要數(shù)據(jù)集：紐約時(shí)報(bào)注釋語料庫（NYT）和 CNN / 每日郵報(bào)數(shù)據(jù)集（CNN/DM）。本文提出的方法與不同基線方法的實(shí)驗(yàn)對(duì)比結(jié)果分別見表 1（NYT 庫）和表 2（CNN/DM 庫）。對(duì)于本文所提出的方法，除了使用 ML 目標(biāo)訓(xùn)練的 ASGARD-DOC 和 ASGARDSEG 外，表 1 和表 2 的實(shí)驗(yàn)中還給出了用 ROUGE 作為獎(jiǎng)勵(lì)（R_rouge）和使用一個(gè)額外的完形填空獎(jiǎng)勵(lì)（R_cloze）訓(xùn)練的結(jié)果。最后，還給出了一個(gè)消除圖編碼器的變體方法 NOGRAPH 的實(shí)驗(yàn)結(jié)果。

表 1. NYT 數(shù)據(jù)庫中 ROUGE 自動(dòng)評(píng)價(jià)結(jié)果，最優(yōu)結(jié)果以粗體表示，本文模型最好的結(jié)果以斜體表示

表 2. CNN/DM 數(shù)據(jù)庫中 ROUGE 自動(dòng)評(píng)價(jià)結(jié)果，最優(yōu)結(jié)果以粗體表示，本文模型最好的結(jié)果以斜體表示

2.3 文章小結(jié)

本文提出了一種知識(shí)圖譜增強(qiáng)摘要生成框架，并提出了一種用于強(qiáng)化學(xué)習(xí)的多項(xiàng)選擇完形填空獎(jiǎng)勵(lì)。該模型能夠從輸入文本中捕捉實(shí)體的局部特征和全局交互信息，從而生成高質(zhì)量的摘要。與圖表示相結(jié)合，本文引入的多項(xiàng)選擇完形填空獎(jiǎng)勵(lì)進(jìn)一步改進(jìn)了摘要內(nèi)容。

3. Grounded Conversation Generation as Guided Traverses in Commonsense Knowledge Graphs

論文地址：https://arxiv.org/pdf/1911.02707v2.pdf

本文是清華大學(xué)劉知遠(yuǎn)老師組與來自于布朗大學(xué)、微軟的研究人員共同完成的。本文主要關(guān)注知識(shí)圖譜在會(huì)話生成任務(wù)中的應(yīng)用，具體提出了一種新的會(huì)話生成模型：ConceptFlow，它利用常識(shí)知識(shí)圖譜對(duì)會(huì)話流進(jìn)行顯式建模。通過將會(huì)話連接到概念空間，ConceptFlow 將潛在的會(huì)話流表示為沿常識(shí)關(guān)系在概念空間中的遍歷。在概念圖中，以圖注意力為導(dǎo)向，在概念空間中向更有意義的方向移動(dòng)，以產(chǎn)生更具語義性和包含更多信息量的會(huì)話回答。

隨著語言模型和自然語言理解技術(shù)的發(fā)展，會(huì)話生成任務(wù)獲得了廣泛的應(yīng)用。然而，生成模型可能會(huì)產(chǎn)生枯燥和重復(fù)的內(nèi)容，在會(huì)話助手應(yīng)用中，這會(huì)導(dǎo)致生成離題和無用的回答，從而損害用戶體驗(yàn)。解決這一問題的有效方法是與外部知識(shí)（如開放領(lǐng)域知識(shí)圖譜、常識(shí)知識(shí)庫或背景文檔）進(jìn)行對(duì)話。然而，人類的對(duì)話并不是「靜止的」——人們?cè)谡務(wù)撘唤M相關(guān)概念的時(shí)候，經(jīng)常會(huì)將討論從一個(gè)概念轉(zhuǎn)移到另一個(gè)概念，并且可能會(huì)完全切換對(duì)話主題。

本文提出了概念流（Conversation Generation with Concept Flow，ConceptFlow），它利用常識(shí)知識(shí)圖譜在顯式概念空間中對(duì)會(huì)話流進(jìn)行建模。例如，如圖 1 所示，Reddit 的對(duì)話概念從聊天（chat）和未來（future）轉(zhuǎn)移到相鄰的概念——對(duì)話（talk），還沿著常識(shí)關(guān)系跳躍到遙遠(yuǎn)的概念——夢(mèng)（dream），這是自然對(duì)話中的一種非常典型的情況。為了更好地捕捉這種對(duì)話結(jié)構(gòu)，ConceptFlow 明確地將會(huì)話建模為常識(shí)知識(shí)圖譜中的遍歷：它從基礎(chǔ)概念（如聊天（chat）和未來（future））開始，并通過沿著常識(shí)關(guān)系跳轉(zhuǎn)到相關(guān)概念（如談話（talk）和夢(mèng)想（dream）），從而生成更有意義的對(duì)話。概念圖中的遍歷由 ConceptFlow 的圖注意機(jī)制引導(dǎo)，通過圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，利用會(huì)話話語、連接的概念以及它們之間的關(guān)系來關(guān)注更合適的概念。因此，模型學(xué)習(xí)在常識(shí)知識(shí)圖中沿著更有意義的關(guān)系來建模會(huì)話發(fā)展。因此，ConceptFlow 學(xué)會(huì)了通過從會(huì)話話語、常識(shí)關(guān)系跳到更遙遠(yuǎn)但仍然有意義的概念，來「擴(kuò)大」基礎(chǔ)概念——這將引導(dǎo)生成器能夠生成包含更多信息性和更具主題相關(guān)性的回答。

圖 1. 對(duì)話中概念轉(zhuǎn)變的示例。深綠色表示更高的相關(guān)性，更寬的箭頭表示更強(qiáng)烈的概念轉(zhuǎn)換（由 ConceptFlow 捕獲）。

3.1 方法介紹

3.1.1 對(duì)話任務(wù)構(gòu)建

給定一個(gè)具有 m 個(gè)單詞的用戶話語 X={x_1；...；x_m}，典型的會(huì)話生成模型通常使用編解碼器架構(gòu)來生成回答 Y={y_1；...；y_n}。編碼器將用戶話語 X 表示為表示集 H={h1；...；h_m}。使用門控循環(huán)單元（GRU）完成：

其中，x_i→ 為單詞 x_i 的嵌入。解碼器根據(jù)先前的 t-1 個(gè)生成的單詞和用戶話語 X 生成回答中的第 t 個(gè)字：

然后將交叉熵?fù)p失 L 最小化，并端到端優(yōu)化所有參數(shù)：

圖 2 給出 ConceptFlow 的整體結(jié)構(gòu)。ConceptFlow 首先根據(jù)與真實(shí)概念之間的距離（hops）構(gòu)造一個(gè)概念圖 G，包括中心圖 G_central 和外部圖 G_outer（3.1.2 小節(jié)）。然后利用圖神經(jīng)網(wǎng)絡(luò)和概念嵌入技術(shù)，將中心和外部 ConceptFlow 編碼到中心圖 G_central 和外部圖 G_outer 中（3.1.3 小節(jié)）。解碼器模塊利用 ConceptFlow 和用戶話語的編碼來生成用于回答的單詞或概念（3.1.4 小節(jié)）。

圖 2. ConceptFlow 整體架構(gòu)

3.1.2 概念圖構(gòu)造（Concept Graph Construction）

概念圖從固定概念（零跳概念（zero-hop）：V^0）開始，這些概念出現(xiàn)在會(huì)話話語中，并由實(shí)體鏈接系統(tǒng)進(jìn)行標(biāo)注。然后，ConceptFlow 用一跳概念（one-hop）v^1 和兩跳概念（two-hop）v^2 擴(kuò)大零跳概念 v^0。v^0 和 v^1 中的概念以及它們之間的所有關(guān)系構(gòu)成了中心概念圖 G_central，它與當(dāng)前的會(huì)話主題密切相關(guān)。v^1 和 v^2 中的概念及其連接構(gòu)成了外部圖 G_outer。

3.1.3 編碼潛在概念流（Encoding Latent Concept Flow）

構(gòu)造的概念圖提供了關(guān)于概念如何與常識(shí)知識(shí)相關(guān)的明確語義。ConceptFlow 利用它來建模對(duì)話并指導(dǎo)生成回答。它從用戶發(fā)布開始，經(jīng)過中心圖 G_central 和外部圖 G_outer。這一步驟是通過根據(jù)用戶話語對(duì)中心和外部 ConceptFlow 進(jìn)行編碼來實(shí)現(xiàn)的。

中心流編碼（Central Flow Encoding）。中心概念圖 G_central 由一個(gè)圖神經(jīng)網(wǎng)絡(luò)編碼，該網(wǎng)絡(luò)將用戶話語 H 的信息傳播到中心概念圖。具體而言，它將概念 e_i 編碼生成表示 g_ei：

外部流編碼（Outer Flow Encoding）。外部流 f_ep 從 e_p 跳轉(zhuǎn)到其連接的兩跳概念 e_k，通過注意機(jī)制編碼生成 f_ep→：

注意力 θ^(e_k) 聚合概念三元組 (e_p,r,e_k) 以得到 f_ep→：

3.1.4 用概念生成文本（Generating Text with Concepts）

為了生成第 t 個(gè)時(shí)刻的回答符號(hào)，首先根據(jù)話語編碼和潛在 ConceptFlow 計(jì)算 t 次解碼的輸出上下文表示：

式中，y_t-1→ 是第（t-1）步生成的符號(hào) y_t-1 的嵌入，上下文表示 c_t-1→ 連接基于文本的表示 c_(t-1)^text→ 和基于概念的表示 c_(t-1)^concept->：

基于文本的表示 c_(t-1)^text→ 以標(biāo)準(zhǔn)的注意機(jī)制讀取用戶的話語編碼：

基于概念的表示 c_(t-1)^concept→是中心和外部流的編碼組合

第 t 次輸出表示 s_t→包含了來自話語文本、具有不同跳步的概念及其注意機(jī)制的信息。解碼器利用 s_t→生成第 t 個(gè)符號(hào)，以形成包含更多信息量的回答。它通過選擇單詞（ σ*=0）、中心概念（V^0,1，σ* =1）和外部概念集（V^2，σ*=2）使用門 σ* 來控制生成：

在詞匯表、中心概念集 V^0,1 和外部概念集 V^2 上計(jì)算單詞 w、中心概念 e_i 和外部概念 e_k 的生成概率：

3.2 實(shí)驗(yàn)分析

本文實(shí)驗(yàn)使用的是常識(shí)會(huì)話數(shù)據(jù)集（Commonsense Conversation Dataset）[10]。該數(shù)據(jù)集中包含的數(shù)據(jù)來自于 Reddit 的單輪對(duì)話。該數(shù)據(jù)集共包含 3384185 個(gè)訓(xùn)練對(duì)、10000 個(gè)驗(yàn)證對(duì)和 20000 個(gè)測(cè)試對(duì)。本文使用概念網(wǎng)（Concept-Net）作為知識(shí)圖譜[11]。Concept-Net 包含 120850 個(gè)三元組、21471 個(gè)概念和 44 個(gè)關(guān)系類型。對(duì)于 Reddit 上的對(duì)話，中心概念和兩跳概念的平均數(shù)量分別為 98.6 和 782.2。

作者選擇了六個(gè)基線對(duì)比算法，這些算法主要屬于三類：標(biāo)準(zhǔn) Seq2Seq、知識(shí)增強(qiáng)型系統(tǒng)和微調(diào)的 GPT-2 系統(tǒng)。具體包括：Seq2Seq（語言生成任務(wù)的最基本的編解碼器模型）、知識(shí)增強(qiáng)型系統(tǒng)（MenmNet、CopyNet、CCM）、微調(diào)的 GPT-2 系統(tǒng)（用于語言生成任務(wù)的基本預(yù)訓(xùn)練模型 GPT-2 的兩種微調(diào)：像語言模型一樣進(jìn)行訓(xùn)練的 GPT-2 lang 和用編解碼器架構(gòu)擴(kuò)展并使用回答數(shù)據(jù)監(jiān)控的 GPT-2conv）。此外，本文分別使用 TransE 嵌入和 Glow 嵌入初始化概念表示和單詞表示。采用學(xué)習(xí)率為 0.0001 的 Adam 優(yōu)化器訓(xùn)練模型。

作者使用不同指標(biāo)從相關(guān)性、多樣性和新穎性三個(gè)方面對(duì)生成的對(duì)話的回答質(zhì)量進(jìn)行評(píng)價(jià)。表 1 和表 2 給出實(shí)驗(yàn)結(jié)果。在表 1 中，所有評(píng)估指標(biāo)都用于計(jì)算生成的回答和標(biāo)準(zhǔn)回答之間的相關(guān)性。ConceptFlow 優(yōu)于所有基線模型。ConceptFlow 生成的回答更具主題相關(guān)性，與基本事實(shí)回答更吻合。表 2 中 Dist-1、Dist-2 和 ENT-4 用于衡量所生成回答的多樣性，其余指標(biāo)則是通過將生成的回答與用戶的話語進(jìn)行比較來衡量其新穎性。ConceptFlow 所生成的回答在新穎性和多樣性方面都獲得了較好的效果。GPT-2 生成的回答更具有多樣性，這可能是由它在解碼過程中的采樣機(jī)制所導(dǎo)致的。但是，與 ConceptFlow 相比，GPT-2 生成的回答的新穎性和主題相關(guān)性要差一些。

表 1. 生成的回答與標(biāo)準(zhǔn)回答之間的相關(guān)性

表 2. 所生成的回答的多樣性（越高越好）和新穎性（越低越好）。根據(jù)生成的回答中計(jì)算多樣性；新穎性則是將生成的回答與輸入的內(nèi)容進(jìn)行比較。

表 3 列出了從三種對(duì)話模型生成的一些回答實(shí)例。其中，CCM 生成的回答可能會(huì)不斷重復(fù)相同的內(nèi)容，因?yàn)樗鼪]有在概念空間中顯式地建模遍歷。例如，第一個(gè)和第三個(gè)案例的回答總是重復(fù)「我不確定」。GPT-2 能夠生成更為流利和順暢的回答。然而，表 3 中一些 GPT-2 生成的答案案例僅僅是從給定的帖子中復(fù)制內(nèi)容或概念。例如，對(duì)于第三種情況，GPT-2（conv）主要討論概念音樂。相比之下，ConceptFlow 生成的回答比 CCM 和 GPT-2 生成的回答更流暢、更具信息量。例如，在第三種情況下，ConceptFlow 將相關(guān)的概念聲音（sound）和檢查（check）引入到了回答生成中，從而能夠從固定的概念音樂（music）和建議（advice）中跳脫出來。引入這些多跳概念有效地提高了所生成回答的信息主題相關(guān)性和多樣性。

表 3. 不同的模型生成的回答實(shí)例，其中，零概念，一跳概念和兩跳概念的符號(hào)做了突出顯示。

3.3 文章小結(jié)

本文提出的 ConceptFlow 將會(huì)話結(jié)構(gòu)顯式地建模為潛在概念空間中的轉(zhuǎn)換，從而能夠生成具有更多信息量和更有意義的回答。未來的工作中，作者計(jì)劃探索如何將多跳概念與預(yù)先訓(xùn)練的深層語言模型（即 GPT-2）相結(jié)合，以及如何有效地在生成模型中引入更多的多跳概念。

參考文獻(xiàn)

[1] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo. Knowledge graph embedding: A survey of approaches and applications. TKDE, 29:2724–2743.

[2] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko. Translating embeddings for modeling multirelational data. In NeurIPS.

[3] Zhiqing Sun, Zhi-Hong Deng, Jing Nie, and Jian Tang. Rotate: Knowledge graph embedding by relational rotation in complex space. In ICLR.

[4] Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David Mc-Closky. 2014. The Stanford CoreNLP natural language processing toolkit. In Association for Computational Linguistics (ACL) System Demonstrations, pages 55–60.

[5] Gabor Angeli, Melvin Jose Johnson Premkumar, and Christopher D. Manning. 2015. Leveraging linguistic structure for open domain information extraction. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 344–354, Beijing, China. Association for Computational Linguistics.

[6] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019.

[7] Petar Veliˇckovi′c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Li`o, and Yoshua Bengio. 2018. Graph Attention Networks. International Conference on Learning Representations. Accepted as poster.

[8] Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. 2017. Self-critical sequence training for image captioning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7008–7024.

[9] Chin-Yew Lin and Eduard Hovy. 2003. Automatic Evaluation of Summaries Using N-gram Cooccurrence Statistics. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - Volume 1, pages 71–78.

[10] Hao Zhou, Tom Young, Minlie Huang, Haizhou Zhao, Jingfang Xu, and Xiaoyan Zhu. 2018a. Commonsense

knowledge aware conversation generation with graph attention. In IJCAI, pages 4623–4629.

[11] Robyn Speer, Joshua Chin, and Catherine Havasi. 2017. Conceptnet 5.5: An open multilingual graph of general

knowledge.

[12] Kristina Toutanova and Danqi Chen. 2015. Observed versus latent features for knowledge base and text inference. In Proceedings of the 3rd Workshop on Continuous Vector Space Models and their Compositionality.

[13] Antoine Bordes, Sumit Chopra, and Jason Weston. 2014. Question answering with subgraph embeddings. In EMNLP.

[14] Andrew M. Saxe, James L. McClelland, and Surya Ganguli. 2013. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. In ICLR.

分析師介紹：

本文作者為仵冀穎，工學(xué)博士，畢業(yè)于北京交通大學(xué)，曾分別于香港中文大學(xué)和香港科技大學(xué)擔(dān)任助理研究員和研究助理，現(xiàn)從事電子政務(wù)領(lǐng)域信息化新技術(shù)研究工作。主要研究方向?yàn)槟Ｊ阶R(shí)別、計(jì)算機(jī)視覺，愛好科研，希望能保持學(xué)習(xí)、不斷進(jìn)步。

關(guān)于機(jī)器之心全球分析師網(wǎng)絡(luò) Synced Global Analyst Network

機(jī)器之心全球分析師網(wǎng)絡(luò)是由機(jī)器之心發(fā)起的全球性人工智能專業(yè)知識(shí)共享網(wǎng)絡(luò)。在過去的四年里，已有數(shù)百名來自全球各地的 AI 領(lǐng)域?qū)I(yè)學(xué)生學(xué)者、工程專家、業(yè)務(wù)專家，利用自己的學(xué)業(yè)工作之余的閑暇時(shí)間，通過線上分享、專欄解讀、知識(shí)庫構(gòu)建、報(bào)告發(fā)布、評(píng)測(cè)及項(xiàng)目咨詢等形式與全球 AI 社區(qū)共享自己的研究思路、工程經(jīng)驗(yàn)及行業(yè)洞察等專業(yè)知識(shí)，并從中獲得了自身的能力成長(zhǎng)、經(jīng)驗(yàn)積累及職業(yè)發(fā)展。

原標(biāo)題：《從ACL 2020看知識(shí)圖譜研究進(jìn)展》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#知識(shí)圖譜