Categories
程式開發

基於知識圖譜的語義理解技術及應用


導讀:知識圖譜在人工智能應用中的重要價值日益突顯。百度構建了超大規模的通用知識圖譜,並在搜索、推薦、智能交互等多項產品中廣泛應用。同時,隨著文本、語音、視覺等智能技術的不斷深入,知識圖譜在復雜知識表示、多模語義理解技術與應用等方面都面臨新的挑戰與機遇。本文將介紹百度基於知識圖譜,從文本到多模態內容的理解技術及應用的最新進展。

本文主要內容包括

  • 背景
  • 知識圖譜文本語義理解
  • 知識圖譜視頻語義理解
  • 總結

01 背景

1. 多模語義理解需求強烈

基於知識圖譜的語義理解技術及應用 1

多模語義理解需求強烈。對於百度而言就有很多視頻產品,比如信息流、全民小視頻、愛奇藝等等,對應長視頻、短視頻、小視頻等,這類視頻的深度理解對於公司的視頻業務,是非常核心的基礎技術。

2. 深度語義理解需要知識

基於知識圖譜的語義理解技術及應用 2

在實際應用場景中,我們發現要實現視頻的深度語義理解,在純感知技術的基礎上,知識發揮著重要的價值。比如上面的短視頻片段,從內容理解來看,傳統的視頻理解更多是基於感知,比如通過人臉識別和從OCR識別出關鍵詞/字。在實際場景中我們發現這些效果上還有較大優化空間,同時,這樣識別出的結果沒有刻畫出用戶對視頻核心的細粒度興趣,比如影視劇的角色、關係等知識。但是基於知識圖譜的語義理解就可以解決這類的問題,它能夠對視頻做深度結構化的解析,然後上層的推薦、搜索可以應用這些知識作為特徵輔助內容的高效分發。

3. 目標與價值

根據上面描述,我們的目標是基於知識圖譜對用戶/資源從多維度進行知識增強的語義分析,協助提供上層智能應用所需語義計算與推理能力。相比傳統的理解,它的價值有兩個方面:一是它可以真正理解資源背後的知識;二是它可以基於知識圖譜進行計算和推理。

02 知識圖譜文本語義理解

1. 知識增強的多維度語義分析

基於知識圖譜的語義理解技術及應用 3

不同於傳統的文本語義理解,我們的知識圖譜文本語義理解是對文本從實體、概念、關係的知識維度去做全方位的解析,協助提供應用所需語義知識。首先對文本進行實體類的標註,然後將實體關聯到知識圖譜,這樣通過關聯關係以及知識圖譜獲取實體對應信息;其次進行概念化,理解實體背後的知識;最後會理解實體之間的關係,包括實體的屬性、側面等。通過建立知識圖譜的文本語義理解,會有三方面的技術特點:語義消歧、可計算推理和可泛化解釋。

2. 多種文本形態與業務場景下,諸多挑戰

基於知識圖譜的語義理解技術及應用 4

在實際的場景之下,我們會面臨諸多的挑戰:

① 多種文本形態

短文本:上下文非常稀疏,歧義問題加劇;

篇章:很多篇章的理解需要上下文跨句或者跨段落才能理解,在實際工程場景之下,對性能和效果需要很高的要求,而性能是決定該策略是否可以上線的重要因素之一。

② 新實體:知識圖譜不可能收錄全部實體,如果在文本中新實體沒有被識別,這對文本的理解會有負面的影響。

③ 不同業務場景:多種不同的輸入和多種定制化的需求。

我們的解決方案是首先使用一些知識增強的技術去提升語義理解的效果,其次是深度神經網絡,最後將一些核心算子進行抽象並組件化,通過組件化的方式定制化去支持不同的業務。

3. 實體標註:基於知識增強的標註技術

基於知識圖譜的語義理解技術及應用 5

在知識圖譜中實體標註的目標:標註文本中的實體,消歧並且關聯到知識庫。這其中有一些關鍵的技術,流程如下:

首先,先對輸入的文本進行實體的識別,比如“李白這首歌好聽嗎?”,對於“李白”這個實體,它背後有很多候選實體,可能是詩人、歌曲、遊戲裡的英雄角色或者是普通的人。在候選實體中有一個很重要的問題——新實體的識別,這裡面我們通過知識遠監督的方式生成大量訓練樣本並且結合百度預訓練模型ERNIE來提升新實體識別的效果。

其次,有了這些候選實體之後會對所有候選實體進行排序,這裡面我們引入的是知識向量表示,聯合實體屬性和結構化關係去訓練出實體embedding表示,然後使用語義匹配模型做統一的度量進行實體的排序。

最後,對候選實體得分最高的實體進行一個判定,是否將該實體關聯到知識庫中。

4. 概念化:基於概念圖譜的細粒度概念化

基於知識圖譜的語義理解技術及應用 6

接下來是概念化,與傳統的命名實體識別是有差異的,比如“如何玩好李白這個英雄”,在命名實體識別中會將“李白”識別成人物,在概念化中根據當前上下文,動態識別出實體對應的上位概念,即這裡對於“李白”會識別出遊戲角色、虛擬人物。所以,概念化會從更細的粒度的刻畫文本中這個實體在當前上下文中最合適的上位概念,做到符合當下場景下的知識理解。

在實際應用中,我們會構建一套知識網絡去提供知識來增強文本的理解。對於輸入文本通過知識網絡會轉化成一個​​圖,圖上的節點會是實體、屬性還有一些動詞形容詞等等。有了這些節點之後,在圖上進行隨機遊走,最終隨機遊走收斂完之後會得到每個實體在當前上下文最合適的上位概念。

5. 概念化-關鍵技術:知識網絡

基於知識圖譜的語義理解技術及應用 7

對於概念化最關鍵的技術就是知識網絡的構建,方案如下:

  • isA網絡:實體上下位的知識,比如楊洋是男演員、男歌手;
  • 共現網絡:挖掘全網下實體的共現,同時轉換成概念的共現,比如歌手與歌曲的共現;
  • 詞彙網絡:構建出大量實體、概念和信號詞之間的共現關係,這裡的信號詞更多是形容詞/動詞;
  • 語義網絡:預訓練的文本語義向量ERNIE和上面提到的訓練出實體的向量表示。

6. 面向多種應用場景

在面向各種應用場景中,我們會將這些核心技術抽像出算子,通過算子組件化的方式去滿足不同場景下文本語義理解。

應用示例

基於知識圖譜的語義理解技術及應用 8

03 知識圖譜視頻語義理解

1. 知識增強的視頻深度理解

基於知識圖譜的語義理解技術及應用 9

傳統的視頻理解會對視頻分類,比如上面的視頻會分類到影視,會通過人臉識別出湯姆克魯斯,再通過OCR和語音識別出文本並提取出一些關鍵字,但是這樣的理解並沒有真正理解視頻背景的知識,如前文所述在實際場景中也會存在問題。

我們會把視頻轉換成知識子圖,通過知識圖譜對這張子圖進行知識擴充,並使用推理和計算來置信計算及沖突檢測。它有三個技術特點:深度理解、可計算推理和支持更多產品創新。

示例

基於知識圖譜的語義理解技術及應用 10

2. 知識圖譜視頻語義理解的挑戰

基於知識圖譜的語義理解技術及應用 11

在實際的場景之下,會有兩方面的挑戰:

① 知識構建與利用:對於視頻語義理解需要哪些知識?如何構建這些知識?如何利用這些知識去深度理解視頻?

② 多模態:視頻本身是典型的多模態,包括文本、視覺和語音,在這些多模態信息如何融合、去噪、理解?

3. 基於知識及計算推理的深度語義理解

基於知識圖譜的語義理解技術及應用 12

視頻語義理解完整的流程,包括:

對短視頻進行多模態的分析,包括視覺理解、語音理解和文本理解這些感知上面的理解;然後將這些結果利用知識關聯技術建立到視頻理解圖譜當中;最後有了這些關聯關係、知識和多模解析的結果,會做多模態融合併且在這張圖上進行計算推理。

在小視頻的語義理解中,流程同短視頻的語義理解相同,但與短視頻會有一些差異,因為小視頻更偏向於主題、場景類的理解。

4. 視頻理解圖譜:區別於傳統圖譜

基於知識圖譜的語義理解技術及應用 13

視頻理解的目標是提供主題、實體、實體側面、場景等維度對用戶需求及視頻資源點描述的知識,不同於傳統的知識圖譜,視頻理解圖譜在圖譜節點方面更關注於主題、實體側面、場景類的知識,以及這些知識的關係如屬性關係、上下位關係和關聯關係等;在知識來源方面專注視頻搜索日誌、用戶評論、視頻資源本身來挖掘圖譜等;在應用場景方面更多關注視頻推薦、搜索和內容生成等。

5. 視頻理解圖譜:聚焦重點知識建設

基於知識圖譜的語義理解技術及應用 14

上面提到了視頻理解圖譜與傳統圖譜之間的關係,所以我們的構建思路就是差異化的構建,重點構建場景、實體側面、主題、實體以及它們的關聯關係,最後將這個圖譜反哺到通用的圖譜當中。整個過程如下:

① Ontology構建:借鑒與通用圖譜的ontology構建然後使用人機結合的方式構建出視頻理解圖譜的骨架;

② 知識挖掘:有了骨架後開始各種知識的挖掘,包括新實體挖掘、實體側面抽取、主題抽取和場景挖掘等;

③ 語義關係:有了上面的知識節點,開始建立關係,例如上下位的關係、場景的關係等;

④ 圖譜構建:有了節點和關係,開始進行圖譜化構建,這裡重點會對實體進行歸一/關聯和建邊;

⑤ 質量控制、特徵計算:在建立完視頻圖譜之後,為了圖譜的應用,會再進行沖突檢驗、熱度特徵統計和關聯強度特徵計算等。

6. 關鍵技術:多種知識發現與挖掘技術

基於知識圖譜的語義理解技術及應用 15

實體、主題、實體側面發現與挖掘:

  • 新實體挖掘:上面已介紹;
  • 主題發現:結合用戶的點擊行為解決主題發現冷啟動問題,然後使用序列標註的方式進行主題挖掘;
  • 實體側面挖掘:基於閱讀理解的模型,使用半指針半標註的方式進行實體側面標註。

7. 實體理解

基於多模融合與計算推理,理解視頻主體

基於知識圖譜的語義理解技術及應用 16

一個視頻中會存在很多的實體,對視頻的主旨理解而言,有重要的實體也有不重要的實體。我們需要區分出哪些實體是視頻的主體,哪些實體是噪聲;進一步需要理解實體背後的知識,因為看到一段視頻,在裡面出現的人和事甚至一些動作並不能完整描述視頻的主旨;最後就是需要對歧義進行消除。

我們的解決思路是:

① 多模態解析:使用語義匹配網絡、視頻關注點和無監督核心度排序的方式綜合將視頻內的潛在核心實體mention提取出來;

② 實體關聯:將潛在實體mention與圖譜關聯,解決消歧和語義化問題;

③ 計算推理:實體計算擴展實體的屬性關係;不確定性推理判斷哪些實體在該視頻中是最主要實體;衝突檢測將不符合視頻主旨內容的實體過濾。

示例

基於知識圖譜的語義理解技術及應用 17

視覺與知識結合,短視頻關聯源視頻

基於知識圖譜的語義理解技術及應用 18

一些場景中,在我們看完短視頻之後都想知道是來源於哪個長視頻,甚至是來源於長視頻的哪一集。傳統做法是使用視頻指紋識別的方式來找到源視頻,我們在這個基礎上加入知識圖譜的語義理解來輔助召回源視頻。首先對於一些指紋識別處在邊界的一些結果利用語義理解來做輔助的校驗;其次,對一些長視頻不在目標索引庫裡面的情況,我們會通過語義理解來推斷出一些可能關聯到的源視頻。

8. 場景理解:基於多模融合與計算推理,理解視頻主體

基於知識圖譜的語義理解技術及應用 19

前面介紹了實體理解,接下來介紹場景理解,場景在這裡面更多的是動作、事件。我們分為兩類:一是粗粒度場景;二是細粒度場景,比如:汽車是粗粒度的場景,考駕照、汽車維修就是細粒度的場景。

傳統的方法是從視頻分類角度去做,我們發現對於粗粒度的場景效果很好,但是對細粒度的場景效果就不好。通過分析我們發現有幾個難點:

  • 細粒度分類需要大量的標註樣本;
  • 有些場景需要引入知識,如果沒有知識背景有些人都很難看出來;
  • 在實際應用中,我們要控制效果和靈活性,但是通過純模型的方式很難進行控制。所以,我們提出利用知識和視覺結合來做場景的推斷。

我們的解決方案是:

  • 首先,通過粗粒度的分類模型對視頻進行分類;
  • 其次,提取出視頻中的人物、關鍵字和動作等關聯到場景圖譜裡面;
  • 最後,在場景圖譜中進行符號推理,再輔助一些知識來進行分類獲取最終細粒度場景結果。

以下是基於知識圖譜的視頻語義理解在產品中應用示例。

應用示例

基於知識圖譜的語義理解技術及應用 20

9. 視覺問答 ( VQA ):多模融合與理解

基於知識圖譜的語義理解技術及應用 21

除了上面的介紹,我們知識圖譜部還做了很多其它的工作,其中之一是視覺問答。

我們的主要工作是提出一種改進的“多粒度跨模態注意力機制”,從更細粒度上增強跨模態信息的理解對齊能力和解釋能力。使模型能更好的融合,理解多模態信息。在VQA2.0上面效果表現良好,從65.67提升到67.73。

10. 跨媒體生成

基於知識圖譜的語義理解技術及應用 22

另一個工作是跨媒體生成,主要是在圖文生成和視頻生成。我們基於視頻語義理解和知識圖譜去提供生成所需要的素材、信號和知識來提升視頻生成效果。

示例

基於知識圖譜的語義理解技術及應用 23

04 總結

本次分享主要介紹了

  1. 多模語義理解的價值:實現深度語義理解,理解其背後的知識。
  2. 知識圖譜文本語義理解:知識增強的多維度語義分析、實體標註和概念泛化。
  3. 知識圖譜視頻語義理解:
    • 視頻理解圖譜
    • 圖像、語音、文本多模態特徵融合
    • 基於知識關聯、推理計算的深度語義理解

今天的分享就到這裡,謝謝大家。

作者介紹

馮知凡,百度主任研發架構師

本文來自 DataFunTalk

原文鏈接

https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247498767&idx=1&sn=cbd74c10959febbf060007d744f5a4f0&chksm=fbd74e63cca0c775a83036e66388d0d6b806809c9c2db98160b74c6fa033bf4233f2c3c7e6b1&scene=27#wechat_redirect