Categories
程式開發

80% 的企業採用半自動化構建知識圖譜,全自動化什麼時候實現?


AI技術的發展和大數據時代的到來令知識圖譜的自動化構建成為可能,儘管現階段還面臨著一些挑戰,但已有不少企業在積極探索和嘗試自動化構建技術。近日,AI前線採訪了來自明略科技和國雙數據科學團隊多位專家,他們分享了實現大規模自動化知識圖譜建設的技術與應用實踐。

人工構建還是機器構建?

知識圖譜是新一代知識工程技術的代表,傳統的知識工程重度依賴人工干預,知識建模和獲取主要從領域專家處獲取專業知識。自2012年谷歌提出”知識圖譜”的概念並運用到搜索引擎後,知識圖譜的構建技術與應用引起了學術界和工業界的廣泛關注。

最近幾年,隨著AI技術的發展和大數據時代的到來,知識圖譜的自動化構建成為可能,從構建技術看,它經歷了由人工構建到群體智慧構建到自動獲取、構建的過程。自動化構建知識圖譜的特點是面向互聯網的大規模、開放、異構環境,利用機器學習和信息抽取技術自動獲取互聯網上的信息。

明略科技科學院知識工程實驗室負責人張傑在接受AI前線採訪時表示,對企業而言,知識圖譜的構建,如果自動化程度和準確度都能很高,具有兩方面意義:

為企業拓展數據規模增加數據連接。知識圖譜可以連接內部結構化數據、物聯網數據、外部非結構化數據,進而可能成為下一代企業管理數據的主流技術路線;

另一方面,提升數據的挖掘深度和利用效率。以往多數企業做數據挖掘項目,都僅僅對靜態數據做淺層加工得到標籤,然後再訓練模型。以圖結構為主的關係數據、以時空序列為主的動態數據並沒有得到充分利用。

人工構建和自動化構建各有優缺點。人工構建圖譜耗時耗力,構建出的圖譜規模較小。知識圖譜發揮作用需要依靠規模效應,如果單純依靠人工構建,容易陷入此前專家系統的瓶頸,導致實用能力有限,無法發展起來。而自動化構建處理速度快,可以減少人工、時間、成本,更適應大數據時代的應用要求。

不過以目前的技術水平,自動化構建的準確率還低於人工,一般情況下減少人工會導致準確性下降。在一些結構化不強,需要人工理解才能判斷的場景,如果缺少人工參與,將會影響知識圖譜的質量。

在知識圖譜構建的主流技術路線中,人工對於其中幾個環節仍不可或缺。如在從結構化、半結構化數據映射為知識圖譜的工作中,主要工作量在於工程師梳理映射邏輯和開發映射規則,然後機器去批量化的自動執行;在從非結構化文本中自動抽取本體的工作中,自動化程度較高,在標註訓練數據集上,準確度往往難以保證商用,仍需人工校驗。

國雙數據科學團隊負責人表示,現階段要兼顧效率和精度,最合理的方式是半自動化結合人工。目前業內構建知識圖譜很少見純人工和全自動方法,採用的主流方式是半自動結合人工方式,約佔80%以上。

半自動結合人工方式操作的流程是,前期借助人工標註適量數據,訓練模型自動化抽取,最後由人工進行審核或驗證。

目前商業化的知識圖譜,均有部分自動化構建能力,實現動輒千萬甚至上億數據規模的知識圖譜。一般手工部分出現在知識圖譜構建早期(冷啟動),隨著圖譜規模的擴大,依據知識推理和機器學習,自動化程度會逐漸提升。後期的知識圖譜自動更新主要集中在動態更新實體數據、發現新的實體,從新入庫的各類原始數據中獲取新的知識等環節。

現階段,一定程度的人工參與加機器自動化的方式可能在相當長一段時間內會是主流。圖譜結構的定義依賴於具體應用場景和要解決的問題,需要人來定義。有些場景對數據質量要求極高,如公共安全、金融、醫療等領域做知識融合要通過人工校驗來最大程度保證可靠性。

張傑表示,如果一些場景的知識圖譜可以滿足商用要求( TO C 場景下準確率要到95%,TO B場景下要更高),就可以全面交給機器來進行自動化構建。他認為,To C場景下的檢索、推薦,應該會很快實現全面自動化,而To B場景下的推理、決策,通往全面自動化還要很久。

國雙認為,在一些垂直的有限領域如司法等可能將在未來2~3年實現可自動更新實體數據的知識圖譜體系。

如何實現大規模自動化的知識圖譜構建

知識圖譜自動化構建流程與技術

儘管實現全面自動化構建知識圖譜還有很長的一段路要走,但已有不少企業在積極探索降低人工參與度,提升自動化構建水平,如明略科技推出了人類智能、機器智能、組織智能三位一體的HAO智能係統,國雙通過自研的知識抽取算法設計平台完成知識抽取流程設計。

這里以國雙為例,說明知識圖譜自動化構建的方法。

自動化構建流程主要包括本體創建 –> 數據標註 –> 模型訓練 –> 知識抽取 –> 知識融合 –> 知識推理 –> 知識更新等環節。具體來看:

數據標註和模型訓練環節,通過知識抽取算法設計平台完成;

在知識抽取環節,以相對複雜的非結構化知識抽取為例,國雙運用的技術是將標註數據清洗擴增,使用基於Encoder和Decoder的端到端三元組聯合抽取模型進行知識抽取。針對沒有標註數據的冷啟動知識抽取需求,構建了一套利用依存句法分析算法實現無監督情況下抽取三元組的系統。

在知識融合環節,國雙構建了一套結合傳統字符串相似度和圖卷積網絡的融合系統,將知識圖譜經過GCN編碼後得到表示向量,通過計算表示向量相似度和實體的字符串相似度,並結合Sieve模式高效篩選出融合結果。

在知識推理環節,在基於規則和基於算法的知識推理方面做了一些嘗試,例如通過業務本體框架中的相關約束來做相關推理。

在知識更新環節,使用知識抽取實驗平台把新的增量數據去重新訓練模型,且依靠知識抽取算法API來實現自動的知識更新。

張傑表示,知識圖譜自動構建的過程中主要運用到了自然語言處理、小樣本訓練、領域遷移等關鍵的AI技術。自動化構建知識圖譜有四大技術重點:

如何自動化的從結構化數據庫映射為知識圖譜並做知識融合;如何通過小樣本學習和領域知識遷移的技術減少人工標註成本;如何從非結構化文本中做篇章級的事件抽取和多事件關聯;基於深度學習的知識表示在各個構建的環節的應用。

針對結構化和半結構化數據,明略科技提出了HAO profiling技術,對來自不同數據源的結構化/半結構化數據進行匯聚、組織,試圖理解數據,解決數據冗餘、衝突等問題,對數據進行標準化、連接,形成數據的知識圖譜,進行可視化展示,並以統一視圖服務查詢、計算等應用需要。

針對非結構化數據,明略科技設計、開發了一套算法工具包:HAO圖譜。 HAO圖譜包括關係抽取、事件抽取、實體對齊、網絡結構嵌入式表示、時空序列數據表示、圖譜摘要、基於圖譜的短文本生成等算法。

構建挑戰

知識圖譜在構建過程中面臨著諸多挑戰。

張傑指出,自動化構建主要的技術挑戰點有三項:信息丟失、信息冗餘、信息重疊。信息丟失是指應該抽取出來的信息沒有抽全。信息冗餘指在輸入文本中不存在但在背景知識中存在的額外概念和關係。信息重疊是指能否將原文中距離跨度較大的屬性歸結到正確的實體上,並對動態變化的屬性進行適當存儲。

此外,知識圖譜構建成本高昂,小樣本的抽取和構建問題,也是業界公認的難題。

對於小樣本的抽取問題,在國雙看來,從小樣本中進行抽取,很難採用直接數據驅動的方式,一般需要藉助知識來降低對數據的依賴。知識輔助的方式有兩種,一種是人工將知識寫入系統,即規則編碼等方式;另一種是機器進行知識推理,也就是基於背景知識進行概率推理,這個方法在消歧或實體鏈接、關係預測上經常使用。

人工構建一個知識圖譜的成本是非常高的,降低成本從某種程度上可以說是構建過程的核心和關鍵。明略科技和國雙分享了自己的解決方案:

明略科技認為,降成本需要做到行業經驗復用和技術工具復用。為此,在行業經驗復用方面,明略科技成立了行業諮詢團隊,形成了面向行業的最佳實踐和成功案例,且投入到國家標準、行業標準、聯盟標準的製定中。

技術工具復用方面,明略科技將技術體系(行業交付團隊、技術部、科學院)的技術能力全集團範圍內共享打通,科學院的成果會輸出到技術部,技術部形成公司級的產品組件,行業交付團隊初次面對新行業時會做些定制化開發,再次復用後會凝練為產品並回流到技術部。

國雙認為,構建知識圖譜的成本需要考慮三大因素:人,模型,數據。首先由人來創建正確有效的本體,標註少量數據;利用數據增強等方式來訓練機器學習模型,再利用模型處理有標註和無標註數據;最後人工查驗,在保證標註精度的情況下最大程度減少人工干預,最終實現控製成本、做大規模,同時保證知識圖譜的質量。使用知識抽取算法設計平台,可以通過平台化的方式設計知識抽取流程,在設計過程中流程化地預估各個方案的預期結果和成本,最終通過科學決策選擇性價比最好的方案。

應用實踐

目前自動化構建的知識圖譜主要運用在智能問答、智能推薦、語義搜索、網絡行為動態分析等場景中。由於需要大量領域專家的干預,很多特定領域的知識圖譜自動化構建的進展有些緩慢,尤其在一些小規模、應用場景複雜、專家知識密集的場景。

但知識圖譜需要運用到廣闊的業務場景裡才能夠發揮出它的真正價值。

據了解,明略科技一直在營銷、公共安全、數字城市、工業、金融等領域探索自動化構建行業知識圖譜。明略科技的HAO智能係統在以人為本、人機協同的基礎上,加入了面向行業應用、具體細分領域的 Organizational Intelligence。

該系統中的結構化數據通用治理平台CONA(關聯所有數據),可通過設置數據轉換規則,結合數據多值溯源和融合策略,自動完成標準化對標,實現數據治理自動化,這能夠大大提高行業知識圖譜構建效率。以公共安全領域實際數據治理為例,業務系統中近千張表,傳統方法和工具做圖譜構建可能需要半年以上的時間,而CONA能夠縮短到2週。

張傑介紹,在協同推理方面,明略科技採用專家規則加數據驅動的方式形成了行業因果圖譜,以便於對未來事件的走向做預測。這一技術今年有望應用在復雜度較高且客單價較高的行業中。

國雙從2016年開始在司法領域構建知識圖譜,並逐步擴展到了營銷領域和工業領域。其中,司法知識圖譜是目前做到技術成熟度最高和規模最大的。

在構建這個知識圖譜的過程中,由於知識來自於文書庫、法律法規庫和司法專業知識庫等多個來源,存在知識重複和指代不明等問題,為了做到自動化、高質量地構建知識圖譜,國雙針對這些問題運用層次聚類和基於密度的聚類方法,實現了實體間的對齊和內部消歧,消歧的正確率達到98%。

“知識圖譜的構建是一個複雜的系統工程,不可能通過某一項技術適配所有場景。綜合來看,解決這個問題需要以技術為基礎,構建工具體系,然後面向場景進行系統設計”,國雙數據科學團隊負責人表示。

結束語

通過以上專家的分析,可以預見的是,大規模知識圖譜的自動化、高質量構建將成為重要的發展趨勢。

張傑認為,要實現上述目標,至少需要三方面的能力:

算法把控能力:知道各類算法的適用場景和算法所能達到的上限大致在哪裡,不盲從所謂的主流,不迷信所謂的前沿,實際場景下有效的系統往往是多種技術方案共同作用的結果;

跨層並行能力:從原數據到圖譜應用是個很長的鏈條,並不是所有環節在處理大規模數據時都能夠獨立的做並行化處理,如何跨層做聯合優化,需要架構的設計者打通技術棧;

業務理解能力:技術人員要對所屬行業和所面臨的場景需求要有很好的理解,才能在投入與產出之間做出良好的平衡。

嘉賓介紹 :

張傑,明略科技科學院知識工程實驗室負責人,天津大學本科、碩土、博士畢業,研究方向為機器學習、自然語言處理、知識工程,發表學術論文十餘篇,發明專利八十餘項,曾就職於華為諾亞方舟實驗室,後作為聯合創始人創辦金融科技公司並任CTO,曾主持搭建百科知識問答、對話機器人、推薦引擎、決策引擎、大數據風控等多項系統,累計創造商業價值數億元。

國雙數據科學團隊,經歷了五年多的發展目前成員共計30多人。所有成員均來自國內外一流大學,包括數據科學家、機器學習建模專家、計算機視覺專家、自然語言處理專家、語音工程專家等。目前數據科學應用主要服務能源、汽車、金融、快消、政府、司法等行業。