Categories
程式開發

攜程AI助力產品內容化實踐


內容化的核心是主題,產品,內容。主題是對用戶需求最為直接的刻畫,能夠有效命中用戶的興趣點;產品是用戶和商家的最終目標,是整個內容化的核心;內容則是對於產品,主題的詳細闡述,能夠有效促使用戶點擊、種草等。

本文主要圍繞這些難點,例如如何根據主題選產品,如何根據主題產品挖內容,進行具體的闡述,講述攜程AI助力產品內容化的相關實踐。

一、馬可波羅平台

1.1 馬可波羅平台簡述

馬可波羅平台是攜程的內容化中台,主要包含三個部分,如圖1所示:

1)數據層:馬可波羅中台也是一個數據的中台,在數據層麵包含了攜程大部分的數據,包括產品維表數據,產品評論數據,遊記攻略,旅拍等。

2)算法層:算法層主要包含兩個方向,NLP相關和圖片相關。 NLP相關則包含了NLP大部分的一些相關基礎算法,如情感分析,文本匹配,文本生成,實體識別,實體鏈接等。而圖片則主要聚焦在圖片優選上,包含圖片優美度,圖片分類,圖片去重等。

3)平台功能層:平台功能主要包含四個方面,主題自動發現,基於產品的內容化,基於文章的內容化以及內容多樣性。內容比較多,本篇文章主要從後三點進行詳細的闡述。

攜程AI助力產品內容化實踐 1

1.2 基於產品的內容化

基於產品的內容化,也就是以產品為出發點,自動的挖掘該產品對應的內容信息,包括主題圖片挖掘和主題優質文本抽取。

首先,運營人員會定義主題以及主題相關的關鍵詞,如“親子”主題,以及對應的關鍵詞“親子,兒童,孩子”等。基於定義的主題,利用算法自動獲取跟主題相關的產品,並且對於每一個產品,如“廣州亞特蘭酒店”,會自動挖掘“親子”主題對應的圖片以及文本內容。樣例,如圖2。

攜程AI助力產品內容化實踐 2

圖2 基於產品的內容化樣例

部分場景樣例如下:

攜程AI助力產品內容化實踐 3

圖3 主題產品挖掘線上展示

1.3 基於文章的內容化

基於文章的內容化,主要包含3個模塊。首先,進行主題文章的挖掘,根據當前話題自動獲取相關的文章,對話題文章進行自動聚合。其次,進行文章評級,通過對圖片/文本等內容的量級以及質感進行綜合評分,級別粗篩,有效過濾低質文章,縮小候選文章的量。最後,文章自動掛貨,自動識別文章中對應的景點,酒店,餐廳,城市等,並根據不同的場景需求,進行自動的產品掛載,提高產品掛載的靈活性。

線上部分場景樣例如下:

攜程AI助力產品內容化實踐 4

圖4 主題文章挖掘

1.4 內容多樣性

現有的內容數據模式比較單一,也比較冗餘,如游記類。因此,我們進行微遊記的生成,自動擴充微遊記的形式和數量,來滿足不同場景對於文本多樣性和量級的需求,提高內容的豐富度。

主要包括三個模塊,首先構建素材庫,包括優質長文本/短亮點自動抽取,圖片的首圖優選,內容和改寫和生成,主要是從大量的文本內容中獲取細粒度的內容素材。其次,文章框架模塊,可以根據不同場景的應用需求,定義不同的文章框架,如產品-多維度模式,給定酒店產品,從交通位置,設施,環境,美食等維度進行內容闡述和拼接。最後,進行微遊記的生成,包含圖文匹配,內容標籤化,語義去重等相關工作。

在線部分場景樣例如下:

攜程AI助力產品內容化實踐 5

圖5 優質內容抽取

二、主題內容挖掘

2.1 主題產品/文章挖掘

語義匹配是主題產品/文章挖掘的核心。語義匹配模型主要分為並行方式、交互方式兩類,根據抽取特徵到計算相似度之間是否發生交互。

並行式使用孿生網絡進行建模,也就是兩文本使用相同的網絡進行語義的抽象。在進行語義抽象的過程中,兩者是完全獨立的,沒有任何交互,因此損失了很多語義細節信息。但是它的優勢在於,工程應用時可以提前對候選進行語義向量化,提高效率,同時更能捕捉語義整體上的信息。

而交互式則是在模型建立的初期,就計算兩文本之間的交互矩陣,可以根據不同的場景需求,細化不同詞語粒度,不同表達角度的交互矩陣,從而較好地對兩個文本之間的交互細節進行度量。後加CNN等網絡提取方式度量兩者之間的相關度,把並行方式中利用相似度方式進行語義維度的距離建模轉化成利用深層網絡進行更複雜更為綜合的語義度量問題,從而有效進行相關優化,如圖7。但是在實踐中,交互式的方式會出現對於相關共現詞比較敏感的情況。因此,在使用的時候會對兩者進行綜合,結合兩者的優勢,達到更好的效果。

在實踐中,我們結合了並行式和交互式,分別根據圖6和圖7使用lstm+attention和CNN方法搭建匹配模型框架,然後將兩個網絡結構進行拼接,最後同時訓練兩者的loss。

攜程AI助力產品內容化實踐 6

圖6 語義匹配lstm+attention

攜程AI助力產品內容化實踐 7

圖7 語義匹配-cnn

我們使用1000個匹配的q和a,然後每個匹配的q和a隨機增加3~4條不匹配的數據。評判標準為分別使用監督學習和非監督學習的方法為每個q和a計算匹配得分,然後判斷最高得分的q和a是否為真實匹配對。最終的結果表明,監督學習的方法正確率超過90%,遠高於非監督學習80%左右的準確度。

對於匹配模型,從文本差異性上又分為相似模型和相關模型。相似模型,輸入的兩個文本具有相近的長度,同質的內容,如標準Q匹配。而相關模型,在長度、內容的類型上差異均比較大,如問答匹配。

對於我們當前場景,更多的是短文本-長文本的匹配,對於長文本而言,主題不聚焦,主題多樣性情況更嚴重,更偏向於相關匹配問題。對於相關匹配問題,結合局部相關度能夠帶來更好的效果[3],如圖8。

首先,基於不同的關鍵詞獲取對應的局部上下文,計算每個局部上下文跟整體主題的相關度。其次,對某個關鍵詞進行局部語義表徵,獲取當前關鍵詞和整體上下文的相關度。最後再基於每個關鍵詞的權重和語義表徵來獲取全局的語義表徵向量,完成從局部匹配到全局的一個語義的過度,從而達到更好的效果,相比DSSM這種單純的整體語義匹配的模型,能獲得更優的效果。

攜程AI助力產品內容化實踐 8

圖8 相關度匹配模型

2.2 文章自動掛貨

以文章為核心進行內容化,文章進行主題分類後,需要建立跟產品的關聯,也就是文章自動掛貨。文章自動掛貨的核心是命名實體識別和實體鏈接。

對於命名實體而言,主要使用基於lstm+crf[4]的方法,lstm能夠有效結合上下文語義,crf則能夠保證序列化的規則性。標準的命名實體識別分為人名,地名,機構名,而對於旅遊行業而言,需要的粒度則較細,需要細化到景點,酒店,餐廳,城市等維度。由於細粒度的類別在上下文的表達中,有較多比較相近的地方,因此在做命名實體識別的時候,類別還是到人名,地名,機構名。在識別出實體後,會基於一個粗分類模型,進行細粒度類別的區分,最終結合實體鏈接的結果進行進一步的反向校驗,如圖9。

攜程AI助力產品內容化實踐 9

圖9 旅遊的命名實體識別

在進行命名實體識別的過程中,會存在一些比較常見的badcase。對於有些badcase我們很難在模型中去完全解決,會通過增加一些後處理的方式進行校驗,如“瘦西湖”中景點部分識別,識別出“西湖”,則通過景點/酒店等的字典樹進行反向補全,提高準確和召回。另一方面,對於“另外酒店還非常人性化地為我們把退房時間延遲”,識別出“另外酒店”,這邊則會結合句法分析和詞法分析的方式進行反向校驗。

對於命名實體而言,利用多任務或者預訓練模型去進行模型的優化,是比較有效的點。多任務如結合語言模型,分類模型,跨場景的命名實體識別等方式[2],使用預訓練語言模型如bert,能夠有效提高最終準確率,在我們現有數據上能提高大概5-10個點。

對於實體鏈接而言,如圖10所示,首先會進行名稱模塊解析,通過前綴和後綴解析,獲取對應的核心詞。基於核心詞進行候選的召回,基於詞粒度的方式會導致召回過少的問題,基於字粒度的方式則會導致召回噪音過大的問題,這邊使用基於2-gram的方式來調整粒度,改善對應的召回質量。

在進行候選重排的時候,特徵維度則會結合整個mention部分,核心詞部分,後綴部分等交互組合的字面相似度,包括編輯距離,jaccard相似度,in邏輯等,同時結合候選簡介/地址等上下文與當前上下文的語義相關度,以及候選召回量和熱度。

實驗結果表明,語義相關度能夠帶來更多的信息量,有效提高召回,提升大概30個百分點,當然帶來信息量的同時必然也會有一定的噪音,對於準確度有一定的損失。在此同時,增加候選召回量作為特徵,有效模擬人在進行消歧判別時的邏輯,較少的召回量,從概率上看,確定性會更高一些,較多的召回量,則具有更高的不確定性,因此能夠有效提高準確度,大概6個百分點。

攜程AI助力產品內容化實踐 10

圖10 實體鏈接框架

2.3 主題圖片挖掘

這邊構建了圖片標籤分類模型,包含兩百左右的主題標籤。標籤的類別比較多,這邊構建了一個多層體系的標籤系統來提高保證同級別標籤之間的粒度和可區分度,如圖11。

攜程AI助力產品內容化實踐 11

圖11 圖片標籤層級體系

在應用時,用戶定義自己的主題,同時會手動建立自定義主題和200左右的圖片主題標籤的映射關係,從而實現用戶自定義主題的圖片自動挖掘,如“親子”,則對應“動物園”, “遊樂園”等。

三、優質內容抽取和生成

3.1 文章自動評級

對於文章評級而言,由於文章內容比較長,較為複雜,同時標準不一,難以定義,進行選優比較困難,因此更多集中在過濾低質的內容,標準較為清晰,單一,關鍵點的檢測較為簡單。在進行質量粗篩的時候,會綜合考慮文本長度,圖片數量,實體識別,圖文質量等維度,但是其核心主要還是敏感段落識別,負向情感識別等,核心是一個分類問題。

對於分類問題,常用深度學習分類模型,包括fastText,TextCnn,LSTM+attention等,均有不錯的效果。 2018年bert[1]出現以後,遷移學習在NLP領域成為主流。 Bert是transformer的Encoder部分,相對於僅僅使用當前詞上文信息的傳統語言模型,它同時結合了上文和下文信息,並使用Mask LM的方式進行訓練,同時結合Next Sentence任務,借助大規模的無監督數據有效提高對應場景的效果。它能夠較好的支持word level,如實體識別任務,和sentence level,如情感分析任務。在我們現有情感分析任務上,bert比其他方法效果大概超出3%-5%的準確度。

3.2 優質內容文本抽取和生成

優質內容文本抽取和生成可以見之前分享的《NLP應用及實踐-多場景智能內容抽取和生成》,這裡就不詳述。

3.3 首圖優選

首圖優選的功能位於我們馬可波羅-運營平台,如下圖所示,對​​於每一個酒店會根據主要的類別維度進行美圖的優選排序。提供一個AI精選的模塊,自動聚合了各個類別中較為優質的圖片集合,供運營人員進行優先選擇,利用這個模塊,運營每個酒店的效率提升了3/4。

首圖優選主要包含三個模塊:首圖分類,圖片美感度以及圖片去重。

首先,對於圖片美感度模型,我們這邊定義的是一個二分類問題,若是定義成回歸問題,對於樣本的標註要求比較高,需要多人對同一張樣本進行同時標註。在進行分類樣本標註的時候,盡量保證美圖和醜圖具有較高的區分度,對於定義比較模糊的樣本,則放棄標註。基於分類樣本訓練出來的美感度模型,從可用性角度來看,高分值的圖片確實具有較高的可用性,但是對於細分值的區分度則較弱,也就是說0.95分的圖片不一定比0.92分的圖片更具有美感度。

在此同時,美的圖片不一定適合做首圖,因此我們基於首圖優選場景,從特定類別和圖片視角定義了一些圖片類型,如外觀,游泳池,大床房等,如圖12所示。

攜程AI助力產品內容化實踐 12

圖12 首圖分類

對於首圖圖片分類和優美度判斷模型,用了基於inception v3的遷移學習,後接淺層網絡,基於當前場景數據進行finetuning,均能達到較好的效果。

由於圖庫中存在大量重複的圖片,或者進行較為輕微裁剪,加濾鏡等變換後的圖片,因此我們基於常見的變換方式,構建了大量輕度變換的匹配樣本,進行基於triplet loss的匹配模型的訓練。這比單純基於現有類似inception模型獲取向量的方式,對當前場景具有更好的適配性,同時特徵維度較為可控,特徵冗餘性較小,模型穩定性和性能也更好。

四、總結

本文詳細闡述了攜程在內容化上的一些實踐,包含相關框架,思路,落地場景以及核心算法,主要的模塊包括如何基於產品進行內容化,如何基於文章進行產品化,內容形式多樣化等。通過算法和模型能夠有效抽取現有大量內容中一些亮點,優質的內容,但是算法在文本的細節語義表達上的處理還是有一些欠缺,離不開人工的校驗。通過算法和模型的方式,能夠大大降低運營人員的工作和運營週期,有效提高效率。

未來優化點包括:

  • 特色抽取:結果中還是存在很多的比較單一的語句,在抽取部分存在例如:早餐豐富,孩子喜歡等缺乏細節或者特色的語句;在生成部分還存在句子句法錯誤的問題。
  • 缺乏用戶反饋:缺少用戶CTR(點擊率)數據,所有的流程和算法的結果驗證主要是依賴業務及運營人員檢驗,因此不能真實了解用戶的喜好和意圖。構建以點擊率、轉化率為優化目標的模型,從而切實為業務產生價值。
  • 抽取和生成結合:後面的方向需要考慮生成方式的探索。並且還需要合理地將生成結果和抽取結果進行融合。

參考文獻

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep BidirectionalTransformers for Language Understanding.

[2] Chen Jia, Xiaobo Liang, Yue Zhang. Cross-Domain NER usingCross-Domain Language Modeling.

[3] Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Jingfang Xu, Xueqi Cheng. DeepRank: A New Deep Architecture for RelevanceRanking in Information Retrieval.

[4] Lample,G., Ballesteros, M., Subramanian, S., Kawakami, K. and Dyer, C., 2016. Neuralarchitectures for named entity recognition.

作者介紹

孫哲,攜程資深算法工程師。長期從事自然語言相關工作,當前主要涉及內容化,對於內容挖掘和生成方面有相關的一些研究和探索。

本文轉載自公眾號攜程技術(ID:ctriptech)。

原文鏈接

https://mp.weixin.qq.com/s?__biz=MjM5MDI3MjA5MQ==&mid=2697269321&idx=1&sn=a4b797680aacde90c8db3f5676c706a5&chksm=8376ef7db401666be5c1ac927728806be10d9b92585d38dd351a3e00963c310e6f433b8f94f5&scene=27#wechat_redirect