Categories
程式開發

視頻質量機器過濾技術淺析(三):基於文本分類與特徵的視頻標題質量分析


短視頻信息流產品是目前最炙手可熱的互聯網產品之一,每天會有海量的UGC與PGC視頻被生產出來。如何平衡人工成本,高效地審核視頻質量,挑出真正好的視頻?基於AI算法準確識別視頻質量並進行機器過濾,可以提高視頻生產效率和生產質量,並最終提升用戶體驗。本專題具體介紹阿里文娛基於視頻封面、標題、內容等多個維度的質量評價算法、系統與平台架構,以及業務落地與應用結果等。本文是專題的第三篇文章。

1 背景:從文本信息評估視頻標題質量

短視頻行業近年的快速發展,生產了大量的短視頻,其中短視頻質量是參差不齊的,如果放任其中的劣質視頻發布, 會給用戶造成不好的體驗。一條短視頻要被審核,需要從標題、封面、視頻內容三個維度去分析,最後給出一個綜合的評分。目前優酷短視頻內容池每日新增的短視頻有數十萬量級, 但是人審帶寬有限, 而且審核工作量和成本均是巨大的, 必須提供算法模型對視頻打分, 達到接近人審的效果。本文從文本信息角度來評估短視頻的標題質量。

2 技術框架:規則模型、文本二分類模型

短視頻標題質量分析的技術框架分為規則模塊、文本二分類模型。

視頻質量機器過濾技術淺析(三):基於文本分類與特徵的視頻標題質量分析 1

2.1 六大規則模塊

規則模塊的目的是提取文本統計特徵, 用於業務上直接判定劣質標題, 比如某些業務需要標題字數必須大於8,則可直接對標題檢測和過濾。

  1. 敏感詞和關鍵詞檢測:比如,短裙美女性感熱舞內內
  2. 社交信息檢測:比如,談判與口才系列 更多精彩QQ153555286
  3. 標題語言檢測:比如,中文簡體,中文繁體,數字符號,外文
  4. 標題字數檢測:比如,《虎踞龍盤》28集大型剿匪抗日電視連續劇,字數為20
  5. 標題形態檢測:比如,文字:數字:符號=92.86%:0%:7.14%
  6. 標題錯別字檢測:比如,易洋千璽—>易烊千璽

2.2 文本二分類模型

標題質量分析可看成一類文本二分類問題, 開發二分類模型給標題打上概率得分(0-1之間, 得分越高表示標題質量越好), 最後基於業務設定閾值, 識別出差標題(得分低)。在本次框架中, 我們採用rnn+cnn model和bi-lstm with attention model兩種分類模型, 兩個模型預測得分進行加權平均, 得到最後的標題得分, 用於檢測差質量的短視頻標題。

3 標題質量分模型

3.1 模型選擇

深度學習在文本分類問題上應用越來越廣泛, 分類模型也常被用於文本質量分析, 我們開始採用的是經典TextCNN模型, 後來通過反复嘗試和實驗效果對比, 最終選取了能夠捕獲上下文信息的RNN + CNN模型和BI-LSTM with Attention 模型作為多模型融合方案。

3.2 模型細節

視頻質量機器過濾技術淺析(三):基於文本分類與特徵的視頻標題質量分析 2

RNN+CNN model: 預訓練200維的word embedding, 通過兩層BI-RNN, 其中一層是hidden_​​size為64的BI-LSTM和一層是hidden_​​size為128的BI-GRU, 再經過一層一維卷積層和池化層(最大和平均池化), 最後是兩層全聯接層。

BI-LSTM with Attention model:  預訓練200維的word embedding, 通過兩層BI-RNN, 其中一層是hidden_​​size為64的BI-LSTM和一層是hidden_​​size為128的BI-GRU, 對bi-lstm和bi-gru做attention操作, bi-gru輸出結果做最大和平均池化, 經過concat操作, 最後是兩層全聯接層。

3.3 樣本集構建

從短視頻內容池中,  我們選取了520萬帶有質量評級的樣本, 其中正負樣本比例是7: 93(正樣本表示帶壞標籤的視頻標題, 負樣本表示帶非壞標籤的視頻標題) , 通過隨機採樣, 我們構建出106萬條數據, 作為訓練樣本集。

4 效果與結論

標題質量模型上線後,機濾後視頻標題送審低質率已經優化到1%左右,結合標題文本特徵/規則檢測,視頻標題送審低質問題也基本得到了解決。

視頻質量機器過濾技術淺析(三):基於文本分類與特徵的視頻標題質量分析 3

5 後續工作

目前標題質量模型還存在少許badcase, 採用每日數據回流策略, 擴充樣本集, 定期重新訓練模型和更新線上標題質量模型, 目的一方面是擴充樣本集, 提升模型準確率;另一方面內容池的審核標準會隨著時間而不斷改善, 進而需要剔除一部分舊審核標準的樣本。

模型的優化點, 一方面考慮將文本統計特徵(比如上面的規則模塊的部分文本特徵)作為分類模型的輸入; 另一方面模型融合策略的優化, 比如將多個模型的最後一層拼接起來,再定義一個損失函數。

參考資料

(1) Convolutional Neural Networks for Sentence Classification Kim, Yoon. 2014. arXiv preprint arXiv:1408.5882 .

(2) A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification (Zhang and Wallace2015) Ye Zhang and Byron Wallace. 2015. arXiv preprint arXiv:1510.03820

(3) Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, and Sune Lehmann. 2017. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing

(4) Quora Insincere Questions classification https://www.kaggle.com/c/quora-insincere-questions-classification

(5) 文本糾錯 https://yuque.antfin-inc.com/zftpr0/textanalysis/pvehcs

(6) 優酷smartAI平台介紹 https://yuque.antfin-inc.com/ke5an3/euy590

系列文章:

視頻質量機器過濾技術淺析(一):系統與算法概述

視頻質量機器過濾技術淺析(二):基於弱監督的多模態圖像質量模型