Categories
程式開發

視頻質量機器過濾技術淺析(二):基於弱監督的多模態圖像質量模型


短視頻信息流產品是目前最炙手可熱的互聯網產品之一,每天會有海量的UGC與PGC視頻被生產出來。如何平衡人工成本,高效地審核視頻質量,挑出真正好的視頻?基於AI算法準確識別視頻質量並進行機器過濾,可以提高視頻生產效率和生產質量,並最終提升用戶體驗。本專題具體介紹阿里文娛基於視頻封面、標題、內容等多個維度的質量評價算法、系統與平台架構,以及業務落地與應用結果等。本文是專題的第二篇文章。

1 背景:為何需要圖像質量算法?

無參考的圖像質量評價(image quality assessment ,IQA)是一個古老而又用途廣泛的研究領域,在視頻壓縮、圖像增強、視頻封面、圖像推薦等領域都或多或少有其身影出現。

為提供更好的用戶體驗,優酷每天海量視頻封面的生產需要大量人工進行審核,提高人審效率,降低人工成本,是一件非常重要的工作。我們設計開發了一套基於優酷視頻數據的圖像質量算法框架,提供圖像質量服務,為業務賦能提效。

目前,圖像質量算法可支持日均千萬級圖片處理需求,供給運營設計大量封面素材;並提供優酷視頻機器過濾封面評級服務,在短視頻封面人工審核業務中,較大程度實現了業務上提效。

2 算法架構:圖像美學、內容、清晰度等模型

人工審核封面為盡量減少個體判斷差異,優酷視覺設計團隊提供了20餘項客觀指標,如人物個數、圖像質量、標題安全區等。而本框架則從這些指標出發進行設計。

本框架主要包括幾部分子項:圖像美學模型,圖像內容模型,清晰度模型,人臉相關模型。

視頻質量機器過濾技術淺析(二):基於弱監督的多模態圖像質量模型 1

3 弱監督圖像美學回歸模型

美學模型是圖像質量評價的基礎模型。所謂圖像美學是圖像攝影領域的一個概念,即判斷圖像是美或醜,而人類在判斷時會依據一系列子指標,如三分構圖,背景虛化,清晰度,主體突出等。很明顯,美學評價是一個非常主觀性的領域。同一幅圖片張三認為是美,李四可能認為一般。考慮到主觀性,美學評價應用最廣泛的數據集AVA (Aesthetic Visual Analysis) ,圖片數量較多,每一張圖片均由多人打分構成,但這種標記手段,標記高昂,而且該數據集中圖片較為老舊,和優酷場景所用圖片有一定差距。另一常見的數據集為TID2013,主要側重圖片清晰度,且真實圖片較少。 AADB數據集是Adobe公司給出的一個公開數據集,每一張圖對應總分和各子指標分值,該數據集圖片和真實圖片最為接近,但數量較少。

4 基於標籤傳播的數據構建及初始模型訓練

美學回歸模型為基於resnet50的回歸模型,backbone即主幹網絡為resnet50模型,其後接一128維全連接層並接最終輸出分值。

本任務數據集有標籤數據為AADB數據集,其他數據基本是從優酷日常產出的視頻封面中構建而來,其真值為對應的美學分值。在美學分值構建時,因大量數據無人工標記,採用了類似標籤傳播(label propagation)和主動學習(Active learning)的方法來構建。

所謂標籤傳播為弱監督學習中基於圖模型(graph-based)的經典方法,其基本思路為利用有標籤數據訓練模型,之後利用該模型度量無標籤數據和有標籤數據的距離,距離較近的可以利用有標籤數據進行傳播預測,而預測得到的新模型可以持續迭代,實現標籤傳播。

主動學習是一種減少人工標註工作量的方法,即已有模型在預測無標籤數據結果中,錯分樣本和分類置信度低的樣本經過人工干預可以重新標註,而這部分數據因其難區分性,往往又會達到更好的訓練效果。

視頻質量機器過濾技術淺析(二):基於弱監督的多模態圖像質量模型 2

  1. 有標籤樣本訓練:初始選擇有標籤AADB數據集,並根據該數據集訓練一深度回歸模型,此處的回歸模型採用了基於inception-v3的回歸模型;
  2. 挑選優質圖,標籤傳播:選用質量較好的封面數據,這部分數據為優酷日常積累,是運營人員對一些劇目人工上傳的劇照等圖像素材。利用已訓練模型提取128維embedding分量,並和原始標籤數據做距離判斷,並利用較近的有標籤數據的分值賦給無標籤數據,同時外加隨機擾動。
  3. 人造樣本,分值加權:2)中圖片人工添加噪音,具體添加噪音類型有:重影,模糊,jpg壓縮,椒鹽噪聲,隨機文本,隨機圖形,隨機蒙版等。利用原始圖片的分值,外加隨機權值降低分數。此處對應產生6w圖片。
  4. 中間模型訓練:利用1)~3)中的數據重新訓練模型,模型架構為resnet50。
  5. 真實樣本,主動學習:挑選優酷日常審核團隊積累的封面數據,該部分數據側重於評價較為中等或偏差的數據,豐富樣本構成。共4w數據。主動學習挑選難分樣本:利用1) 4)中的模型生成標籤,選擇差距較大部分數據進行人工干預。
  6. 自建resnet-50模型訓練:構建完整數據集,進行訓練,得到基於resnet50的深度回歸模型。

5 基於課程學習的模型優化

優酷在日常審核視頻封面時積累了大量數據,審核團隊會將封面劃分為好中差三個等級,但該部分數據有較多噪音,部分為人工誤判,部分來源於機器評級。同時人工審核時會有一些特定規則,比如競品台標,標題安全區,大頭照等,而這些規則邏輯上對美學評價影響較小,對美學任務來講為錯誤劃分的噪音。為了將這部分弱標籤數據應用到美學模型中,我們使用了課程學習的辦法進行優化。

所謂課程學習是模擬人類認知學習由易到難的過程,在機器學習過程中,將樣本池由易到難劃分為多個子樣本集,這一過程稱為課程選擇;之後由易到難訓練各子樣本集即完成課程學習。可見課程學習的要點在於如何將樣本池由易到難劃分,同時課程訓練策略的選擇也至關重要。

課程選擇使用了三個模型完成:

  1. NIMA基於AVA數據集的預訓練模型;
  2. NIMA基於TID2013數據集的預訓練模型;
  3. 自訓練resnet50回歸模型。同時選擇500w樣本池進行課程學習。

訓練過程具體如下:

視頻質量機器過濾技術淺析(二):基於弱監督的多模態圖像質量模型 2

  1. 數據池生成初始真值文件:使用3個模型分別進行分值預測,構成3組真值文件;
  2. 課程設計:按照預設閾值對3組真值文件分別判定好中差,則最終將數據池劃分為27組數據,即“好好好”->”差差差”。邏輯上來講三個模型均評價為“好”的則該數據大概率為較優圖片,均為“差”則該數據大概率為較差圖片。按照這一邏輯將數據池劃分為“易中難”三個數據子集;
  3. 課程學習:數據集分開訓練,“易”數據集正常訓練模型後;混合“易”“中”兩個子集在之前基礎上進行訓練,但“易”“中”數據比例按2:1輸入;混合“易”“中”“難”三個子集繼續訓練,“易”“中”“難”數據比例按4:2:1輸入,最後得到最終訓練模型;

將弱監督訓練模型作為預訓練模型,在自建數據集上finetune;此即為最終美學模型。

6 圖像內容模型

優酷視頻封面除了希望展現更好視覺體驗之外,同樣希望展現更好的內容給用戶。封面內容希望展現跟當前劇集內容相關的,但目前這一點較難辦到。

因優酷視頻中影劇綜佔比較大,故人物的行為是優先考慮的,其中親密/衝突是一類比較吸引人眼球的內容,而對動漫/記錄片這種非人物主要內容的視頻來講,主體突出,畫面保持乾淨是一個基本需求,故同樣也添加了這一類別;此外還有一些人物內容,美學模型較難兼顧,如人物背影,部分人物,雜亂人物背景,人群等也被添加為訓練類別。

7 清晰度模型

模糊/清晰度判斷在日常應用中是一個比較基本的需求,故單獨提取出來訓練一個模型。基於深度學習的模糊判斷,目前並未發現較好的結果。

從日常業務來看,有如下幾個原因:

  1. 強個體差異性;
  2. 模糊是一個分辨率上的相對概念,模糊圖像縮放到較低分辨率時可能消失,而清晰圖像放大到較大分辨率後也可能模糊;
  3. 模糊同樣也是空間上的相對概念,以模糊人臉舉例,只考慮局部區域的話會判定為清晰,但放大到一定程度來講才感知為模糊;
  4. 前背景模糊,只有前景模糊才算模糊,背景虛化是一種比較常用的攝影手段,但像遮標帶來的模糊處於背景中,也會影響感觀。

為此我們嘗試了兩種方案:

  1. resnet50分類模型:將樣本標記為全圖模糊,背景虛化,全圖清晰,前景模糊四個類別。
  2. 前背景分割結合resnet50分類模型:使用deeplabv3+模型分離出前背景,前景區域抽取最小外接矩形以及最大內接矩形,準確率絕對值下降,模糊召回率提高,而清晰圖片的召回率則是有明顯下降。考慮到更多圖片誤判為模糊,而且速度劣勢,故最終選擇基於resnet50模型直接分類判定清晰度。

8 人臉相關模型

人臉在優酷日常視頻中佔據較大比例,故單獨提取出來,作為一個單獨的模塊。人臉檢測:使用MTCNN完成,檢測出人臉後進行人臉關鍵點檢測,之後摳取人眼區域進行睜/閉眼判斷,睜閉眼模型採用lenet-5架構。

  1. 明星識別:為基於inception-v3的分類/註冊雙路模型;
  2. 人臉屬性判斷:主要是依據規則進行判定,標題安全區為特別定制,即人臉區域離圖像邊界有一定距離;頭像判定則主要依據人臉檢測框大小和位置判斷,如大頭像/頭像/胸像等;人臉個數判斷則是檢出人臉個數不宜過多;表情識別目前調用外部平台結果,希望盡可能展現誇張表情。

下圖為輸出結果示意圖:

視頻質量機器過濾技術淺析(二):基於弱監督的多模態圖像質量模型 4

9 展望

目前,圖像質量算法滿足了優酷多個視頻封面業務需求,之後計劃將多模型預測優化為單模型多分支輸出預測,豐富輸出細節,同時支持多種視頻類型應用(影劇綜,動漫,紀錄片等),實現既輸出更多審核內容又提昇運行速度的需求。同時,在不同的業務場景下,需要對算法模型進行針對性的訓練和優化迭代,以提高算法落地的實際效果。

參考資料

(1) AVA: A Large-Scale Database for Aesthetic Visual Analysis, Naila Murray, Luca Marchesotti, Florent Perronnin

(2) Photo Aesthetics Ranking Network with Attributes and Content Adaptation, Kong, Shu and Shen, Xiaohui, etc.

(3) NIMA: Neural Image Assessment, Hossein Talebi, Peyman Milanfar

(4) Learning with Local and Global Consistency, Dengyong Zhou, Olivier Bousquet, etc.

(5) CurriculumNet: Weakly Supervised Learning from Large-Scale Web Images, Sheng Guo, Weilin Huang, etc.

系列文章:

視頻質量機器過濾技術淺析(一):系統與算法概述