Categories
程式開發

AI在愛奇藝視頻內容個性化生產與分發中的運用


AI技術正在變革著網絡視頻內容的生產和傳播方式。以愛奇藝為例,其每天產生的視頻數量規模從幾萬量級到上百萬量級不等,愛奇藝構建的智能推薦系統利用搜索推薦、深度學習等技術,讓這些海量內容得到了個性化分發的同時也滿足了用戶的體驗。此外,愛奇藝還在探索利用AI技術根據用戶的興趣去定制化生產抓住用戶興趣、增強用戶粘性的內容。在11月21-22日召開的AICon全球軟件開發大會(北京站)2019 現場,InfoQ有幸採訪到了愛奇藝研究員楊紫陌,她詳細介紹了AI技術在愛奇藝的視頻內容、個性化海報圖及推薦語的生產分發運用。

以下為InfoQ與楊紫陌對話全文,有刪減

InfoQ:首先請您做一下自我介紹,您自何時加入愛奇藝,以及目前主要負責的工作?

楊紫陌:我加入愛奇藝快兩年時間,現在主要負責愛奇藝APP的推薦算法。具體來說主要有視頻內容推薦、個性化海報圖及推薦語的生產分發、流量中控等項目。

InfoQ:愛奇藝APP每天大概產生的視頻數規模有多少?

楊紫陌:每天產生的視頻數量級不太一樣。愛奇藝主頁的電影、電視劇,綜藝,兒童,動漫等優質頻道的內容,大概是幾百上千數量級。如果加上游戲、主播、體育等偏PGC(專業內容製作)的視頻內容,數量大概在上萬數量級。如果要加上UGC(用戶自己製作的視頻內容),數量規模甚至有可能上百萬。

InfoQ:推薦系統對於海量內容的傳播至關重要,愛奇藝的視頻推薦系統整體架構是什麼樣子的,主要運用到了哪些AI技術?

楊紫陌:推薦系​​統是AI算法最早看到商業價值的領域之一,所以業界推薦系統的整體架構都比較通用成熟了。一般來說,推薦系統分成這樣幾個階段:

首先是生成推薦池。整個視頻庫的量級非常大,可能是千萬或億量級。先從視頻庫裡選出一些可以被推薦的內容,我們稱為推薦池,大概會有百萬量級的內容可以進這個推薦池。這一階段核心是,根據內容特徵篩選掉一些低質或者違規的內容,比如低畫質、年代久遠、涉及到政治敏感、黃色暴力的內容。

第二階段是召回,召回思路一般會根據用戶的觀看歷史記錄、搜索記錄、偏好類目選擇一些用戶可能喜歡的內容,召回策略主要包含協同過濾, 意圖預測,偏好召回和向量召回等。這一階段的核心定位是,對每一個用戶根據其偏好和行為,對所有的內容進行一次初篩。

第三階段是排序。排序環節,會對內個用戶召回的內容進行打分,獲取分數最高的少量結果,分數計算的規則是通過用戶上億次的線上點擊行為學習出來的。分數值會參考的特徵也是很豐富的,包括內容的特徵(如熱度、題材、時效性、外部輿情),用戶特徵(如用戶偏好、瀏覽記錄、登錄頻率、是否會員),以及環境特徵(如wifi、gps、時間)等。

最後會有一個規則層,通過降權過濾等手段,處理一些算法無法顧及的用戶體驗的問題,比如不再推薦用戶已經看過的視頻、盡量向用戶多樣化展示視頻內容等。

InfoQ:針對長短不一的不同視頻內容,算法是如何做分類並分發推薦的?

楊紫陌:首先用戶對於長視頻、短視頻的需求不同。用戶觀看短視頻的意圖和行為多表現為簡單“刷一刷”,打發閒散時間。而消費長視頻,大部分用戶需要一段相對完整的時間,所以消費長視頻的心理門檻也較高。例如,晚上是長視頻的高峰期,上下班路上則是短視頻的高峰期。基於上述規律性的差異,我們會對用戶的意圖和行為進行預測,預測用戶是更傾向於是看長視頻還是看短視頻。

用戶在一個視頻上觀看的時長,可以很大程度上反映用戶對這個視頻的喜好程度,所以在做混合推時,我們也會對長短視頻的樣本做一些處理。最開始我們的樣本是用“觀看時長”來決定樣本權重,但這樣長視頻明顯有優勢。後來我們考慮用“完成度”來衡量,但這樣對短視頻有優勢,用戶很容易就看完了,甚至有時候用戶不喜歡也懶得跳過。最終我們採用的是一個相對折中的方案,用當前行為相比於“平均觀看時長”(指所有用戶觀看這個視頻內容的平均時長)這個指標來衡量用戶對該內容的喜歡程度,如果用戶觀看該內容的時長超出平均時長,我們就認為,相對於其他用戶,他更喜歡這個內容。這個策略讓排序服務的精度提升非常明顯,它可以更好的平滑長短視頻之間的打分差異,使得模型打分更注重於真實相關性。

InfoQ:所謂“個性化”,判定標準可能千差萬別,機器根據用戶的行為去推薦給他可能感興趣的行為,但很多時候,用戶可能並不真正感興趣,如何來做界定?

楊紫陌:判斷一個用戶是否真的喜歡某一個視頻內容,這很大程度上是通過用戶觀看內容的時長來衡量的。對用戶在該視頻內容上的停留時間、是否倍速播放、是否托拉拽、是否有二刷等觀看行為做綜合分析,來判斷用戶對該內容是否真正感興趣。

InfoQ:有時候,算法推薦的可能並不是用戶想要的,算法往往推薦給用戶大量相似內容,這反而會給用戶帶來困擾,您怎麼看?

楊紫陌:在做推薦分發時,為照顧用戶體驗,針對用戶行為較豐富的用戶,在“規則”層會做打散。但如果用戶在平台上的行為非常少,他/她只看了某一類內容,那麼確實有更大的可能會發生被推薦類似內容的情況。對於這類低粘性用戶,我們會給一個相對大的概率去出各頻道的優質內容,更多的去探索用戶的興趣,幫助他發現平台上更多樣性的內容。

InfoQ:個性化海報的生產和分發具體是如何操作的?

楊紫陌:有很多視頻內容,單單通過一個海報者展示,用戶可能很難真正理解到這個內容吸引人的地方。我們希望通過改變內容本身的分發形式,來提升內容對用戶的吸引力。而相對人工生產/分發,機器製作具有自動高效、可複用、千人千面等特點。

個性化海報的生產主要有三種途徑:一是,通過官方運營海報本身的二次加工或者預告片、外部數據生成海報。二是,通過視頻內容本身出發,對優質畫面進行截幀,對劇照進行再加工。三是,運用模版組合方式,通過素材縮放和位置移動等形成不同模版、尺寸。

海報分發環節,我們會根據用戶偏好的標籤,匹配出用戶最有可能能感興趣的海報。並且建立退場機制,將一些質量不高的,用戶點擊率不高的海報從內容推薦池去掉。在人工審核時,運營也會結合畫面評分,和用戶的線上反饋情況(ctr)進行綜合的判斷。

InfoQ:在海報分發和生產過程中都用到了哪些AI技術?效果如何?

楊紫陌:在海報生產方面,會用到圖像增強、目標檢測,圖像分割等技術。在生成演員特徵時會用到人臉、動作、場景的識別、以及對於海報有沒程度的打分。在智能檢查時也會用到AI,比如如何避免在智能裁剪時避開人臉、避開文字等。此外,在對一些老影視劇做重塑時會運用到圖像增強技術,將以前模糊的、分辨率低的海報變得更清晰。相較於傳統的海報生成,個性化海報上線效果提昇明顯,線上分發效率(ctr)提高了10%左右。

AI在愛奇藝視頻內容個性化生產與分發中的運用 1

InfoQ:在海報標籤語的製作上,是怎樣做的?

楊紫陌:推薦語的生成主要運用到了NLP技術。針對同一個內容生成推薦語,需要考慮的因素比較多,如情節、主題、用戶喜好、召回方式、內容彈幕等。

InfoQ:AI參與內容創作目前還在探索階段,愛奇藝在這方面做了哪些嘗試?

楊紫陌:AI為傳統的內容製作行業提供工具。如,前面提到的利用圖像增強技術對經典內容的重塑、在原有內容基礎上做智能剪輯、拼接等均屬於再創作。在一些影視劇、綜藝節目的後期製作環節,在渲染、剪輯、對鏡等操作中也會廣泛運用到AI技術。

嘉賓介紹

楊紫陌,愛奇藝研究員,負責視頻內容的個性化分發、個性化海報圖推薦語的生產分發、流量中控等項目。 2013年阿里星,在阿里集團負責精準營銷、商品推薦、支付寶智能運營等項目。曾獲全美數學建模特等獎、最佳組織獎、最佳創意獎。發表SCI期刊論文十餘篇,其中一篇入選ESI全球高引用論文。