Categories
程式開發

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強


隨著5G落地,用戶對視頻體驗的要求越來越高。當帶寬不再是超高清的主要矛盾之後,超高清還存在哪些挑戰?我們距離全面超高清還有多遠?阿里文娛一直在做相關技術的預研,並在2019年底推出了互聯網視頻行業超高清解決方案——幀享。那麼,幀享是什麼、有哪些關鍵技術、未來有哪些發展方向?且看阿里文娛高級算法專家 張行在GMIC Live 2020 智慧文娛技術專場中的相關分享。

幀享是什麼?

幀享是一個超高清的解決方案,從2B到2C的視角,幀享具備4個技術能力:

  • 一是高幀率增強,可提供最高120幀的超高幀率視頻,順滑地呈現物體運動場景;
  • 二是超高分辨率,對於畫面中微小的細節與結構,在幀享的視頻中也能刻畫得非常清楚;
  • 三是HDR高動態渲染,畫面對比更豐富,顏色鮮活有質感;
  • 四是幀享環繞音效,我們利用聲道間的相位差異,充分體現聲音的立體感和空間感。

前三個方向的特性分別體現了幀享對於時間、空間、亮度、色度的超高分辨與呈現能力,第四點是聲音特性和聲場效果,這四點組合起來,既是幀享能給用戶提供的關鍵特性,也涵蓋了觀眾對於超高清的訴求。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 1

要真正將幀享落地,需要深入到視頻製播產業的各個環節中,從左到右有5個關鍵詞:拍攝、製作、生產、傳輸和呈現,這五個環節環環相扣,每一步都與最終視頻的呈現質量息息相關。我們首先要保證每一步都能夠正確地處理,盡可能採集和保留更多內容信息;其次是挖掘鏈路上各環節的處理能力,利用我們在製作、生產和呈現上的人力和算力,進行信息的重建和增強,提升視頻體驗。

具體來講,在拍攝和製作環節,我們會給出明確的超高清視頻的要求規範;在製作環節,開放雲剪輯能力,為後期的剪輯提質提效;在介質環節,做嚴格品控,保證介質內容的基礎質量。在生產環節,減少轉碼的損失,利用我們平台的計算能力進行恢復和重置增強,同時對視頻進行結構化分析,拿到視頻的各種分類、場景、標籤等高低層的語義信息,將其與碼流一起傳輸到終端設備上,並進行適配的後處理增強和渲染。這種適配包括對內容、設備和用戶偏好的適配等,確保最終的體驗和效果。

幀享的關鍵技術:高幀率重置、高動態渲染、雲加端增強

1. 高幀率重製

從視頻中可以明顯看出,低幀率的豎線運動時一直在顫動,而高幀率的運動就很平滑。為什麼低幀率會抖動?

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 2

如上圖,x軸表示時間,y軸表示位移,物體的勻速運動在坐標系中是一條斜線,如圖中有箭頭標記的藍線。而實際的物體位置在這條藍線之上。由於低幀率的刷新率是有限的,物體的實際位置在一幀內是固定的,到下一幀會跳躍到另一個位置,就像上台階一樣。人的眼睛會天然的跟踪運動的物體,也會根據當前位置和運動速度,去推測物體的下一個位置,如圖中綠星星所標記的。我們看到物體的實際位置和物體的預測位置一直不重合,且預測位置一直在實際位置的上下抖動,非常傷害觀看體驗。

高幀率重置,在算法上就是插幀。插幀技術已經存在很久了,方法大概分成兩類,一類是基於特徵的傳統方法;另一類是基於數據的網絡方法。兩者思路是一致的,根據像素的幀間相關性去推算光流,再做插值。

在傳統算法中,先根據多幀的視頻圖像去做光流,預測出前後向光流,來映射到需要插幀的相位上。這時候就需要考慮很多特徵,比如到底是用前向光流還是後向光流、用雙向光流還是單向光流,哪些地方是露出遮擋區域等,根據這些去做插值重建,得到高幀率視頻,這是一種完全基於運動特性的傳統方法。

網絡方法非常類似,只是將光流的預測還有像素的差值都用網絡來實現,還有一些網絡方法可能更極端,它會把光流網絡和插值網絡合二為一,直接用一個端到端的數據訓練,得到一個插幀網絡。但無論是傳統還是網絡辦法,在插幀中有一個難以解決的問題——在一些運動的交界處,光流很難嚴格貼合物體的實際邊緣,這樣會導致各種各樣的問題。

優酷是如何優化的?

首先是基於成熟的插值算法,將各點效果做到極致,在實際場景中有效解決問題;其次是拆解問題,嘗試把通用的插幀問題,分層分類成不同的垂類,用不同的插幀方法來解決,實現整體最優。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 3

1)場景分類。在時間上做分類,將時間軸上的一個視頻按照場景切開,分成了多個場景,把不同場景分成全局運動場景、靜止場景、複雜運動場景、片頭片尾等。

2)目標的分割。在空間維度將圖像分成多個目標區域,例如台標角標的區域、字幕區域、前景背景、露出遮擋的區域。

3)垂類場景的插幀完成後,再經過一些柔性的融合得到最終的插幀結果。

4)人工校對。無論用多麼精巧的辦法、算法,總會有一些疑難的case,是技術無法處理的,所以在設計算法時,會自動對疑難case進行標記。在審核後台,這些標記區域進行人工審核,對於有問題的插幀結果進行回退處理。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 4

上圖是對比圖,左側上方飛掉的字幕,通過對字幕區域的特殊處理以後,已經能夠正常做插幀了。右側,將運動光流進行精細化,讓光流更貼合運動的前景輪廓,有效去除在運動物體週報的光圈效應。

2. 高動態的渲染

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 5

高動態渲染其實就是HDR。上圖是對比圖,左側是SDR效果(畫面偏灰,看不清細節);右側是HDR效果,畫面很美,點點繁星和山勢的暗部細節輪廓都非常清楚。

HDR是一個成熟概念,行業中有各種各樣的HDR標準。我們如何區別中間的差異,並選擇一個好的HDR算法? HDR解決的是一個從高動態到低動態,從寬色域到色域的映射效果問題。自然景物能夠呈現出的亮度範圍是非常高動態的,從1/萬nit到1萬nit以上都有。但顯示設備能夠呈現的亮度範圍是低動態的,大部分只有幾百nit,而低亮也不夠低。要把自然景物呈現到顯示器上,就面臨著一個從高動態到低動態的映射問題。所以,HDR的關鍵不是8ibt還是10bit,也不是4k或者1080,而是去理解內容和設備,確定在什麼設備什麼環境下,用什麼樣的映射去渲染內容,達到主觀效果的最優。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 6

上圖,左側是亮度從高到低映射,右側是色彩映射,需要把馬蹄形的大的寬色域映射到內部小三角形上面的窄色域。

幀享HDR在技術上做了哪些改進?

  • 一是測屏校屏,幀享要做標準的顏色管理,需要將不同顏色做到在不同設備做到顯示效果一致,用來排除屏幕的顏色偏移,把顏色做的更加準確。
  • 二是屏幕亮度和色度適配,不同設備的亮度差異非常大,從兩三百尼特到上千尼特,我們的測試也發現,即使用標準的HDR視頻,在不同亮度的設備上面的效果也存在差異。所以幀享HDR採用了多種的流策略,對於超過500尼特的屏幕,輸出標準HDR流;對於低亮屏幕,基於亮度去適配調整出獨特的SDR流;
  • 三是內容適配。每一個場景的內容,很少是滿動態或寬動態,有的場景整體很亮,有的場景整體很黑,這時我們可以取巧一點,將內容所在的部分亮度範圍做更好的映射,然後在其他亮度範圍,將映射做的差一些,這就是根據內容來做動態映射的一個出發點。幀享的HDR也是基於這一特性,用動態元數據,根據場景做動態的tone mapping。
  • 四是做鏈路的把控,後期、平台以及端上渲染,都可以做這種映射,但不能各自為戰,需要信息互通、互相協同,用統一的映射將效果做到最佳。

下圖是HDR對比圖。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 7

第1幅是顏色準確性、渲染顏色準確性的對比。右下角是優酷在蘋果上的播放效果顯示,其他三張都是同一個安卓手機的不同APP的顯示效果。因為屏幕本身是有些偏色的,所以可以看到友商兩幅圖的效果,人臉比較紅潤,就會紅的不太正常。但是優酷,人的臉色比較正常,更像蘋果的顏色顯示,所以對比就能說明在我們優酷通過測屏校屏,能夠去糾正錯誤的顏色渲染,然後得到更好的顏色效果。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 8

上幅圖是幀享HDR的對比圖,左側是HDR前(畫面顏色整體偏亮,對比小、畫面偏灰偏白);右側是Tone mapping後的HDR效果,動態TM後,擴大對比度,提升了畫面質感。

3. 雲加端增強

以前,我們常遇到這些問題:為什麼視頻流很好,到電視上卻效果不佳?每個設備的效果不一致,如何兼顧?如果知道內容特性,算法參數可以設置得更好,但實際上我們無法知曉內容特性,所以效果只能打折。以上都反映了一個共同問題,體驗是整條鏈路的體驗,必須將雲和端協同起來,一起為體驗負責。

雲和端如何做協同?

雲上,在編碼前做前處理;端上,在解碼後做後處理。我們在雲上處理的優勢,主要是算力豐富、算力高,並且它是非因果和離線的,可以算得很慢。劣勢是雲上算的時候,不知道設備信息,所以只能夠去做統一的處理,不能單獨調優。其次,雲上的增強恢復重建,都是增加信息量,所以壓縮效率低,壓縮後的碼率高,導致傳輸效率降低。在端上,我們知道設備、用戶以及環境的信息,用多參數、多種算法做適配,是一個多樣性的能力。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 9

我們將雲和端聯合在一起,用雲上的豐富算力做分析,用端上的多樣性做呈現,實現優勢互補的效果。右圖的4種情況,1是純雲端的處理,2是純端上的處理,3是雲端都可以處理,4是雲加端的協同處理。

雲+端的聯合處理到底有哪些應用?

基於算力優勢,我們會在雲端做複雜的探測、分析、分類,打標籤、編碼,再將碼流和探測出的語義信息、一些結果通過控制流去傳輸到設備端。用來指導端上的後處理模塊進行參數的設置、算法的選擇,以及適配處理。例如,通過去塊、銳化、超分等讓端上效果更出色。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 10

案例一,去塊。塊效應是壓縮導致的,在碼率不夠或者低亮的場景中。統一的去塊,有可能會損失信號的有用細節,使圖像變得模糊。但如果我們能夠做雲加端的配合,可以在源頭將流上塊的強度、類型都探測出來,然後把信息傳到端上,用這種信息去控制端上的去噪去塊算法的強度,達到既有效去塊又能夠保護細節的效果。

5G超高清關鍵技術:高幀率重置、高動態渲染、雲加端增強 11

案例二,智能滿屏的效果對比。

優酷有大量的年代劇,往往是4:3比例,現在屏幕尺寸是16:9,甚至是23:9、22:9。如果直接播放4:3視頻,畫幅會很小。普通平舖是以圖像的中心為中心,這樣的構圖佈局經常會丟一些重要畫面。優酷智能平舖是利用CV的識別分析能力,將眼睛更關注的信息保存下來,讓畫面的佈局更合理。

所以整個應用過程就是在雲端利用分析理解能力,對畫面進行自動的分析、提取,將信息與碼流一起傳到端上,根據信息進行渲染窗口的調整,達到實時的拆切滿屏的目的。優勢是一個流能夠滿足各種尺寸屏幕的觀看需求。

優酷超高清的願景

幀享的願景是,在5G和AI的背景下,為國內的互聯網視頻超高清路線提供解法和答案,推進視頻的超高清體驗的升級,讓C端用戶早日進入到超高清的觀影時代。另一個願景是超高清產業共贏。我們需要有超高清的標準去約束視頻產業鏈條的各方,製作生產出符合超高清標準的內容、設備,培養提升用戶心智,使他們願意為體驗買單。只有用戶願意買單,平台才願意為超高清買單,製作公司才會願意為超高清買單,實現超高清的商業化、規模化,實現用戶、製作、平台、終端整個鏈條上的共贏。

作者介紹::阿里文娛高級算法專家 張行