Categories
程式開發

優酷大劇全鏈路技術保障探索和實踐


優酷大劇全鏈路技術保障探索和實踐

一、什麼是大劇保障?

優酷大劇保障主要是對大劇、大綜等節目視頻上線前和上線後進行質量保障。大劇視頻上線所涉及方很多:比如播放(類似報錯、卡住、黑屏、聲音等問題)、付費權益、運營配置、用戶輿情反饋是否正常等。

總的來說,優酷大劇保障主要是在大劇大綜開播前、開播後對視頻進行質量保障,及時發現問題並解決,避免資損和客訴,使用戶有更好的觀影體驗。

二、 如何保障?

大劇保障基本涵蓋了大劇生命週期的全鏈路各個階段保障,其中核心環節包括以下方面:

優酷大劇全鏈路技術保障探索和實踐 1

針對圖中的各階段,我們建設了大劇上線流程中需要保障的環節以及能力:

  1. 視頻生產

    視頻生產環節保障包括片源質量、上傳轉碼質量等維度,主要以視頻質量檢測為主。

    1) 介質到位時間,在上線前24小時檢查介質是否到位。

    2) 介質質量,採用機檢和人工檢查兩種方式進行,保證片源正常。

    3) 上傳轉碼耗時評估,重點關注開播前轉碼完成情況。

    4) 轉碼完成的流會自動進入視頻質量檢測,檢測其聲音、畫質、數據等。

    5) 直播流生產場景,主要檢測源流規格、流穩定性等源流質量,錄製過程中關注負載、排隊、耗時、畫質等。

  2. 運營管理

    1) 視頻、節目播控策略檢測及實時監控。

    2) 媒資數據檢查,如廣告點位、編目、其他重要字段,實時變化通知。

  3. 權益管理

    付費會員是視頻網站的重要上帝用戶,保證會員權益重中之重:

    1) 會員可看視頻的會員權益正確。

    2) 付費點播的交易、權益正確。

    3) 視頻相關付費屬性的校驗和實時監控。

  4. 播放環節

    播放環節是最主要的環節。以前有個痛點:視頻在開播前是屏蔽狀態,無法提前通過前端播放,只能等開播後到線上觀看,如果有問題則為時已晚。為了解決這個問題,我們建設了播放預覽能力:

    1) 播放提供預覽環境,可以播放未上線的視頻,同時與線上真實場景保持一致的會員權益、廣告、播放策略等,保證上線前可以模擬上線後的真實數據。

    2) 同時優酷提供APP、PC等客戶端預覽環境,得以在各端驗證播放效果。

    另外,我們也將播放自動化測試能力賦能在播放環節,比如接口自動化測試、播放器自動化測試。

  5. 線上監控

    1) 上線之後,除了有全量的播放監控,也有針對大劇建立了相應指標監控和報警,如播放成功率、卡頓率等。

    2) 對彈幕評論、客訴反饋、社會輿情中的信息,建立了實時監控,發現問題及時響應排查。

三、大劇保障平台

圍繞以上各環節,我們建立了大劇保障平台,提供自動或人工的檢測機制,並有相關變更和事件的通知觸達能力。

下圖是我們覆蓋到的業務以及相關的功能。

優酷大劇全鏈路技術保障探索和實踐 2

  1. 大劇管理

    我們會將重要級別的劇集自動或手動方式錄入到大劇保障平台,平台將自動拉取節目下的正片視頻、介質,上線時間等信息,大劇保障將圍繞上線時間展開一系列的保障。

    優酷大劇全鏈路技術保障探索和實踐 3

  2. 服務管控

    大劇上線期間,相關信息第一時間同步給各環節服務方,核心應用避免在大劇上線期間發布,如有服務發布或變更出現問題,第一時間回滾,避免問題擴大化。為了避免大劇上線期間因服務發布產生的問題,我們制定了服務管控規則:

    1) 大劇上線期間禁止相關業務發布變更,會在開播前機器人通知所有人。

    2) 熱度比較高的劇,實施封網管控。

  3. 問題觸達

    建立大劇保障釘釘群,將所有相關業務方技術、產品、運營等同學集中到一起,並配置機器人用於發送報警通知。系統支持訂閱大劇重要字段的變更通知,實時監聽正片的各個字段變化,有異常則報警通知。同時將各個業務方已有的保障和報警能力接入進來。

    檢測預警消息接入後,各環節消息非常多,重要消息有可能會被忽略,那如何優化消息觸達,不錯過重要異常信息呢?通過持續建立和優化機器判斷的能力,重要異常情況發送報警並精準觸達到指定人。同時我們會存儲以上所有操作變更記錄和時間點,用於快速排查問題。

  4. 機器和人工保障

    1) 系統自動執行各個環節的機器檢測,並提供人工check機制,雙重保障。

    優酷大劇全鏈路技術保障探索和實踐 4

    2) 上線前實時的檢測以及結果直觀的展示。

    優酷大劇全鏈路技術保障探索和實踐 5

    3) 上線前24小時播報檢測情況,比如在上線前的12小時、4小時、1小時播報當前檢測狀態。這樣不僅讓各方知曉即將上線劇集,也了解各個業務的檢查狀況。

  5. 線上監控

    1) 上線後的實時彈幕評論預警,客訴預警。其中我們在彈幕評論這塊做到了自動化過濾關鍵字來實時報警,這也是比較準確和及時的輿情來源。

    2) 上線後的播放質量監控。監控各端播放卡頓、成功率、錯誤數等情況,及時關注各端播放情況。

  6. 應急預案

    大劇建設了發現問題的能力,也要有應對快速止血的機制。我們確定了出現問題時的預案項以及相關人員,保證問題第一時間準確的傳達和快速止血,保證及時止損和問題快速修復,減少對用戶的影響。

四、總結

通過以上大劇保障能力的建設,我們在一個平台上可以直觀的看到每部大劇在上線前各個環節的健康狀態,異常變動有預警通知,有線上的穩定性監控以及輿情監控,線上問題有相對應的快速止血策略,整個保障鏈路形成閉環。目前平台相關能力仍在持續建設中,橫向我們將覆蓋更多的相關聯業務方,縱向將持續細化和加強每個業務方的保障能力。我們的目標是向著自動化、智能化發展,無人值守,做到上線前“心裡有底”,上線後“心裡不慌”。

作者介紹

黨高鋒,阿里文娛高級測試開發工程師。

相關閱讀

優酷播放測試體系構建及平台化整合方案

優酷如何構建覆蓋全網的播放白盒測試體系