Categories
程式開發

智能運維繫列(十四)| 人與技術相結合的異常管理實踐


數字銀行智能運維繫列專題已經進入尾聲,已經發表的文章從管理和技術上全面解釋瞭如何構建智能根因分析系統。這篇文章主要闡述系統背後的IT異常事件管理思路,包含異常識別、異常影響評估和通報等,通過自動化、智能化手段來提升異常事件管理效率,幫助縮短平均修復時間(MTTR ,Mean Time to Repair )、增加平均無故障時長(MTTF,Mean Time To Failures),從而達到降低業務損失的目的。

前文回顧

專題| 智能時代下的運維

一個異常事件的生命週期包含發現階段、處理及恢復階段和總結回顧階段,每個階段都有對應的管理要求: 發現階段需要快速識別異常事件並通報給關聯人員;處理及恢復階段需要實時監控異常影響並進行必要的管理升級,確定異常事件恢復方案并快速恢復服務;總結回顧階段需要對異常事件進行總結,包括異常的實際影響,後續如何避免重複發生等。下文將對異常事件全生命週期管理各個階段進行詳細的闡述。

智能運維繫列(十四)| 人與技術相結合的異常管理實踐 1

圖1 異常事件生命週期管理

異常發現

異常事件管理的關鍵是能及時識別到異常並啟動異常事件應急響應機制,調度IT各項資源盡快恢復服務、降低影響。微眾銀行根據實際造成的影響,將異常事件分為多個級別。評級維度包括是否影響關鍵產品、影響時長、影響量、影響交易占比等。不同的異常事件級別有對應的響應要求和升級要求。

通過RCA的異常檢測智能算法實現了關鍵產品業務指標(交易量、成功率、時延)異動的自動發現和預警,即使用機器學習算法實現無閾值的曲線異動識別。算法檢測出來的離散的異常指標先經過聚合處理,變成一個個事件。每個事件再根據影響程度定義不同的級別,以確定後續的處理流程。

異常影響分級模型排除恢復時間的不確定性,將影響業務的重要性、影響面、異常指標嚴重程度作為評估參數,其中業務重要性通過產品重要性、場景重要性來衡量,影響面通過影響的產品、場景數量來衡量。每個異常都會根據三類參數、通過算法計算出影響分值,匹配出對應的異常事件級別,具體過程如下圖所示:

智能運維繫列(十四)| 人與技術相結合的異常管理實踐 2

圖2 異常影響分級模型示意圖

模型解釋:

異常事件影響=∑產品係數* 場景係數* 指標分值

  • 產品係數:不同產品的業務重要程度;
  • 場景係數:同一個產品下不同場景的重要程度;
  • 指標分值:不同業務指標所反映的嚴重程度不同,分值不同。

以上模型同時實現對部分已知低風險場景的降級處理,比如單個用戶的重複嘗試、計劃性維護、週期性業務活動等帶來的指標波動。
異常影響分級模型投入使用一年多,根據模型計算的異常事件級別準確率達95%以上,能有效地完成事件級別的初判。下圖是一個異常事件的影響級別展示示例:

智能運維繫列(十四)| 人與技術相結合的異常管理實踐 3

圖3 某次異常的影響及級別

不同分級的事件對應不同的處理流程和通報要求。普通事件自動通知產品運維團隊,按事件管理流程處理。異常事件除了普通通知手段外,還啟動電話通知,並同時進行管理升級,自動通報管理層相關領導,啟動異常事件響應機制。

異常處理過程中的持續監測

隨著異常事件的動態發展,異常涉及的產品和指標可能會發生變化,事件級別也會隨著動態更新,並觸發相應的升級機制。

在異常事件持續過程中會周期性計算從異常開始到當前時間對業務的實際影響,並通報相關人員。工作時段、非工作時段分別由不同角色人員負責升級提醒,雙重保障機制。

當RCA異常事件涉及的產品和指標部分恢復時,智能分析平台將動態更新指標恢復比例,讓異常事件處理團隊實時掌握事件處理進展。在恢復過程中,異常事件處理團隊需反饋事件原因,一線運維團隊協助跟踪和反饋,作為後續總結及復盤的依據。

異常總結及回顧

異常事件恢復後,會進行兩個層面的回顧:

1.關注事件本身,後續如何避免類似事件再次發生:

普通事件總結需要改進的點報問題跟進處理;異常事件須深度回顧處理過程,總結存在問題,在技術上、管理機制上製訂改進措施,形成總結報告,並跟踪報告中記錄的改進項的完成狀態,未來將觀察是否有相同原因導致的異常事件發生,從而驗證改進措施的效果。

2.關注RCA 異常檢測和根因分析,需優化的方麵包含:

  • 時效方面:異常開始、異常發現、異常通報、根因結論推送各環節是否滿足時效要求,有沒有可優化的空間,如何進一步提高;
  • 異常發現方面:是否漏告,事件合併是否合理,是否誤告;
  • 根因分析方面:導致事件發生的真實原因是什麼,RCA根因是否準確,根因證據鍊是否完整,各類證據(告警、變更、日誌、業務操作等)是否具備,數據是否準確,推送是否及時。

通過复盤,可以推動在如下方面做優化:

  • 算法優化,提升異常識別準確率:通過對異常事件識別準確率的持續分析與統計,發現指標之間的關係與指標自身的特點,修正異常識別算法;

  • 運維各方面數據的完善,輔助根因分析:持續推動完善各類監控,每個異常場景能捕捉到作為根因證據的告警;持續完善變更視圖,明確每一類變更可能產生的業務影響,快速定位異常是否與變更相關;

  • 專家知識庫完善,提升根因分析準確率:針對新的異常特點,總結專家經驗形成新的推導規則,完善知識庫。

總結和回顧環節對異常事件管理異常重要,意義在於:

  • 減少影響產品和服務的事件量,提高系統穩定性;
  • 提高異常事件檢測和根因定位效率,以快速恢復異常。

只有總結和回顧環節真正得到落實,建立有效的反饋機制,才能讓RCA變得越來越智能,發揮更大的作用。

結束語

RCA項目實施後,通過技術手段給異常事件管理帶來了很多收益:

  • 異常事件管理效率大幅提升:異常事件通報及時率,升級識別準確率是以往管理上的兩個痛點,現在都得到了很好的解決,根因分析準確率不斷提升,縮短了異常事件恢復時長;

  • 運維更加規範化:RCA全面使用生產環境的各項數據來支持根因分析,包括監控告警、基礎配置、變更操作記錄、應用日誌、業務交易流水等,倒推相關信息規範化管理,以滿足RCA輸入數據標準化的要求,運維數據更加規範化;

  • 專家經驗持續積累:每位運維人員都是某個領域的專家,RCA的持續反饋機制可以將專家大腦中的隱性知識逐步分享出來,應用到異常檢測和根因定位中,並將運維人員從日常排查的重複工作中釋放出來,使其有更多的精力去思考架構上、機制上的深層次問題,從而實現進一步的改進和提升。

另外,在異常分析過程中,我們自始至終貫徹了一個核心思想:一方面通過自動化和智能化幫助異常事件更加透明和高效,另一方面,通過科學管理手段,並結合運維專家的專業能力,提供全流程支持。當異常事件升級到較嚴重的程度,需要專業的運維管理人員決策和調度協調線下資源,確定異常事件的恢復方案、推動方案落地實施。在整個異常結束後,也需要專業的運維團隊進行異常的回顧與分析,提出改進措施和跟踪改進方案的落地,持續指導RCA的優化方向。對於自動化和智能化而言,運維管理人員充當了老師的角色,提供源源不斷的專家經驗,監控或批改自動化或智能化的輸出結論,保障運維平台建設始終服務於運維管理要求。

歡迎各位朋友交流指正。如果希望了解我們在智能運維中使用的機器學習算法以及支持根因分析的具體方法,請參閱該系列其他文章。

作者簡介

作者係微眾銀行智能運維繫統高級產品經理劉世芬