Categories
程式開發

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定


對於大麥這種客戶眾多,搶票輿情極易爆發的業務,如何保障好線上質量是極大的考驗。大麥針對產品的線上問題分兩個階段進行了專項攻堅,拿到理想效果的同時沉澱出一整套解決方案及技術工具,其中核心技術產品釘釘機器人“麥粒儿”被阿里多個BU 接入使用以應對線上問題。本文分兩個階段來闡述治理的結果、過程及沉澱。

一、第一階段:提升線上問題的解決效率

  1. 業務屬性決定大麥要快速處理線上問題

背景:大麥的業務,售賣的是稀缺資源,而面對的客戶除了普通的消費者,還有主辦方、場館方和政府公安文化等,這樣的業務屬性,決定了我們對線上質量的高要求,線上問題的解決效率是我們的第一指標。隨著大麥內部一批大型新系統的陸續上線,線上質量的壓力越來越大,隨即由技術質量牽頭對線上問題展開專項攻堅,力保線上質量。

目標:通過專項治理,大幅提升線上問題的解決效率。我們對標了阿里內部各個業務的標準,制定了大麥的核心指標為線上問題的 1 小時解決率。

價值:所有影響用戶和業務的緊急問題在第一時間內得到解決;打通公司內各個部門,過程結果透明,所有角色信息對等,對質量放心;所有同學對線上生產有敬畏之心,視線上質量為生命線。

  1. 經過各部門的通力合作和技術攻堅使核心目標達成
  • 緊急問題的 1 小時解決率大幅增長。

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 1

  • 問題逐步收斂,解決時長大幅縮短。

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 2

  • 機器人全流程承接,全角色參與,進度結果全透明。
  1. 通過建立工具化支撐的處理機制來實現目標

1)面對複雜的線上問題和眾多的干係人,我們首先想到的是把問題分級,使那些真正緊急的問題暴露出來,並建立問題的全流程處理機制來標準化運行,如下圖:

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 3

2)有了處理機制,還需要有工具來承接使之高效運行,我們開發了虛擬機器人依托釘釘群進行問題的收錄和溝通,並打通了研發工作平台、郵件系統、故障系統等使問題的快速處理形成閉環,具體功能有:

  • 支持上報問題→問題進展同步→日報、週報→复盤提醒→升級故障,形成閉環。
  • 通曬緊急問題的核心指標,促進問題快速解決,實現核心目標達成。
  • 日常應答,方便主動跟進問題進展,對未關閉的緊急問題直接@接口人處理。

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 4

3)影響問題處理效率的核心是問題的定位。在治理過程中,技術團隊建立並完善了各自業務線的核心系統監控預警系統,使問題第一時間被發現。同時我們還開發了眾多的排查工具並打通全鏈路排查系統,結合輿情系統的精准信息反饋,使問題可以被快速定位。

二、第二階段:提升大麥的線上質量水平

  1. 重點從問題的解決效率轉向問題的收斂

背景:經過第一階段的治理,線上問題的解決效率已經得到了大幅的提升。但線上質量永遠是我們的生命線,真正影響用戶體驗的是我們的線上質量,我們隨即將目標對準提升線上質量本身,力圖實現收斂線上問題。

目標:將大麥的線上質量水平大幅提升。核心指標分解為:

  • 收斂整體線上問題,腰斬 TOP 問題,控制緊急問題的二次發生率。
  • 全面提效,完善機器人建設,全流程自動化承接,減少人力成本。

價值:形成一整套專業的線上問題解決方案並有配套工具支撐,阿里集團橫向打通;將線上穩定視為生命線,在公司樹立穩定壓倒一切的共識。

  1. 經過各部門同學們的通力合作,核心目標全部達成。
  • 線上質量大幅提升,緊急問題斷崖式下降。

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 5

  • 整體問題平均解決時長大幅縮短。

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 6

  • TOP3 問題被腰斬,緊急問題二次發生率不到 1%!
  • 機器人產品化基本完成,支撐業務線自運營,節省人力成本超一倍。 “麥粒儿”支撐集團多個 BU 進行線上問題處理。

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 7

  1. 為了達成核心指標,專項小組主要從專項根解 TOP 問題、完善機器人產品化、止血手冊和排查寶典建設三方面出發展開工作,具體事項如下:

1)對 TOP 問題進行專項治理,分級 action 根解嚴重問題。

  • 針對鏈路問題,成立專項小組進行治理。

我們對歷史問題進行了梳理和總結,在多個核心環節進行了多項產品及技術優化,並補齊 SOP 減少人為操作失誤,最終使產技問題清零,生產問題腰斬。

  • 制定完善的 action 分級機制並應用於緊急問題中實現問題根解。

為準確找到根解方案、保障 action 及時完結,我們制定了复盤會議規範、action 分類製度和 action 分級處理規則並推動落地,緊急 action 的周清率達到 100%。最終使緊急問題二次發生率不到 1%,超過之前預定目標。

2)完善機器人功能並進行產品化,開始推廣至外部 BU。

在一期功能的基礎上,機器人二期重點建設了排查止血指引、故障平台打通、各類功能優化等,補齊了全流程閉環並全面提效,完成了創新的自動化承接的線上問題管理方案,主要包含:

  • 處理閉環:問題上報(含止血、排查方案)–>處理通知–>問題解決、關閉通知(含解決時長同步及核心指標對焦)–>獲取問題原因、解決方案–>复盤提醒。
  • 升級流程:問題上報–>問題升級(故障標準)–>對接 GOC。
  • 信息同步:支持自動發佈線上問題的日報、週報等。

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 8

機器人建設里程碑

阿里怎樣守護產品線上質量?大麥用虛擬機器人搞定 9

隨著功能閉環的完成,開始進行產品化開發,同時完成多個專利申請;可快速配置個性化機器人,實現分鐘級接入全部功能;BU 內部眾多問題群接入機器人,整體滿意度超95% ;集團多個外部BU 也進行了機器人的接入工作,小小機器人開始橫向打通支撐集團的線上問題處理。

3)完成排查寶典和止血手冊建設,指導止血操作并快速定位問題。

  • 止血手冊建設:

背景:當發生線上問題或故障時,根據阿里安全生產規範,我們首先要做的不是排查問題,也不是解決問題,而是應該立即進行止血操作。爭取在最短的時間裡,最大程度的降低問題的影響範圍。之前在面對線上問題時,大家的止血操作效率低且容易被忽視,專項小組決定產出一份止血手冊,指導大家進行止血操作,提高問題解決效率。

工作:我們從實際線上問題出發,借鑒真實線上問題止血的實操經驗,對問題進行歸類整理,創建了經典場景的止血手冊,涵蓋了全部的緊急問題,並與機器人結合自動指導大家進行止血操作。

  • 排查寶典建設:

背景:專項小組在 TOPIC 一期以解決時長為衡量標準,推動各個業務線建設核心排查工具,從而提高了問題的排查效率。但是隨著排查工具的種類和功能的不斷增加,工具的操作使用說明沒有及時跟進,導致非該業務線的同學在查詢使用上存在困難;其次,當遇到需要排查上下游業務的線上問題時,因為不了解其他業務的排查思路和方法,只能等待其他對應業務的同學給出排查結果,導致問題排查效率低。

工作:若想擁有方便、高效的定位問題的方法,不僅在於有好用的排查工具,還在於有清晰的排查思路。我們從實際線上問題排查定位的實際經驗出發,收集建設各個核心系統的排查思路和配套工具,形成了核心業務的主要鏈路場景的排查寶典,包含問題描述、排查思路、詳細步驟、參考案例。並與機器人結合自動指導大家進行問題定位。

  • 止血手冊和排查寶典的整體結果

止血手冊結合排查寶典,使大麥整體的線上問題解決時長持續降低。

4)制定線上問題處理流程規範,助力高效自運營。

  • 為了解放人力,使線上問題的管理實現自動化的高效運營,專項小組在不斷完善機器人建設的同時,還出台了《大麥線上問題處理流程規範》,並依據規范進行週、月維度度量,逐步使線上問題的管理下放到業務線自運營。
  • 整體處理流程規範包含處理流程、aone 操作規範、定級規範、复盤規範、action 規範、故障標準、罰則標準等。
  • 結合機器人在群問題管理方面的人力成本降低,整體人力成本節省超一倍。

三、總結

隨著兩個階段的建設,大麥線上問題的處理效率和線上質量水平均得到大幅提升。但線上質量永遠是我們的生命線,穩定壓倒一切!未來我們還將繼續建設第三階段,致力於提升自動化和智能化水平,並把整體的線上問題管理方案體系化推廣出去。分解為:

  • 繼續推進機器人建設,打通全鏈路日誌系統實現問題的智能診斷,並結合止血手冊和排查寶典建設,實現問題自動應答。
  • 繼續為新系統穩定保駕護航,專項推進線上 TOP 問題根解,杜絕二次發生。
  • 完善整體的線上問題管理方案,支持更多阿里 BU 使用,為線上問題的專項解決提供更好的支撐。

作者簡介

阿里文娛測試開發專家 烈冰