Categories
程式開發

對話柯旻:中小企業不適合實踐AIOps,更應該上雲


2016年,Gartner提出了利用AI技術的新一代IT運維,即AIOps(智能運維),來解決未來企業可能遭遇的因IT故障而導致的業務中斷。隨後,AIOps的概念得到了廣泛普及和發展,有人把2018年稱為AIOps的落地元年,把2019年稱為AIOps快速發展的一年,那麼,實際情況到底如何呢? InfoQ準備了7個AIOps領域的“尖銳問題”,並採訪了2020年QCon全球軟件開發大會(北京站)AIOps專場的出品人柯旻。

根據Gartner預測,到2022年,40%的大中型企業將部署AIOps平台。那麼,企業實踐AIOps需要哪些前提條件呢?完整的AIOps實踐需要具備哪些能力?企業轉型為AIOps,運維人員的工作需要做哪些轉變?當前,國內AIOps實踐到底進行到哪個階段了? …以上這些大家關心的問題,柯旻都為我們做了解答。

自動化運維是AIOps的前提條件嗎?

AIOps的實踐不是一蹴而就的,而是逐步發展的。在發展過程中,有人會質疑某些AIOps實踐是偽AIOps,質疑某些AIOps實踐是傳統運維+自動化策略…那麼,AIOps與其它運維方法的差異體現在哪裡?實現AIOps的前提條件是什麼?哪些企業適合實踐AIOps?

Q:傳統運維、自動化運維和AIOps之間的差異具體體現在哪裡?

柯旻:如果要說傳統運維、自動化運維和AIOps之間有哪些具體的差異,我認為主要是體現在機器資源的規模越來越龐大,以及業務組件越來越複雜複雜,帶來的運維領域對數據化,智能化的越來越高的要求。

隨著公司業務的發展,底層資源也會逐步跟隨業務發展快速增長,同時由於體量發生巨大的變化,引發底層技術發生變革(例如分佈式技術,存儲計算分離等),整體的複雜性發生了質的變化,同時用戶不再只是使用單產品,而是整個平台層面、多產品的整體使用,所以運維複雜度也會呈幾何式增長。隨著這些變化,如果完全靠人力已經無法有效支撐(穩定性,效率,成本,安全)其業務發展了。所以對數據化,智能化的需求會越來越迫切。

對話柯旻:中小企業不適合實踐AIOps,更應該上雲 1

Q:自動化運維是實現AIOps的前提條件嗎?

柯旻:從我個人的角度來看,自動化運維是實現AIOps的前提條件。

AIOps本質上是通過機器學習算法以及相關的大數據技術能智能&自動的解決日常運維方面的問題,這就涉及到對數據收集、傳輸、處理、在線/離線計算、AI算法平台、工作流執行…等一系列的底層平台的功能依賴支持。所以AIOps一定是建立在一個比較高度完善的運維自動化基礎上的,這樣才能建立一整套底層數據處理平台,這其中會涉及從業務需求—算法實驗—數據採集—提取&清理—算法接口—達標反饋等一套平台以及流程落地,深度集成基礎運維和數據運維服務以及核心的運維管控,以數據,算法驅動全鏈路適配不同運維場景。

對話柯旻:中小企業不適合實踐AIOps,更應該上雲 2

Q:實現 AIOps 需要哪些前提條件?中小型企業是否適合實踐AIOps?

柯旻:想要實現AIOps涉及的相關還是比較多的, 比較常見的技術包括大數據平台相關技術、算法、機器學習、場景感知、自動化平台的完善等,當然最主要的還是上層組織認可後在資源上有一定保障的持續投入。

中小型企業是否適合實踐AIOps呢?在我看來,目前來說是不適合直接實踐AIOps。相比來說,上雲比實踐AIOps更重要一些。因為AIops需要的相關底層的技術能力在雲上都有一定的產品支持(雲廠商已經把相關技術產品化掉),對於中小企業來說,上雲後不需要太多底層技術資源上的投入,而可以直接使用雲上產品來做相關的智能化數據分析,同時減少了一些IAAS,PAAS層的要求(例如虛擬資源動態切換這個一般雲廠家都會提供相關功能,而我們只需要使用他們的能力) ,專註解決業務運維相關的運維問題,從而簡化前期投入以及避免技術投資浪費(前期投入過多的底層技術資源,隨著上雲後這些技術投入很多將失去意義)。

完整的AIOps實踐應具備哪些技術能力?

為什麼企業會選擇從傳統運維轉型到AIOps呢?在柯旻看來,做出這種轉變的主要動因還是業務發展帶來的底層資源規模的變化以及企業業務複雜度的變化。那麼,一個較為完整的AIOps實踐應該具備哪些技術能力呢?如果轉型為AIOps,運維人員的工作內容會有哪些變化呢?

Q:一個較為完整的AIOps實踐應該具備哪些技術能力?

柯旻:拋開底層的自動化平台層面和數據收集處理的大數據平台方面的技術能力之外,AIOps的核心主要集中在數據算法、機器學習技術方面。所以一個完整的AIOps實踐需要多團隊&技能協同,例如AI算法專家需要對比方、層次聚類、隨機森林、時序數據分解、DNN、RNN等算法方面的技能,運維平台研發專家需要負責整個運維產品的開發,數據分析決策後如何閉環執行,具備工程研發以及產品化能力,同時SRE還需要了解架構規劃、數據分析運營等相關多維度能力要求。一個完整的AIops team會是需要一個多方面綜合技術能力的集中。

Q:如果企業向AIOps轉型,那麼運維人員的工作會發生哪些變化?

柯旻:說實話,企業轉型AIOps,對傳統運維人員帶來的衝擊會非常大。比較突出的變化是,以前變更管控、配置管理、環境部署、日常操作、性能分析、故障定位等工作可能都會被智能分析、故障預警、運營分析、運維數據挖掘等取代。從核心上來說,越來越多的決策會交給機器算法來判斷,機器會把絕大部分工作都做了,包括異常檢測,根因分析/定位、異常預測等。不過,這個變化也不是突然發生的,而是慢慢逐步變化的。如果舉個例子的話,就類似於現在的自動駕駛,不是一蹴而就直接到最終局。運維人員自身需要做的改變是,把自己腦中的經驗能力抽象成自動化產品運維能力,把日常經驗沉澱為平台數據積累,業務場景問題的提煉總結,升級自己的研發技能,和算法工程師一起幫助機器決策變得越來越準確。

當前AIOps實踐的現狀

有人說:“2018年是 AIOps 落地的元年,2019年是 AIOps 快速發展的一年。”確實,現在討論AIOps概念的少了,討論實踐案例的反而多了。那麼,在實際應用中,AIOps有哪些最佳實踐,目前AIOps的應用情況到底如何?

Q:AIOps有哪些比較好的應用?如何看待國內目前AIOps的應用情況?

柯旻: 坦率來講,目前我在AIOps領域還沒看到太成熟的應用,在某些單維度、週期性的場景下可能有一定的效果,但在多維度海量數據場景下效果不是很理想,特別是在異常檢測,根因分析、智能預測等場景中。主要原因可能是在這種場景下,有各類異常數據打標,產品一個版本發布變更之後可能會發生巨變,算法參數就失效了,導致出現大量的誤報等。同時涉及的相關維度也比較多,例如可能用戶只是個訪問失敗,涉及的鏈路有業務邏輯代碼、分佈式存儲、緩存系統、數據庫、CDN、網絡、OS、硬件等各個環節。而很多時候大家都希望能有一個直接標準的機器學習算法一步到位來解決異常檢測所有問題。但這種做法通常不太現實最後會走到死胡同,因為這整個問題已經復雜到AI算法不擅長的程度。所以這塊從方式以及時間上這塊還需持續投入。

從國內情況來看,我個人看到的目前幾家頭部企業在AIOps領域都在做一些持續嘗試,因為業務場景已經倒逼相關公司運維團隊必須要通過這樣方式提升整體運維能力去解決穩定性、成本、效率等問題。 (目前我們已經在日誌聚類,異常檢測-週期性檢測,黃金指標分析,根因分析等場景上有了一定的落地)而其它企業的更多是在理論或觀望階段,又或是在某些地方做小的嘗試,這些企業的特徵是主要業務體量並沒有那麼緊迫的壓力,而且需要有一定的技術積累持續投入。

Q:如何看待AIOps的發展趨勢?

柯旻:我對AIOps的發展趨勢還是持很樂觀的態度,因為目前對於雲計算整個業內大家都已經是一個比較清晰的共識,而隨著企業逐漸上雲之後,很多底層技術門檻都會逐步降低,例如大數據技術、算法能力、自動化運維能力…等等都會被產品化使用,使得大家可以更聚焦業務場景運維數據的智能化處理場景投入,解決實際的業務運維問題,繼而提高整個運維領域的生產力。

最後附上我們內部對比Tesla的自動駕駛和AIops對比的一個情況。困難是未知的,目標是明確的。

對話柯旻:中小企業不適合實踐AIOps,更應該上雲 3

採訪嘉賓:

柯旻(大舞)大數據資深技術專家,阿里巴巴計算平台事業部基礎工程技術負責人。從 2007 年加入中國雅虎後合併到阿里集團,歷經 IDC,系統工程,CDN,雲計算,大數據,等不同領域。目前負責整個阿里集團大規模離線計算,流計算,批處理,實時交互式分析型,AI 算法等大數據平台的公有云,專有云以及內部業務的運維以及運維產品開發,體系建設,架構規劃,對外輸出等方面工作。

更多AIOps落地實踐請關注 QCon北京2020,大會邀請多位技術大咖與你一起探討智能化運維新技術,幫你提升整體運維能力和效率,點擊了解詳情