Categories
程式開發

智能运维系列(八)| 事件指纹库:构建异常案例的“博物馆”


博物馆为人类留存珍贵的记忆,以史为鉴方可开创未来。在运维领域,是否也需要一个类似“博物馆”的场所,来记录异常案例,从而助力寻找隐藏的根因定位规律呢?

在微众银行的运维实践中,运维人员结合了大量的长期历史异常数据,基于知识图谱,构建了一个异常案例的“博物馆”,实现了根因的辅助定位,并搭建起一个监督学习框架,既能让机器自动学习,又能以恰当的方式融入专家经验,从而助力运维人员快速精准地定位、解决问题。本文就针对构建该“博物馆”的过程及其应用进行详细说明,如异常案例包含哪些数据、如何存入图谱中、如何进行历史根因的推荐等。

前文回顾

专题 | 智能时代下的运维

历史事件对比流程

当前智能运维中的根因定位大多从某一个具体和方面入手去推断异常,如日志的根因定位,未能做到宏观的比较。然而,现实中的异常需要分析的维度非常广,包括且不限于告警、接口指标曲线、日志、应用版本发布、SQL操作、推广活动、应用变更以及业务批量操作等。同时,新案例也不会跟历史案例进行对比,白白浪费了历史案例的宝贵经验。

智能运维系列(八)| 事件指纹库:构建异常案例的“博物馆” 1

图1 常见的异常分析维度

因此,我们需要一个更综合的方法,对比历史相似案例进行根因定位,建立一套实时存储、抽取特征、对比指纹、推荐根因的解决方案,辅助当前的分析。一个完整历史案例对比过程包括以下三个步骤:

原文链接:【https://www.infoq.cn/article/4hxfWtcfoNjz7jJRfxZQ】。未经作者许可,禁止转载。