Categories
程式開發

智能运维系列(七)| 化繁为简:业务异常的根因定位方法概述


根因定位分析(RCA)是智能化运维(AIOPS)一个重要且难于实现的领域,涉及到归纳分析和演绎推理的相互结合,是从大数定理到逻辑性完备链条推理的综合应用。分布式架构的海量数据为相关分析奠定了基础,但业务异常案例相比于庞大的指标/日志数据却显得凤毛麟角,因此需要具备从相关性到因果性的强AI能力:基于运维领域知识进行演绎推理,同时因果推导的过程和结论要具有可解释性便于复盘分析和不断优化。

微众银行采用了自主可控的分布式架构,基于大量低成本的PC server和开源组件构建复杂的银行系统为亿级客户提供了丰富多样的金融服务。在数量维度,截止2019年底,微众银行日金融交易峰值达到了近6亿笔。在质量维度,微众银行不断挑战金融系统质量的极限,提出了电信级99.999%的全年可用率目标,对故障处理方面对异常定位和恢复时长提出了更高要求,力争实现异常发现后的秒级定位的目标。

分布式架构增大了系统的规模和复杂度,一个业务功能由几十个系统服务组成,软件架构和依赖关系十分复杂,同时这些系统服务由大量的主机/容器承载,与众多数据库、中间件及平台组件相关,涉及庞大的基础资源。分布式架构增大了异常定位的难度,依赖人工针对大量数据进行相关分析和跨领域逐一排查的工作方式很难满足定位时效要求,因此运维人员希望有个智能机器人可以在业务异常的时候快速准确的定位问题以便及时恢复业务。

原文链接:【https://www.infoq.cn/article/KdU36RwjbJkXjMLdd1aq】。未经作者许可,禁止转载。