Categories
程式開發

苏宁AI监控运维保障建设实践


建设背景

近些年,苏宁一直基于云技术对外提供服务、产品、内容和应用。随着苏宁线上业务不断扩张,业务量不断上升,线上各系统间的交互关系也变得越来越复杂。目前线上运行的系统大约5000+,服务有15w+。

为了更有效的保障线上业务的正常运营,苏宁提出了从系统监控、问题定位、实时告警到决策分析、故障自愈的一站式解决方案,打造从“监”到“控”的全方位一体化的监控体系。同时,引入深度学习AI技术对监控数据进行知识图谱的构建和训练分析,更精准地分析出导致问题发生的根因,让业务人员及时了解到当前线上运营状况和可能产生的问题,并能预先采取有效的措施,保障业务的正常运营。

大规模时间序列分析与根因定位

业务背景

在传统监控中,面对海量运维监控数据,需要快速止损,但人肉监控(例如ELK)不现实,决策时间往往是小时甚至天级别。对于异常点往往需要丰富的经验去识别,但是随着时间的推移,业务数据的特点会发生变化,因此过去的经验也需要与时俱进。我们期望使用AI异常检测的方式快速发现问题并且给出决策建议(分钟级)或提前规避故障,并且使用历史数据结合AI算法自动更新业务经验知识。

异常检测平台能力

苏宁AI监控运维保障建设实践 1

异常检测平台主要由四大模块组成。

异常检测

原文链接:【https://www.infoq.cn/article/N0C86UVd3IBpcWDXNgpR】。未经作者许可,禁止转载。