Categories
程式開發

美团点评实时计算平台的Flink监控与告警实践


为什么我们关注指标监控

以天气为例。

指标:衡量和描述对象的方式

  • 可量化:比如最近天气很热。今天比昨天热吗?北京的温度比上海更热吗?大家就没有办法评判,所以温度就是这样一个指标,来量化我们天热的程度。
  • 标准化:我们习惯说的温度是摄氏温度,如果有人跟你讲华氏温度,说今天77度,你就会觉得很奇怪,气温怎么会有这么高的数值,因此,我们的指标还需要是标准化的,需要有一个统一的标准。
  • 多维度:南方的同学觉得35度闷得喘不过气来;北方的同学觉得35度好像也就那样。因为我们除了气温这个指标会影响人体的舒适度之外,还有一个指标叫空气湿度。所以衡量天气需要结合多个维度的指标。

监控:对指标进行监测和控制

  • 实时:比如天气预报,实时的预报才是我们需要的监控内容。
  • 易用:相比于电视机里固定时间播报的天气信息,手机 App 就是易用的天气监控软件。
  • 可查询历史:比如前几天某地一直在下雨,河流湍急,可能影响我出行的选择。

本文由美团点评研发工程师孙梦瑶分享,主要介绍 Flink 的指标监控和报警,从以下四个方面展开:

  1. 监控告警链路:基于美团点评实时计算平台的实践
  2. 常用的监控项:哪些指标可以高效地衡量作业
  3. 指标的聚合方式:横看成岭侧成峰
  4. 指标监控的应用:有哪些常见的表达方式供参考

原文链接:【https://www.infoq.cn/article/yOWFDMCikoilLryOC5wr】。未经作者许可,禁止转载。