构建大规模弹性系统
8 月 11–12, 2015 • 北京,中国
曲显平
百度

百度智能运维监控负责人,在运维监控、大数据处理与分析方向有着丰富的经验。

发言
2015-08-11 16:50
智能运维在监控中的探索
永泰大宴会厅B 

随着互联网产品规模的爆发式增长,大型分布式系统的监控复杂性也日益显现。工程师们发现:监控遗漏导致宕机的黑天鹅现象频繁发生;出现故障时很难从海量监控指标中迅速找到故障根因;报警风暴极大地干扰了工程师定位问题的速度;故障恢复速度基本依赖于工程师的操作速度。由此,我们尝试建立一个智能运维监控系统,希望用智能化手段去帮助工程师解决这些问题。

在本议题中,我们会以实际例子来讲解,在百度我们是如何帮助产品完成智能化运维监控之路的。主要包含如下一些内容:

  • 如何发现商业数据与运维数据的关系
  • 如何进行异常的自动检测
  • 如何解决报警风暴
  • 如何进行自动故障定位
  • 如何形成发现+定位+止损的监控闭环