智能运维故障处理中的系统工程

王亚雷

云兴维智(北京)    CEO

清华本科,美国德州大学奥斯汀分校硕士。十多年从事互联网服务平台,分布式 计算和数据存储的开发和管理工作。先后任职微软总部、eBay和Twitter总部, 拥有超过二十年的企业大数据平台的运维管理和研发工作经验。 2016年回国创立云兴维智(北京)科技有限公司,并担任CEO。公司提供面向 企业云平台和在线应用的运维大数据平台服务,致力于多维度运维数据的收集、 整合、呈现、报警和智能分析,打通现有的运维数据孤岛, 运用人工智能解决 企业运维运营的困境,帮助企业进行高效和精准的运维。 公司客户包括金融、能源、制造、跨国企业及互联网公司,并成功获得联想之星、 明势资本、华创资本等多家风投机构共计数千万元的投资。

演讲概要

复杂IT系统中故障的高效发现和排除问题的解决是一个复杂的系统工程,不能仅仅依赖一个单一的功能或算法。我们在实践中总结出一套帮助AIOps能够在企业中落地的算法、功能和支撑平台。报警压缩能够帮助我们在众多的重复和无效报警中减少报警数量,发现重复报警中的最重要的报警条,这个类似使用根因分析发现众多指标中造成突变的根源指标。报警压缩存在一个重要的检验因素:即不能错误压缩而造成漏报,我们在实践中作出了很多努力防止这种情况。异常的自动发现帮助我们从固定阈值报警中解放出来,异常算法需要根据强周期和弱周期分开计算。在高效发现问题的基础上,通过指标的关联分析和日志、事件的关联,帮助操作人员定位故障,使用知识库推荐故障的根源和解决方案。

听众收益

1. 如何做好落地的AIOps在故障分析中的实践、算法和平台
2. 探讨算法落地的途径