课程简介
随着云原生理念和方案的逐步应用,诸多新兴业务逐步迁移到云原生监控方案中,例如采用Prometheus方案监控业务并结合Trace/日志提升可观测能力。而AIOps(Artificial Intelligence for IT Operations ),即智能运维,是将人工智能的能力与运维相结合,通过机器学习的方法来提升运维效率。AI方法的引入,使得机器能够代替人来做出决策,从而让真正意义上的实现完全自动化成为了可能。
本专题将分享头部互联网公司云原生可观测和AIOps能力的整合架构心得。
课程收益
1. 目标:
实现云原生架构下的集中化,全局化和智能化监控运维目标
2. 成功(或教训)要点:
a.打造云原生下基于Prometheus的高可用监控解决方案,全面+多维度的监控能力;
b.构建包括数据采集、数据存储、数据聚合运算、数据展示、告警通知、告警检索在内的完整监控告警通路;
c.整合百度在故障管理的经验,集成故障发现、故障止损、故障诊断和故障预测环节的一些智能运维算法,通过对数据模型进行分析直接输出故障原因。
3. 启示:
结合Prometheus等开源生态,整合百度智能运维算法,实现云原生架构下的集中化,全局化和智能化的监控赋能
受众人群
运维经理、运维工程师,以及对智能运维有兴趣的朋友
课程周期
1天
课程大纲
1. 百度云原生的产品能力积累
2. 结合Prometheus等开源生态能力打造的云原生可观测解决方案
3. 故障发现、故障止损、故障诊断和故障预测环节的一些智能运维算法探索
4. 云原生可观测解决方案的经典实践案例
5. QA