基于云原生可观测的AIOPS能力

Doven Feng 查看讲师

百林哲咨询（北京）有限公司专家团队成员

百度基础架构部云原生可观测团队技术专家。负责集团云原生可观测产品的产品设计和架构演进。先后在金山云和京东云担任过云计算解决方案架构师和高级产品经理，多年行业上云架构师经验

浏览：2554次

详情 DETAILS

课程简介

随着云原生理念和方案的逐步应用，诸多新兴业务逐步迁移到云原生监控方案中，例如采用Prometheus方案监控业务并结合Trace/日志提升可观测能力。而AIOps（Artificial Intelligence for IT Operations ），即智能运维，是将人工智能的能力与运维相结合，通过机器学习的方法来提升运维效率。AI方法的引入，使得机器能够代替人来做出决策，从而让真正意义上的实现完全自动化成为了可能。

本专题将分享头部互联网公司云原生可观测和AIOps能力的整合架构心得。

课程收益

1. 目标：

实现云原生架构下的集中化，全局化和智能化监控运维目标

2. 成功（或教训）要点：

a.打造云原生下基于Prometheus的高可用监控解决方案，全面+多维度的监控能力；

b.构建包括数据采集、数据存储、数据聚合运算、数据展示、告警通知、告警检索在内的完整监控告警通路；

c.整合百度在故障管理的经验，集成故障发现、故障止损、故障诊断和故障预测环节的一些智能运维算法，通过对数据模型进行分析直接输出故障原因。

3. 启示：

结合Prometheus等开源生态，整合百度智能运维算法，实现云原生架构下的集中化，全局化和智能化的监控赋能

受众人群

运维经理、运维工程师，以及对智能运维有兴趣的朋友

课程周期

1天

课程大纲

1. 百度云原生的产品能力积累

2. 结合Prometheus等开源生态能力打造的云原生可观测解决方案

3. 故障发现、故障止损、故障诊断和故障预测环节的一些智能运维算法探索

4. 云原生可观测解决方案的经典实践案例

5. QA

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

次