课程简介
Google是SRE理念的发明者,通过该方法论保障了Google在全球服务的稳定性。本课程介绍了Google在该领域的成长经验,以及头部互联网公司在该方面的实践经验。另外还介绍了如何构建技术系统的稳定性建设体系,以及在运维自动化阶段和智能运维阶段,如何快速、有效的突破,使用有限的资源快速取得收益。
课程收益
深层次的了解SRE体系、自动化运维和智能化运维
受众人群
运维工程师、运维开发工程师、研发工程师、架构师、技术管理者
课程周期
2天(可根据客户定制化需求为1天课程)
课程大纲
运维领域的发展趋势和组织建设 | 国内外运维组织架构建设分享 Google SRE模式 阿里技术保障模式 腾讯技术运营模式 运维发展趋势和转型探讨 SRE DevOps AIOps 技术运营 |
SRE体系解密及实践经验 | 指导思想 拥抱风险 服务质量目标 减少琐事 分布式系统的监控 自动化系统的演进 发布工程 简单化 有效的故障管理模式 有效的告警 高效的故障排查手段 紧急事件响应 紧急事故管理 |
稳定性体系建设 | 基础架构 大规模微服务架构 云平台 其他基础设施 服务治理 服务注册与服务发现 全链路跟踪、调用链 服务流量分发、降级、熔断 极端业务场景下的稳定性保障 容量规划 限流降级 开关预案 全链路跟踪 |
运维自动化平台建设 | CMDB系统 监控系统 部署管理系统 工单系统 容量管理系统 预算系统 |
智能运维在稳定性建设领域的应用 | 故障检测和处理的全流程 自动添加监控 多维度异常检测 告警收敛和告警合并 故障的根源原因分析 故障自愈 服务治理 全链路压测 混沌工程 风险挖掘 |
Q&A | 案例分享 |
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员
Cole Gong
百林哲咨询(北京)有限公司专家团队成员