SRE体系架构建设与最佳应用实践

Drayce Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

某大型视频平台SRE体系平台工程负责人，SRE体系和平台工程负责人

浏览：1358次

详情 DETAILS

课程简介

云计算、云原生和大数据与AI等技术的蓬勃发展，给SRE提出了新的要求与期待。而运维的本质核心一直并没有改变，仍然是保障产线系统的质量、效率和成本。随着自动化、可观测性和稳定性运营成为更高效、更快速部署的关键因素，运维系统帮助我们在复杂架构和链路中响应、定位和治理问题的过程中大幅降低故障处理时长，提升处置效率。在应急响应和技术之外，将可观测的方法论应用在业务架构管理、数据资产治理和应用风险外露上，SRE系统运维提出了进一步的思考。
本次课程将围绕SRE体系架构展开，介绍SRE的核心概念、原理、思维方式和方法论，结合头部互联网的实践经验与案例，提供具体的落地实践方法和执行流程，深入理解并掌握提高团队效率和业务稳定性的核心方法。

课程收益

1.掌握SRE的知识体系、构建方法和团队转型实践经验；

2.悉知构建与提升运维软件工程能力的关键方向方法；

3.熟练掌握运维数据资产体系的构建和平台（CMDB/服务树/业务树）设计方法；

4.掌握运维/SRE效能体系的构建和平台（OnCall/流程/作业）设计方法；

5.掌握业务稳定性运营体系的构建和平台（SLO/容量/事件运营）设计方法。

受众人群

企业背景: 互联网公司以及计划落地SRE团队模式的传统企业；

技术背景: 运维、运维研发、SRE、软件研发、技术经理、架构师及对SRE感兴趣的运维人员

课程周期

1天（6H）

课程大纲

标题	授课内容
一、SRE体系介绍	1.什么是SRE，发展起源与国内落地实践情况 2.SRE、运维、运维研发和DevOps的区别 3.SRE原则和日常
二、SRE组织构建与转型	1.SRE组织构建的核心 2.转型SRE的挑战与取舍 3.百人团队转型实践案例
三、SRE数据资产体系	1.数据资产的重要性 2.数据资产中台-CMDB 3.数据资产标准化、自动化体系建设思路和设计方法 4.以服务为核心的新思路-服务树 5.服务树与CMDB的区别 6.服务生命周期管理
四、SRE效能体系	1.琐事定义、发现与消减 2.效能体系架构介绍 3.OnCall规范、系统设计与最佳实践 4.流程引擎设计与最佳实践 5.作业引擎设计与最佳实践
五、SRE稳定性体系	1.稳定性运营体系介绍 2.SLO&错误预算的定义、设计与实践 3.容量管理的背景、挑战与运营实践 4.业务稳定性运营流程与平台化设计 5.故障的定级定责管理 6.风险预警体系构建和运营
六、管控平台的多活建设	1.内部平台的多活建设思路 2.建设阶段与实践

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

自动化运维

1038次

Drayce Liu

百林哲咨询（北京）有限公司专家团队成员

Drayce Liu

百林哲咨询（北京）有限公司专家团队成员

SRE体系架构建设与最佳应用实践