SRE体系架构与最佳实践
Drayce Liu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某大型视频平台SRE体系平台工程负责人,SRE体系和平台工程负责人
浏览:634次
详情 DETAILS

课程简介

 当今的组织在更复杂的技术环境中处理更多的变化,这导致更高的中断和事故风险。传统运维团队必须提高服务可靠性和系统弹性。随着自动化、可观测性和稳定性运营成为更高效、更快速部署的关键因素SRE职位已成为增长最快的职位之一。
本次课程将围绕SRE体系架构展开,介绍SRE的核心概念、原理、思维方式和方法论,结合头部互联网的实践经验与案例,为参与者提供了具体的落地实践方法和执行流程,使其掌握提高团队效率和业务稳定性的核心方法。

 

课程收益

通过学习本次课程,学员将学习到以下内容:

* 掌握SRE的知识体系、构建方法和团队转型实践经验

* 掌握构建与提升运维软件工程能力的关键方向方法

* 掌握运维数据资产体系的构建和平台(CMDB/服务树/业务树)设计方法

* 掌握运维/SRE效能体系的构建和平台(OnCall/流程/作业)设计方法

* 掌握业务稳定性运营体系的构建和平台(SLO/容量/事件运营)设计方法

 

受众人群

* 企业背景: 互联网公司以及计划落地SRE团队模式的传统企业

* 技术背景: 运维, 运维研发,SRE,软件研发,技术经理,架构师

 

课程周期

 

1天(6H)

 

课程大纲

课程时长

课程内容

课程详情

第一部分

(共0.5小时)

SRE体系介绍

1什么是SRE,发展起源国内落地实践情况
2 SRE、运维、运维研发和DevOps的区别
3 SRE原则和日常

 

第二部分

(共0.5小时)

SRE组织构建与转型

1SRE组织构建的核心

2 转型SRE的挑战与取舍

3百人团队转型实践案例

 

第三部分

(共1小时)

SRE数据资产体系

1 数据资产的重要性

2数据资产中台-CMDB

3数据资产标准化、自动化体系建设思路和设计方法

4以服务为核心的新思路-服务树

5服务树与CMDB的区别
6 服务生命周期管理

第四部分

(共1.5小时)

SRE效能体系

1 琐事定义、发现与消减

2 效能体系架构介绍

3 OnCall规范、系统设计与最佳实践

4 流程引擎设计与最佳实践

5 作业引擎设计与最佳实践

第五部分

(共2小时)

SRE稳定性体系

1 稳定性运营体系介绍

2SLO&错误预算的定义、设计与实践

3 容量管理的背景、挑战与运营实践

4 业务稳定性运营流程与平台化设计

5 故障的定级定责管理

6风险预警体系构建和运营

 

第六部分

(共0.5小时)

管控平台的多活建设

1内部平台的多活建设思路

2建设阶段与实践

 

 


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1