SRE构建高可靠性互联网应用
Gavin Zhang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
资深运维专家、架构师,中国信通院分布式系统稳定性实验室高级技术专家。拥有20余年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。
浏览:5597次
2023/02/21
1元/人
1
详情 DETAILS

课程简介

Google最早在2003年就提出了SRE这个概念,历经了近20年的发展, SRE作为保障信息系统平稳运行的重要措施,已逐步在大型互联网公司落地,众多国民级应用背后都有SRE的身影。SRE理念是近年来运维领域最重要的变革,影响广泛而深远。从SRE的核心理念出发,运维都是围绕可靠性(Reliability)展开的。“质量、成本、效率、安全”是运维不可或缺的4个要素,其中质量尤为重要,而质量的核心就是可用性,可用性的核心依赖就是可靠性,真所谓殊途同归。

本课程清晰完整地讲解SRE(软件可靠性工程)的知识体系、理论体系;讲清楚SRE工程的方法体系,如何设计高可靠的系统、如何与产研、运维、质量等团队协作;会讲到如何快速发现故障、确定影响、定界定位找到根因,并快速修复故障。也会讲到保障能力、混沌工程、AIOps、可观测性等最新理念方法;从管理上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。本课程理论结合工程实践,会附加大量的实践案例。

课程收益

1. 知识体系完整、理论升华:

1) 学员讲清晰地理解什么是SRE、发生发展过程

2) SRE的方法体系、理论体系

2. 方法体系完整:

1) 讲述整套体系,行业当前的大部分热门方法,都能在这个框架里学到

3. 实践性强:

1) 中大互联网企业实践案例总结,属于行业最先进的经验,大部分可直接参考,甚至拿来用

受众人群

企业对象:互联网企业基础设施、IT部门、运维团队,传统企业的IT部门、运维部门

学员对象:运维工程师、SRE工程师、开发工程师、研发架构师、基础架构师、QA/测试工程师

课程周期

318小时)

课程大纲

主题

内容

第一部分(1天)

1. SRE概念发展

2. 传统可靠性的学科方法,传统软件可靠性的学科方法互联网可靠性普遍方法,先进方法

3. SRE的理念、原则、方法

4. 培训对象SRE组织的现状,工作模式学员成长经历,如何走到当下,分析当下状况

1. 可靠性设计:SRE如何参与和改进设计,从上层业务、应用、微服务、基础架构。设计或改进高可用系统

2. 项目实践案例&沙盘

第二部分(1天)

1. 可靠性观测能力:如何做好监控观测、AIOps的应用、快速发现故障、确定影响、故障定界、根因定位、并帮助做出修复决策

2. 项目实践案例&沙盘

1. 故障快速修复能力&保障能力:如何建设预案能力和快速保障能力

2. 项目实践案例&沙盘

第三部分(1天)

1. 可靠性试验和混沌工程:做好混沌工作,提前演练,防止人为故障

2. 项目实践案例&沙盘

1. SRE规划&团队转型&故障复盘

2. 实际业务为案例


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1