课程简介
DevOps第一阶段许多企业最关注提效,通过容器化,借力元原生,加强内部工具和自动化建设之后,交付的效率和质量通过度量数据(需求数、研发周期、延期需求、BUG、故障数、处理时效等指标)发现不再是我们的主要矛盾,此时次要矛盾(稳定性)会成为主要的矛盾。
应用生命周期里,从开发、测试,部署上线之后的运营,影响稳定性的因素有很多,代码质量、测试质量与覆盖面、规范与流程,操作和责任心,都会息息相关。
本次分享重点围绕着三个方面来展现稳定性建设方面的经典实践,以SRE为主导的组织升级,让部门协助的组织架构有明确管理、高效沟通、高效负责;以度量体系 建立指标体系,让发现、追踪、跟进、复盘等良性循环;以专项 治理和机制,运动式解决当前主要矛盾,同时智能监控与报警机制,不断优化召回率,以达到先于精准发现问题的能力。
课程收益
目标:
1、明确组织升级在稳定性建设中的价值体现 ,包括SRE职责、Oncall机制、Oncall人员能力建设及职责;
2、建设可以发现问题的方法和能力,从可观测的指标,通过专项治理的动作,定期的Review ,成解决问题的一整套机制。
成功要点:
1、打破各部门的边界,串联起测试、运维、开发、其他等多部门,都需要往前迈一步的思想和动作,同时,明确解决问题的第一负责人,从全局视角看待稳定性,不放过任何一个影响稳定性的风险点。
2、专项治理:每家企业主要矛盾不完全一样,但,寻找问题的方法是相似的,度量指标看问题,专项治理解决问题
启示:
稳定性治理关键核心要点
1、SRE,从被动支持,到主动驱动,从只看部门内,扩展到整个公司
2、流程与工具、平台约束提升稳定性至关重要,收好口,是减少误操作或乱操作的有效方法。
3、通过量化数据解决核心矛盾,结合每家实际情况。规范治理动作。
受众人群
1、开发人员、应用架构师和项目经理
2、 运维人员、系统架构师和服务交付经理
3、DevOps 工程师
课程周期
0.5天(3H)
课程大纲
分享内容 |
1、建立稳定性度量指标,通过指标看阶段性主要矛盾 2、从运维到SRE,完成组织升级,组织升级带来的组织变革。 3、专项治理实践:运动式当前主要矛盾、机制(流程、规范)和平台(约束),让同类型的问题得到根治 4、其中,完善SOP,设置必要的checklist,确保从治理一刻开始,后续不再出现漏添加等问题,除监控与报警,以及异常检测中大于n秒接口、异常状态码、SQL治理、元数据治理等专项。 5、通过治理引发的效果及可复制应用实践 6、稳定性的一些发展思考 7、QA |