大型互联网企业端到端稳定性运维建设实践
Bali Tang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
​曾任快手稳定性方向高级专家,十余年互联网运维安全经验
浏览:330次
详情 DETAILS

课程简介

DevOps第一阶段许多企业最关注提效,通过容器化,借力元原生,加强内部工具和自动化建设之后,交付的效率和质量通过度量数据(需求数、研发周期、延期需求、BUG、故障数、处理时效等指标)发现不再是我们的主要矛盾,此时次要矛盾(稳定性)会成为主要的矛盾。

应用生命周期里,从开发、测试,部署上线之后的运营,影响稳定性的因素有很多,代码质量、测试质量与覆盖面、规范与流程,操作和责任心,都会息息相关。

本次分享重点围绕着三个方面来展现稳定性建设方面的经典实践,以SRE为主导的组织升级,让部门协助的组织架构有明确管理、高效沟通、高效负责;以度量体系 建立指标体系,让发现、追踪、跟进、复盘等良性循环;以专项 治理和机制,运动式解决当前主要矛盾,同时智能监控与报警机制,不断优化召回率,以达到先于精准发现问题的能力。

课程收益

目标:

1、明确组织升级在稳定性建设中的价值体现 ,包括SRE职责、Oncall机制、Oncall人员能力建设及职责;

2、建设可以发现问题的方法和能力,从可观测的指标,通过专项治理的动作,定期的Review ,成解决问题的一整套机制。

成功要点:

1、打破各部门的边界,串联起测试、运维、开发、其他等多部门,都需要往前迈一步的思想和动作,同时,明确解决问题的第一负责人,从全局视角看待稳定性,不放过任何一个影响稳定性的风险点。

2、专项治理:每家企业主要矛盾不完全一样,但,寻找问题的方法是相似的,度量指标看问题,专项治理解决问题

启示:

稳定性治理关键核心要点

1SRE,从被动支持,到主动驱动,从只看部门内,扩展到整个公司

2、流程与工具、平台约束提升稳定性至关重要,收好口,是减少误操作或乱操作的有效方法。

3、通过量化数据解决核心矛盾,结合每家实际情况。规范治理动作。

受众人群

1、开发人员、应用架构师和项目经理

2、 运维人员、系统架构师和服务交付经理

3DevOps 工程师

课程周期

0.53H 

课程大纲

分享内容

1、建立稳定性度量指标,通过指标看阶段性主要矛盾

2、从运维到SRE,完成组织升级,组织升级带来的组织变革。

3、专项治理实践:运动式当前主要矛盾、机制(流程、规范)和平台(约束),让同类型的问题得到根治

4、其中,完善SOP,设置必要的checklist,确保从治理一刻开始,后续不再出现漏添加等问题,除监控与报警,以及异常检测中大于n秒接口、异常状态码、SQL治理、元数据治理等专项。

5、通过治理引发的效果及可复制应用实践

6、稳定性的一些发展思考

7、QA

 


预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1