课程简介
SRE目的是保障生产环境的稳定性并减少故障,而变更通常是线上故障的首要源头。变更导致的稳定性问题的占比达到70%以上。因此可以说防控住了变更风险,就主动防控住了大部分稳定性问题的源头,“没有变更,就没有伤害”也成为了稳定性领域的共识。
在大部分公司对于变更类的问题,大多都当作是一个流程管控、信息管控的问题来解决,增加变更的审核流程、管控变更的执行权限,在用户体量较大的公司,存在相互交错的组织协同模式、错综复杂的分布式微服务链路、对于稳定性的问题几乎是0容忍,所以针对变更的风险管控,除了制定一些流程和规范,还应被当作一个技术问题来解决,应该有变更管控技术架构、管理制度以及对应的技术平台,
本次分享将智能化变更防控上的技术演进,通过实践系统化的“变更三板斧”理念,将线上变更风险进行有效防控,同时不断往变更无人值守的方向进行演进,对AIOps相关领域算法进行实践应用等案例。
课程收益
1、目标
当前互联网、科技技术公司面临的变更风险挑战:
(1)相互交错的组织协同模式
(2)错综复杂的分布式微服务链路
(3)对于稳定性问题的容忍度
如何应对公司错综复杂的变更操作,做好变更防控,降低变更引入的稳定性风险,主要聚焦变更技术架构、标准与规范、以及智能化技术的应用,通过技术的手段保障变更效率的同时,降低变更风险。
2、成功要点
(1)技术架构:通过一套变更防控的技术架构,对于变更平台进行统一的架构约束,通过变更防控切面进行变更风险的防控,拓展变更防御插件体系,集成各类可观测性能力,同时具备可扩展性,快速集成各类风险防御能力。
(2)变更标准与规范:定义标准化变更的信息模型,对于变更进行标准化,才能够满足变更管控切面分离的目标,将变更防控与变更平台自身的演进进行一定程度上的分离。
(3)智能化技术应用:一些AIOps技术的应用,时序异常检测、日志异常检测、时序指标画像等技术的应用以及效果,智能化技术的应用,大大增加了变更风险防控的效果,尤其是在可观测性智能化上面。
3、启示
互联网以及科技公司为了快速应对用户和市场反应,演化出了各类的变更操作,包括运维变更、系统发布、营销配置变更等,这里变更往往会有人为发起,而如何约束人为的变更操作不引起风险问题,是变更防控这个领域需要解决的问题,其中也会涉及到智能运维、AiOps等相关技术的应用案例。
受众人群
AIOPS智能变更技术架构师、变更防控、变更风险相关人员、高可用智能化工作决策者以及其他对智能化变更感兴趣的人员。
课程周期
0.5天(3H)
课程大纲
授课内容 |
1. 变更对于高可用领域带来的挑战 2. 变更防控技术架构与案例 3. 智能化技术在变更防控中的实际应用 4. 几种常见的变更场景 5. QA |