课程简介
SLO为应用程序的性能定义了明确的目标,帮助团队提供一致的客户体验、平衡功能研发与平台稳定性,改善与内部和外部用户的沟通。蚂蚁的基础设施团队负责包括K8S资源调度、中间件、L4/7流量调度、数据&智能、缓存等众多异构系统,以SLO构建基础设施侧的健康度体系,除了为各个系统定义明确的性能目标,也为系统可观测性、应急等提供了一套通用的框架,通过将AI赋能SLO数据、结合实际场景(AIOps典型实践场景),从运维数据中挖掘更多的价值,让运维更加提效和智能。
本专题将分享SLO的介绍、如何从0到1构建SLO、AI结合SLO数据发挥更大价值、以及基于SLO的健康度体系在运维场景下的一些成功实践。
课程收益
1. 目标:
a.以SLO构建健康度体系,除了为系统定位明确性能目标、SLA外,也为系统可观测性、稳定性、应急等提供了一套通用的框架;
b.结合Prometheus等监控手段,从0到1构建系统的SLO;
c.人工智能结合SLO、运维数据,在典型的运维场景下发挥价值,在应急场景下提供智能化的闭环解决方案。
2. 成功(或教训)要点:
a.结合实际场景和需求,沟通、定义清楚SLO的意义和出发点;
b.通过标准化设计,构建自动化能力,提升规模和场景覆盖。简化SLO配置的复杂度和费力度;
c. 将SLO应用到日常的应急场景中,结合AI算法在异常检测、故障定位、预案推荐等场景下的使用,提升应急能力和效率;
d.人工智能赋能不能用力过猛。
3. 启示:
a.SLO提供了一套通用的系统健康度框架,可以适用到很多系统和场景;
b.避免简单问题复杂化,要主张大道至简;
c.海量数据和运维场景的复杂性是AI赋能运维的根本出发点,在算力普遍不再奢侈的时代,利用低熵的数据发挥出价值是关键。
受众人群
开发人员、测试人员、系统管理员、运维工程师、运维架构师、技术总监以及其他具有与运维相关的人员。
课程周期
1天
课程大纲
1. 有关SLO的介绍
2. 结合Prometheus等监控手段从0到1构建SLO,打造一套通用的健康度体系
3. AI赋能SLO,提供一站式的应急解决方案(将异常检测、故障定位、预案推荐、自愈等应急能力形成闭环)
4. 基于SLO健康度体系下的实践案例
5. 对未来的一些想象和展望
6 . QA