基于SLO的基础设施健康度体系探索与实践
Lone Xu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
蚁集团基础设施团队SRE技术专家。与设计模式等核心系列等十多个不同议题系列,观众赞誉极高。
浏览:2798次
详情 DETAILS

课程简介

    SLO为应用程序的性能定义了明确的目标,帮助团队提供一致的客户体验、平衡功能研发与平台稳定性,改善与内部和外部用户的沟通。蚂蚁的基础设施团队负责包括K8S资源调度、中间件、L4/7流量调度、数据&智能、缓存等众多异构系统,以SLO构建基础设施侧的健康度体系,除了为各个系统定义明确的性能目标,也为系统可观测性、应急等提供了一套通用的框架,通过将AI赋能SLO数据、结合实际场景(AIOps典型实践场景),从运维数据中挖掘更多的价值,让运维更加提效和智能。

本专题将分享SLO的介绍、如何从01构建SLOAI结合SLO数据发挥更大价值、以及基于SLO的健康度体系在运维场景下的一些成功实践。

课程收益

1目标:

a.SLO构建健康度体系,除了为系统定位明确性能目标、SLA外,也为系统可观测性、稳定性、应急等提供了一套通用的框架;

b.结合Prometheus等监控手段,从01构建系统的SLO

c.人工智能结合SLO、运维数据,在典型的运维场景下发挥价值,在应急场景下提供智能化的闭环解决方案。

2成功(或教训)要点:

a.结合实际场景和需求,沟通、定义清楚SLO的意义和出发点;

b.通过标准化设计,构建自动化能力,提升规模和场景覆盖。简化SLO配置的复杂度和费力度;

c. SLO应用到日常的应急场景中,结合AI算法在异常检测、故障定位、预案推荐等场景下的使用,提升应急能力和效率;

d.人工智能赋能不能用力过猛。

3启示:

a.SLO提供了一套通用的系统健康度框架,可以适用到很多系统和场景;

b.避免简单问题复杂化,要主张大道至简;

c.海量数据和运维场景的复杂性是AI赋能运维的根本出发点,在算力普遍不再奢侈的时代,利用低熵的数据发挥出价值是关键。

受众人群

开发人员、测试人员、系统管理员、运维工程师、运维架构师、技术总监以及其他具有与运维相关的人员。

课程周期

1天

课程大纲

1. 有关SLO的介绍

2. 结合Prometheus等监控手段从01构建SLO,打造一套通用的健康度体系

3. AI赋能SLO,提供一站式的应急解决方案(将异常检测、故障定位、预案推荐、自愈等应急能力形成闭环)

4. 基于SLO健康度体系下的实践案例

5. 对未来的一些想象和展望

6 . QA



预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1