简介
伴随着网站架构的演进,运维变得越来越复杂,从传统运维、自动化运维到如今已开始逐渐迈向智能运维的深水区,每个阶段的迭代都围绕着如何解决大规模、复杂、不确定场景下的质量、效率和成本问题。目前,大多数企业的运维痛点围绕着运维实例规模的急剧扩张、技术多样性并迅速演进、企业上云甚至多云模式下引入的差异及复杂性。
当下,AIOPS技术改变了诸多的运维模式,从基于规则到数据驱动、从静态到动态自适应、从局部到全局、从被动响应到主动感知,在提高网站稳定性、提升研运效率、优化容量成本和服务治理等方面带来了更确定性的解决之道。
本次分享将围绕SRE体系和可观测性,借助AIOPS在网站稳定性、服务治理、容量、运维效率等场景的探索与实践。
目标
1.目标:
多角度洞察从传统运维、自动化运维、智能运维迭代过程中由于资源规模、技术演进带来的痛点、问题以及基于场景的解决方案
2.成功要点:
a) 建设以应用为核心的平台工程,具备规模化运维能力
b) 建设可观测性平台和数据后台,持续打磨数据价值和数据治理
c) 建设运维大脑,将数据、算法和运维领域知识相结合,从网站稳定性、服务治理、容量与成本、效率等角度提供自动发现问题、定位问题和解决问题的线索和决策建议,推动组织在系统、人员、流程上的优化
3.启示:
a) 海量的数据、规模化运维带来的场景复杂性是人工智能技术赋能运维的根本出发点,需要避免简单问题复杂化,在解决痛点的前提下发挥数据价值是关键
b) 数据质量和效率、数据管道的可靠性是做好AIOPS的基础
课程时长
0.5天/3小时
受众人群
运维工程师、运维开发工程师、研发工程师、架构师、技术管理者
分享提纲
1、通过运维迭代的过程阐述当前运维的痛点与难点
2、基于SRE AIOPS的思考与理解
3、AIOPS的场景和当前普遍解法
4、企业在运维大脑的探索和实践
5、QA