课程简介
智能运维经过近几年的发展,在银行IT系统可观测能力提升等场景上已取得了部分成效。目前AIOPS在平台服务化能力、支持复杂场景、深度融入运维工具体系等方面仍有提升空间。特别是金融业正在大力推进分布式架构转型,运维复杂度显著增加,如何提升故障场景下从业务到基础设施层的全链路快速根因定界定位以及精准业务影响分析是AIOPS需要重点关注及解决的问题。
工行数据中心重点围绕信息系统运维可视化和快速排障能力提升开展运维大数据分析等智能运维(AIOps)技术的应用创新,构建了以动态运维地图、日志及指标分析引擎为基础的多模态智能运维框架,融合了知识图谱、自然语言处理(NLP)、异常检测、关联分析等机器学习算法,面向运维应用提供分布式架构下拓扑自发现、日志模式自动化解析、指标无阈值监控等服务,并在业务级故障定位等多个运维场景中取得了良好成效,提升了异常感知能力,辅助实现快速故障定位。
本次分享将围绕AIOPS服务化能力构建以及典型运维场景成效你来论证AIOPS在整体提升信息系统运维可视化和快速排障能力方面的适用性。内容涵盖动态运维地图、运维大数据分析引擎技术应用以及业务级故障定位场景案例。
课程收益
1、目标
(1)构建动态运维地图,解决分布式架构下拓扑关系复杂难以自发现、可视化能力不足等痛点问题,为运维应用提供基础的地图查询及导航功能;
(2)构建运维大数据分析引擎,支持日志实时自动化模式解析、指标动态基线检测及关联分析,实现精准异常感知及快速辅助故障定位;
(3)基于动态地图及大数据分析引擎的服务,开展业务级故障定位等典型运维场景研发,实现从业务报警穿透到基础设施的全链路自动化故障定位。缩短故障排查时间,提高故障应急时效。
2、成功要点
“技术+平台+场景”三位一体的智能运维数字化转型思路。一是持续开展前沿智能运维技术创新;二是规划建设智能运维平台,从通用工具平台的角度,沉淀智能运维技术创新成果,为各专业运维场景应用研发提供智能运维引擎服务;三是研发典型运维场景,既验证AIOps创新应用的可行性和适用性,又解决运维难题。
3、启示
构建了AIOPS的服务化能力,与运维体系及工具协同整合,面向多样化的运维场景提供动态运维地图及运维大数据分析等基础服务。
受众人群
AIOPS智能运维技术负责人、构建运维大数据分析的从业者、运维平台/架构搭建运营者以及其他对可观测性智能运维体系感兴趣的人员。
课程周期
0.5天(3H)
课程大纲
授课内容 |
1. 智能运维框架概述 2. 智能运维平台三大基础功能介绍 (1)动态运维地图 (2)日志分析引擎 (3)指标分析引擎 3. 智能运维场景案例--业务级故障定位场景实践 4. QA |