课程简介
当前故障运维体系常面临以下挑战:链路的碎片化和标准化不足:运维流程分散、缺乏统一规范,致使故障响应标准化程度偏低;且过度依赖运维人员的个人经验,例如:对监测数据和报警信息的解读水平、故障的精准定位和问题的快速排查能力、对Kubernetes集群管理与操作的熟练掌握程度。
相较之下,大模型通过整合运维流程、深入理解监控信息、智能关联SOP,并自动生成执行命令,展现了其在提升运维效率和协同性方面的潜力。
本次分享基于大模型的云原生故障运维体系,弥补现有运维流程中的一些缺陷。融合大模型强大的数据处理和自然语言理解能力,清晰的展现体系下的架构与技术关键路径,通过应用案例让与会者借鉴云原生环境下智能运维链路,来提高运维链路的整合度和流程标准化水平。
课程收益
1、帮助学员了解大模型multi-agent工作模式
2、帮助学员了解大模型驱动的运维体系架构与关键技术
3、帮助学员掌握识别并解决运维体系痛点的技术手段及方法
受众人群
企业管理者,IT行业从业者及其他对云原生可观测运维感兴趣的人员
课程周期
3H
课程大纲
1、云原生故障场景的挑战与大模型需求
2、大模型驱动的运维体系架构与关键技术路径
3、实践案例分析与故障运维链路展示
4、QA