简介
哔哩哔哩处在飞速发展期,业务规模在短短两年内增长了几倍,基础平台支持了公司几乎所有的监控需求(数十种场景)。面对业务迅速增长变化的冲击,如何在纷繁复杂的监控技术中,快速落地有效的监控告警治理手段,赋能业务质量,是亟需解决的重要问题。本次分享主要介绍B站的告警治理方法论与实践经验。
课程收益
1.目标:
处于业务飞速增长期的监控系统,如何实现精准告警,支持业务快速解决故障
2. 成功(或教训)要点:
以优化告警决策为核心,多手段结合齐力推进告警治理过程
3. 启示:
提出有效解决业务变化与监控质量冲突的方法
受众人群
有一定基础的运维工程师(熟悉运维场景)
运维、开发、架构及DevOps工程师
对智能运维感兴趣的技术人员
课程时长
0.5天(3H)
分享提纲
1. 目前监控运维平台的发展背景; |
2. B站监控智能化与平台化的技术选型与演进过程; |
3. B站遇到的困难与执行理念; |
4. 复杂业务场景下,有效的治理实施方案及收益; |
5. QA(答疑)。 |