简介
随着字节业务的高速发展,基于 Kubernetes 托管的机器数量越来越多。由于在线服务负载的潮汐现象导致机器利用率低下,空闲资源可用于运行离线任务来节约成本,但是受限于在线服务严格的 p99 延迟要求,将两种服务运行在相同机器上会严重影响在线服务的稳定性。本次分享将从混部场景下的QoS分析方法、在线调度机制、离线调度机制、隔离策略和未来技术演进五个方面,介绍如何实现在有效保证在线服务 SLO 的前提下,尽可能高地提升资源利用率。
课程收益
1. 目标:
大规模容器集群资源优化实践,有效提升资源利用率
2. 成功(或教训)要点:
从数据中心整体视角看待混部问题,阐述完整的混部落地实战经验,大幅提升机器资源利用率,降低成本。
3. 启示:
a 从系统层面深入了解在线业务和离线业务在QoS关注点上的异同
b了解K8s和Yarn在混部场景的调度机制
c了解底层隔离机制如何实现在离线容器共存,在保证在线服务QoS前提下大幅提升利用率
受众人群
架构工程师、运维工程师、测试工程师
课程时长
1天(6H)
分享提纲
1. eBPF在系统监控和混部QoS分析中的应用; |
2. K8s和Yarn在混部场景的资源调度; |
3. 底层隔离技术实现在离线容器的共存; |
4. 未来展望,混部和在离线调度融合; |
5. QA(答疑)。 |