课程简介
当前在分布式调度领域,Kubernetes已成事实标准。在大数据计算领域,如Spark、Flink均支持Kubernetes,以云原生化为目标。在深度学习领域,社区也有大量项目实现TensorFlow、PyTorch在Kubernetes的部署。
传统围绕Hadoop YARN管理集群的方式逐渐变得架构落后,主要体现在跟不上社区发展,架构设计不够灵活,对新问题的改造支持成本高。此前美团的机器学习集群已经基本完成云原生改造,出于统一集群管理、调度技术、资源效率、优化运维成本和集群架构的考虑,也需对大数据集群执行云原生改造。
本次分享美团在大数据集群云原生从0到1的过程,涉及大数据场景的特征和要求,实践中的关键项目以及一些重要经验。
课程收益
1.目标:
从0到1完成大数据集群云原生改造,对复杂业务场景下的大规模大数据集群云原生改造具备借鉴意义。
2.成功要点:
(1)对不同场景下本质特征和需求的深刻理解,并根据场景做架构和实现适配;
(2)从接入层、管控层、调度层到节点端全栈建设;
3.启示:
大规模云原生大数据集群管理的难点和经验,并对比机器学习和在线场景的特征,更加深刻理解集群管理的要点。
受众人群
架构设计师、技术经理、项目组长、开发人员、技术骨干、维护人员、技术支持人员或其他对系统架构设计有兴趣的相关人员。
课程周期
0.5天/3小时
课程大纲
1、大数据场景的基本特征和需求
2、大数据集群云原生改造的实践过程及关键项目
3、实践过程中的关键问题和思考
4、未来规划
5、QA