课程简介
以 Kubernetes 为代表的云原生实践已经成为企业上云的最短路径,越来越多的企业开始基于 Kubernetes 在云上构建自己的基础设施。伴随企业业务规模的增长,每个企业都希望在云上通过弹性提升资源使用率,降低成本。继传统的微服务应用之后,大数据和 AI 场景的应用也开始在 Kubernetes 基础之上构建。大数据场景的 Spark 应用开始逐从 Yarn 渐向 Kubernetes 迁移,而 AI 新型场景的分布式架构生产级实践几乎都是围绕这 Kubernetes 展开。
相伴而来大数据和 AI 场景的兴起,决定Kubernetes 架构的复杂性问题和面向资源的成本控制越来越难。大数据和 AI 场景的共同特征是资源需求量是波动的,不是稳定不变的。构建 Serverless Kubernetes 产品形态,一方面是形成标准化,另一方面是与云基础设施深度整合,让技术资源可以弹性灵活选择。凭借无服务器 Kubernetes 技术,多场景需求成为最灵活的技术支撑。
本次分享将让参会者理解 Serverless Kubernetes 构建的关键难点和解法,云上应用弹性的难点和解法,以及在典型 AI 场景中挑战和应对之策。
课程收益
1.目标:
构建 Serverles Kubernetes 的实践路径,以及在 Serverles Kubernetes 中构建AI应用的最佳实践,包括数据管理、模型训练和推理、工作负载调度等方面的方法和工具。
2.成功(或教训)要点:
1)Master免运维的难度:Kubernetes的master节点是集群的核心,需要处理API请求、维护集群状态,管理网络规则和路由等。实现免运维的难点在于如何设计自动化工具和流程来管理和维护这些核心功能。
2)Nodeless的挑战:在Kubernetes中,Nodeless是一种新的运行模式,它的目标是在不需要预先配置节点的情况下运行Pod。要实现这个目标,需要解决如何调度和分配资源,以及如何管理和隔离Pod。
3)模型管理和镜像秒级启动:AI 场景模型和镜像都很大,GPU 资源本身又很贵,所以按需使用资源在 AI 场景是刚需,而 AI 模型文件都很大,AI 应用的镜像也很大,这就给应用启动速度带来了很大的挑战,怎么解决大文件加载的冷启动问题在 AI 弹性场景是一个要解决的挑战。
3.启示
标准化与基础设施深度融合的 Serverless Kubernetes 形态是构建 AI 和大数据基础设施的最佳实践。
受众人群
架构总监,架构经理,企业架构师,解决方案架构师 需要深入了解企业架构的技术人员。熟练使用Java,至少一年业务开发实际工作经验。
课程周期
0.5天/3小时
课程大纲
1. 分享Serverless Kubernetes价值应用
2. 构建 Serverless Kubernetes 的难点和挑战
3. 在Serverless Kubernetes中构建AI应用
4. Serverless Kubernetes的AI应用实践案例
5. 总结和展望
QA