大规模云原生集群可用性实践
Carl Tang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
云原生可用性负责人,技术专家,擅长k8s和etcd领域
浏览:198次
详情 DETAILS

课程简介

随着大模型的发展,对算力的需求呈爆发式增长。算力逐渐走向大规模、高性能、高效能。K8s 等云原生技术,解决了大模型训练过程中的资源管理与调度、弹性扩展、容错及高可用难题,成为大模型发展的关键支撑之一。

 OpenAI GPT系列和腾讯混元等大模型借助k8s实现了超大规模集群的并行训练,极大地提高了大模型训练效率和稳定性。

本次分享将深度剖析腾讯 TKE 及大模型团队针对超大规模集群可用性、单集群算力瓶颈等一系列挑战所采取的解决方案及最佳实践

课程收益

1、帮助学员了解大规模k8s集群的一系列致命故障风险和解决方案、最佳实践

2、帮助学员了解Kubernetes多集群管理的实践与挑战

3、帮助企业洞察未来Kubernetes在AI领域的发展趋势

受众人群

企业管理者,IT行业从业者及其他对大规模k8s集群感兴趣的人员

课程周期

3H

课程大纲

1、大模型对算力的挑战与k8s的解决方案

2、大规模k8s可用性风险来源与解决方案

3、如何解决单集群的算力瓶颈

4、腾讯混元基于TKE大模型训练的实践案例

5、QA


预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1