课程简介
异构算力设备已经逐渐成为机器学习产品和服务中的常态化需求,近年来国产异构算力发展迅速,产生了一批相当有竞争力的产品。但,其相对封闭的生态与云原生粗粒度的分配方式造成了生产环境中异构算力的使用率往往不尽如人意。如编程模型的复杂性、不同硬件之间的兼容性问题、系统的可扩展性和维护成本等。随着技术的不断进步和生态系统的成熟,预计这些问题将逐渐得到解决,异构计算的应用也将越来越广泛。
为了解决这些问题,需要对接入云原生的异构设备进行切片,使任务可以使用一部分的设备,这样,多个任务可以同时无害的运行在一张卡上。
本次分享将云原生集群中,不同的异构算力通过算力切片的技术,进行资源整合,以此降低国产异构算力的使用门槛,解决资源分配粒度过粗的问题,从而提升集群中异构算力设备利用率。为AI技术开发者提供借鉴。
课程收益
1、帮助学员了解异构算力更高效的使用方式
2、帮助学员了解国内异构算力产业和云原生异构算力管理的一些瓶颈与难点
3、帮助学员了解异构计算技术的实现案例与方案,从而提升集群整体利用率
受众人群
企业管理者,IT行业从业者及其他对云原生的异构设备感兴趣的人员
课程周期
3H
课程大纲
标题 | 授课内容 |
一、背景与趋势 | 1. 云原生已经成为标准的集群编排方式 2. 异构算力已经成为MLOps不可或缺的一环 3. 国产算力发展迅速,竞争力逐年上升 |
二、产业痛点 | 1. 算力资源按“整卡”分配,利用率低下 2. 无可靠的异构资源硬隔离机制 3. 国产异构算力生态割裂,难以统一管理 |
三、异构算力池整合与虚拟化方案设计 | 1. GPU资源虚拟化方案 2. 国产异构算力虚拟化方案 3. 异构算力资源整合方案 |