课程简介
伴随着企业AI技术被广泛的应用到生产环境中,智能工作负载量呈螺旋式增长,选择和部署一个高效的智能负载调度系统变得至关重要。一个综合考虑了低延迟、高吞吐量和可扩展性的智能负载调度系统将有助于支持企业的AI应用,并确保系统在不断变化的环境中保持高效。
Flame是一个智能工作负载调度的分布式系统,它提供了许多针对人工智能/机器学习、高性能计算、大数据等工作负载需要的一套通用调度机制。它将尽可能地将工作负载扩展到多个节点用以进行加速计算;Flame 不仅将调度工作负载,还将调度数据。Flame 将引入分布式缓存,并将其与资源调度一起以提高数据共享;智能工作负载包括数万个短任务;Flame 利用最新特性(例如 Future, CondVar)在大规模环境中提高往返时间和吞吐量。
本次分享将探讨Flame平台在可扩展性,数据共享,混合工作负载以及吞吐量四个维度如何满足不同用户的使用场景需求,结合企业用户使用场景,会为与会者带来非常有价值的技术洞见。
课程收益
1、帮助学员深入了解智能工作负载的特点,结合分布式调度系统的经验为AI任务调度平台赋能。
2、帮助企业了解AI推理任务在实际生产中的应用。
3、帮助用户构建一个通用的智能工作负载调度系统,以提高用户资源利用率
受众人群
企业管理者,IT行业从业者及其他对AI推理框架感兴趣的人员
课程周期
3H
课程大纲
1、Flame平台适用场景
2、Flame技术架构及核心组件
1)Flame API
2)Session manager
3)Execute manager
3、Demo
1)Monte Carlo计算Pi
2)矩阵乘法。
4、Flame roadmap技术路线图。
5、QA