课程简介
数据、算法、算力共振推动AIGC发展,随着AIGC应用场景的不断扩大和数据量的不断增加,需要更强大的算力来支持大模型的训练和优化。高性能计算集群作为一种强大的计算资源,可以提供更高效、更快速的计算能力,帮助大模型更快地训练和优化,从而提高模型的准确性和泛化能力。因此,算力的不断提升是AIGC发展的必要条件之一,也是人工智能技术不断进步的重要保障。
本次分享将从算力云化的演进出发,阐述在AIGC引发的大模型时代,高算力和高智能对基础设施的挑战和实践中探明的一些发展方向。
课程收益
1.目标
云上输出大模型训练优化经验与实践能力
2.成功要点
2.1网络拓扑结构的优化;
2.2训练框架与通信库的优化;
2.3硬件故障处理流程;
2.4全方位监控体系;
3.启示
大模型训练算法复杂、模型参数量大,需要大规模的高性能计算算力,高速、低延迟的网络传输能力和高性能的存储能力,才能达到计算性能高,网络交换快,存储延迟低的性能目标。这种有效缩短训练时长,高效、稳定完成大模型训练任务,AIGC算力基础将有高性能计算加持。
受众人群
人工智能、算法工程师、云计算相关的技术人员、云应用开发工程师、以及对WebRTC边缘云计算感兴趣的人员。
课程周期
0.5天(3H)
课程大纲
分享内容 |
1 AIGC场景下,大模型趋势的演进以及对算力的诉求 2大模型训练算力解决方案简介 2.1高性能计算 2.2高性能网络 2.3高性能存储 3行业前景以及未来算力发展方向 4.高性能计算集群在人工智能领域的重要性和发展前景 |