课程简介
在大模型的训练、微调等过程中,都需要大量的输入训练数据来提升模型效果。可以说训练数据集的规模和质量,是决定大模型最终推理效果的关键因素之一。同时,大模型时代,也给大数据和 AI 的架构带来一系列挑战。
传统的数仓平台,主要面向结构化数据的分析计算,以及面向 BI 场景。然而在 AI 场景下,除了结构化数据,还会有文本、图片、音视频等多种非结构化数据,通常使用数据湖存储。这两部分数据缺乏统一的管理。同时大模型的训练数据量级可能会达到 TB 级,对数据的读取性能也有较高的要求。这些问题都对传统数据架构带来了挑战。
本次分享将会针对以上挑战,分析解读智能湖仓架构为什么能够成为支撑 Data+AI 一体化的数据架构。并构建开源智能湖仓框架过程中的设计思考,架构设计以及落地应用的案例。
课程收益
1.目标:
1)解析智能湖仓一体架构的内涵,分析当前大模型等 AI 应用对数据组织、管理能力的新需求和架构上的挑战;
2)剖析智能湖仓框架如何能够更好地支撑 Data+AI 一体化架构,成为大模型的数据底座;
3)讲解我们在构建开源智能湖仓框架中的设计思考,优化经验以及应用案例。
2.成功要点:
1)智能湖仓需要提供开放架构和统一的接口,能够为流、批等大数据计算引擎,以及 AI 计算框架无缝对接,实现一份数据,多种计算模式;
2)智能湖仓需要统一管理结构化和非结构化数据,最大限度发挥数据湖的灵活性和数据仓库的规范性,成为统一的数据底座;
3)智能湖仓针对大规模 AI 模型对训练数据的访问要求,做出相应的性能优化,满足大型多模态模型训对 IO 性能的要求。
3.启示:
当前数据架构的发展趋势,决定智能湖仓在Data+AI一体化方向的重要性,开源智能湖仓框架在 AI 场景的针对性设计,功能特性和优化,以及在大模型等AI方向的应用将会给企业带来巨大的价值。
受众人群
产品经理,架构师,技术人员,数据挖掘师,数据分析师和其他对于产品优化感兴趣的人员。
课程周期
0.5天(3H)
课程大纲
分享内容 |
1. 当前Data+AI对数据架构体系的挑战和分析; 2. 智能湖仓架构介绍; 3. 介绍开源智能湖仓 LakeSoul 的设计理念以及对Data+AI一体化的支持; 4. 介绍开源智能湖仓LakeSoul在Data、AI 场景下的应用。 |