智能湖仓支撑 Data+AI 一体化数据架构
Twinkle Chen 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某知名科技企业担任CTO,负责推进国产湖仓数据智能平台的研发。
浏览:454次
详情 DETAILS

课程简介

在大模型的训练、微调等过程中,都需要大量的输入训练数据来提升模型效果。可以说训练数据集的规模和质量,是决定大模型最终推理效果的关键因素之一。同时,大模型时代,也给大数据和 AI 的架构带来一系列挑战。

传统的数仓平台,主要面向结构化数据的分析计算,以及面向 BI 场景。然而在 AI 场景下,除了结构化数据,还会有文本、图片、音视频等多种非结构化数据,通常使用数据湖存储。这两部分数据缺乏统一的管理。同时大模型的训练数据量级可能会达到 TB 级,对数据的读取性能也有较高的要求。这些问题都对传统数据架构带来了挑战。

本次分享将会针对以上挑战,分析解读智能湖仓架构为什么能够成为支撑 Data+AI 一体化的数据架构。并构建开源智能湖仓框架过程中的设计思考,架构设计以及落地应用的案例。

 

课程收益

1.目标:

1)解析智能湖仓一体架构的内涵,分析当前大模型等 AI 应用对数据组织、管理能力的新需求和架构上的挑战;

2)剖析智能湖仓框架如何能够更好地支撑 Data+AI 一体化架构,成为大模型的数据底座;

3)讲解我们在构建开源智能湖仓框架中的设计思考,优化经验以及应用案例。

2.成功要点:

1)智能湖仓需要提供开放架构和统一的接口,能够为流、批等大数据计算引擎,以及 AI 计算框架无缝对接,实现一份数据,多种计算模式;

2)智能湖仓需要统一管理结构化和非结构化数据,最大限度发挥数据湖的灵活性和数据仓库的规范性,成为统一的数据底座;

3)智能湖仓针对大规模 AI 模型对训练数据的访问要求,做出相应的性能优化,满足大型多模态模型训对 IO 性能的要求。

3.启示:

当前数据架构的发展趋势,决定智能湖仓在Data+AI一体化方向的重要性,开源智能湖仓框架在 AI 场景的针对性设计,功能特性和优化,以及在大模型等AI方向的应用将会给企业带来巨大的价值。

 

受众人群

产品经理,架构师,技术人员,数据挖掘师,数据分析师和其他对于产品优化感兴趣的人员。

 

课程周期

0.53H

 

课程大纲

分享内容

1. 当前Data+AI对数据架构体系的挑战和分析;

2. 智能湖仓架构介绍;

3. 介绍开源智能湖仓 LakeSoul 的设计理念以及对Data+AI一体化的支持;

4. 介绍开源智能湖仓LakeSoul在Data、AI 场景下的应用。

 

 


预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1