课程简介
湖仓系统是当前大数据的热点,它结合了数据湖和数仓两者的优势,既有数据湖的通用性,又不失数仓的高性能。本次分享将会以开源大数据组件为基础,分享如何使用这些基础的计算、存储、表格式、缓存组件构建一个高效的批流融合的湖仓系统,以及如何优化和落地,满足海量业务数据的需求。
课程收益
1、目标:
a.了解到一系列开源组件的架构和实现,以及如何使用这些开源组件搭建一套生产环境可用的湖仓系统,
b.如何优化数仓来满足海量数据的需求。
2、成功要点
a.深入了解并上手开源湖仓系统组件
b.能够利用这些组件搭建批流一体的湖仓系统
3、启示:
能够了解湖仓系统的最佳实践,助力生产环境落地
受众人群
大数据架构师、大数据工程师、技术总监等,以及对湖仓系统感兴趣的人员。
课程周期
1天
课程大纲
1. Iceberg数据湖格式的原理,架构
2. Alluxio数据湖缓存的原理,架构
3. Presto查询引擎的原理,架构
4. 利用Flink、Iceberg、Alluxio、Presto搭建批流融合的湖仓系统。
5. 调优和最佳实践
6. QA