批流一体的解决方案和湖仓一体架构

Joy Guo 查看讲师

百林哲咨询（北京）有限公司专家团队成员

现就职于大型互联网企业从事大数据平台优化工作。多年Kafka和Spark/Hadoop/Storm研究、应用及调优经验，曾为诸多公司提供过培训咨询服务。

浏览：3350次

详情 DETAILS

课程简介

大数据一般基于分而治之的思想，分布式地进行计算。经过十几年的发展，大数据生态圈涌现出一大批优秀的组件和框架，这些组件对一些底层技术做了封装，提供给程序员简单易用的API接口。在大数据分析和处理领域，Hadoop已经发展成为一个非常成熟的生态圈，涵盖了很多大数据相关的基础服务，Spark批处理方向建立了自己的优势。

本课程重点讲解批流一体的大数据解决方案、现代大数据架构并对数据湖和Trino 实践做出进一步讲解。

课程收益

1. 掌握批流一体大数据解决方案

2. 了解湖仓一体架构

3. 了解Trino实践

4. 会运用所学到的知识解决实际遇到的问题

受众人群

运维工程师、架构师、大数据工程师、技术经理等

课程周期

2天（12H）

课程大纲

时间	标题	内容
第一天	批流一体大数据解决方案	1 批计算 vs. 流计算 2 基于 Apache Beam 的批流一体 3 基于 Apache Spark 的批流一体 4 基于 Apache Flink 的批流一体 5 基于数据湖的批流一体存储
	现代大数据架构	1 基于 HDFS + Hive + Spark 的数据仓库架构 2 基于 Flink + Kafka 的实时数据仓库 3 批流一体实时数据仓库
	streaming machine learning	1 什么场景需要 streaming machine learning 2 streaming machine learning 典型方案
第二天	数据湖	1 什么是数据湖 2 什么是湖仓一体 3 delta lake / hudi / iceberg 对比分析
第二天	Trino 实践	1 Trino vs. Hive vs. Spark SQL 2 如何自定义函数 3 Trino 性能调优