课程简介
大数据一般基于分而治之的思想,分布式地进行计算。经过十几年的发展,大数据生态圈涌现出一大批优秀的组件和框架,这些组件对一些底层技术做了封装,提供给程序员简单易用的API接口。在大数据分析和处理领域,Hadoop已经发展成为一个非常成熟的生态圈,涵盖了很多大数据相关的基础服务,Spark批处理方向建立了自己的优势。
本课程重点讲解批流一体的大数据解决方案、现代大数据架构并对数据湖和Trino 实践做出进一步讲解。
课程收益
1. 掌握批流一体大数据解决方案
2. 了解湖仓一体架构
3. 了解Trino实践
4. 会运用所学到的知识解决实际遇到的问题
受众人群
运维工程师、架构师、大数据工程师、技术经理等
课程周期
2天(12H)
课程大纲
时间 | 标题 | 内容 |
第一天 | 批流一体大数据解决方案 | 1 批计算 vs. 流计算 2 基于 Apache Beam 的批流一体 3 基于 Apache Spark 的批流一体 4 基于 Apache Flink 的批流一体 5 基于数据湖的批流一体存储 |
现代大数据架构 | 1 基于 HDFS + Hive + Spark 的数据仓库架构 2 基于 Flink + Kafka 的实时数据仓库 3 批流一体实时数据仓库 | |
streaming machine learning | 1 什么场景需要 streaming machine learning 2 streaming machine learning 典型方案 | |
第二天 | 数据湖 | 1 什么是数据湖 2 什么是湖仓一体 3 delta lake / hudi / iceberg 对比分析 |
Trino 实践 | 1 Trino vs. Hive vs. Spark SQL 2 如何自定义函数 3 Trino 性能调优 |