批流一体的解决方案和湖仓一体架构
Joy Guo 查看讲师
百林哲咨询(北京)有限公司专家团队成员
现就职于大型互联网企业从事大数据平台优化工作。多年Kafka和Spark/Hadoop/Storm研究、应用及调优经验,曾为诸多公司提供过培训咨询服务。
浏览:2876次
详情 DETAILS

课程简介

大数据一般基于分而治之的思想,分布式地进行计算。经过十几年的发展,大数据生态圈涌现出一大批优秀的组件和框架,这些组件对一些底层技术做了封装,提供给程序员简单易用的API接口。在大数据分析和处理领域,Hadoop已经发展成为一个非常成熟的生态圈,涵盖了很多大数据相关的基础服务,Spark批处理方向建立了自己的优势。

 

本课程重点讲解批流一体大数据解决方案现代大数据架构并对数据湖Trino 实践做出进一步讲解。

课程收益

1. 掌握批流一体大数据解决方案

2. 了解湖仓一体架构

3. 了解Trino实践

4. 会运用所学到的知识解决实际遇到的问题

受众人群

运维工程师、架构师、大数据工程师、技术经理等

课程周期

2天(12H)

课程大纲

时间

标题

内容

批流一体大数据解决方案

1 批计算 vs. 流计算

2 基于 Apache Beam 的批流一体

3 基于 Apache Spark 的批流一体

4 基于 Apache Flink 的批流一体

5 基于数据湖的批流一体存储

现代大数据架构

1 基于 HDFS + Hive + Spark 的数据仓库架构

2 基于 Flink + Kafka 的实时数据仓库

3 批流一体实时数据仓库

streaming machine learning

1 什么场景需要 streaming machine learning

2 streaming machine learning 典型方案

数据湖

1 什么是数据湖

2 什么是湖仓一体

3 delta lake / hudi / iceberg 对比分析

Trino 实践

1 Trino vs. Hive vs. Spark SQL

2 如何自定义函数

3 Trino 性能调优


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1