课程简介
大数据一般基于分而治之的思想,分布式地进行计算。经过十几年的发展,大数据生态圈涌现出一大批优秀的组件和框架,这些组件对一些底层技术做了封装,提供给程序员简单易用的API接口。在大数据分析和处理领域,Hadoop已经发展成为一个非常成熟的生态圈,涵盖了很多大数据相关的基础服务,Spark批处理方向建立了自己的优势。
本课程将从大数据的基石 Zookeeper入手,进一步分析Spark和Spark SQL、Kafka Stream的原理,实现SQL引擎的一般方法,以及Kafka Stream案例演练。
课程收益
1. 熟悉Spark和Spark SQL的原理及最佳实践
2. 了解Hive 原理和Kafka Stream 原理分析与实践演练
3. 会运用所学到的知识解决实际遇到的问题
受众人群
运维工程师、架构师、大数据工程师、技术经理等
课程周期
2天(12H)
课程大纲
时间 | 标题 | 内容 |
第一天 | 大数据的基石 Zookeeper | 1为什么需要 Zookeeper 2 Zookeeper 原理分析 3 Zookeeper 典型适用场景 |
Spark 核心原理 | 1 RDD vs. Dataframe 2 Shuffle 核心原理与性能调优 3 数据倾斜解决方案 | |
Spark SQL 最佳实践 | 1 Spark SQL 原理剖析 2 基于规则的优化与基于代价的优化 3 自适应执行原理及调优实践 | |
第二天 | Hive 原理 | 1 Hive 架构介绍 2 Hive on MR 常见问题演示 3 Hive on TEZ 原理介绍 |
CDC 演示 | 1 什么是 CDC 2 canal 原理说明及演示 | |
HBase | 1 HBase 核心原理 2 HBase 适用场景与最佳实践 | |
Kafka Stream 原理分析与实践演练 | 1 Kafka 基本原理 2 Streaming 常见问题 3 Kafka Stream 核心原理 4 Kafka Stream 案例演示 |