大数据Spark、HBase、Kafka Stream的实践

Joy Guo 查看讲师

百林哲咨询（北京）有限公司专家团队成员

现就职于大型互联网企业从事大数据平台优化工作。多年Kafka和Spark/Hadoop/Storm研究、应用及调优经验，曾为诸多公司提供过培训咨询服务。

浏览：2915次

详情 DETAILS

课程简介

大数据一般基于分而治之的思想，分布式地进行计算。经过十几年的发展，大数据生态圈涌现出一大批优秀的组件和框架，这些组件对一些底层技术做了封装，提供给程序员简单易用的API接口。在大数据分析和处理领域，Hadoop已经发展成为一个非常成熟的生态圈，涵盖了很多大数据相关的基础服务，Spark批处理方向建立了自己的优势。

本课程将从大数据的基石 Zookeeper入手，进一步分析Spark和Spark SQL、Kafka Stream的原理，实现SQL引擎的一般方法，以及Kafka Stream案例演练。

课程收益

1. 熟悉Spark和Spark SQL的原理及最佳实践

2. 了解Hive 原理和Kafka Stream 原理分析与实践演练

3. 会运用所学到的知识解决实际遇到的问题

受众人群

运维工程师、架构师、大数据工程师、技术经理等

课程周期

2天(12H)

课程大纲

时间	标题	内容
第一天	大数据的基石 Zookeeper	1为什么需要 Zookeeper 2 Zookeeper 原理分析 3 Zookeeper 典型适用场景
	Spark 核心原理	1 RDD vs. Dataframe 2 Shuffle 核心原理与性能调优 3 数据倾斜解决方案
	Spark SQL 最佳实践	1 Spark SQL 原理剖析 2 基于规则的优化与基于代价的优化 3 自适应执行原理及调优实践
第二天	Hive 原理	1 Hive 架构介绍 2 Hive on MR 常见问题演示 3 Hive on TEZ 原理介绍
	CDC 演示	1 什么是 CDC 2 canal 原理说明及演示
	HBase	1 HBase 核心原理 2 HBase 适用场景与最佳实践
	Kafka Stream 原理分析与实践演练	1 Kafka 基本原理 2 Streaming 常见问题 3 Kafka Stream 核心原理 4 Kafka Stream 案例演示