大数据Spark、HBase、Kafka Stream的实践
Joy Guo 查看讲师
百林哲咨询(北京)有限公司专家团队成员
现就职于大型互联网企业从事大数据平台优化工作。多年Kafka和Spark/Hadoop/Storm研究、应用及调优经验,曾为诸多公司提供过培训咨询服务。
浏览:2437次
详情 DETAILS

课程简介

大数据一般基于分而治之的思想,分布式地进行计算。经过十几年的发展,大数据生态圈涌现出一大批优秀的组件和框架,这些组件对一些底层技术做了封装,提供给程序员简单易用的API接口。在大数据分析和处理领域,Hadoop已经发展成为一个非常成熟的生态圈,涵盖了很多大数据相关的基础服务,Spark批处理方向建立了自己的优势。

 

本课程将从大数据的基石 Zookeeper入手进一步分析SparkSpark SQLKafka Stream的原理,实现SQL引擎的一般方法以及Kafka Stream案例演练。

课程收益

1. 熟悉Spark和Spark SQL的原理及最佳实践

2. 了解Hive 原理和Kafka Stream 原理分析与实践演练

3. 会运用所学到的知识解决实际遇到的问题

受众人群

运维工程师、架构师、大数据工程师、技术经理等

课程周期

2天(12H)

课程大纲


时间

标题

内容

第一天

大数据的基石 Zookeeper

1为什么需要 Zookeeper

2 Zookeeper 原理分析

3 Zookeeper 典型适用场景

Spark 核心原理

1 RDD vs. Dataframe

2 Shuffle 核心原理与性能调优

3 数据倾斜解决方案

Spark SQL 最佳实践

1 Spark SQL 原理剖析

2 基于规则的优化与基于代价的优化

3 自适应执行原理及调优实践

第二天

Hive 原理

1 Hive 架构介绍

2 Hive on MR 常见问题演示

3 Hive on TEZ 原理介绍

CDC 演示

1 什么是 CDC

2 canal 原理说明及演示

HBase

1 HBase 核心原理

2 HBase 适用场景与最佳实践

Kafka Stream 原理分析与实践演练

1 Kafka 基本原理

2 Streaming 常见问题

3 Kafka Stream 核心原理

4 Kafka Stream 案例演示


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1