Hadoop，Spark，NoSQL(HBase)实战

Gary 查看讲师

百林哲咨询（北京）有限公司专家团队成员

拥有8年大数据行业经验，目前任职于某一线互联网大数据平台，负责数据平台的底层海量分布式存储计算系统的搭建、研发和运维工作。精通Hadoop, Spark, Flink, Kafka, Elasticsearch等大数据技术。

浏览：2660次

详情 DETAILS

简介

Hadoop体系是目前各行业做大数据分析最常用的技术软件架构，它涵盖了HDFS，YARN，Spark，Flink，HBase等著名大数据组件。掌握Hadoop是大数据从业人员的必经之路，本课程讲授了以上几个主要技术的核心知识点，并结合企业最佳实践安排了实战应用环节，为学员打造了从学习到实战的成长闭环。

目标

学员通过实践本课程，能够熟悉大数据行业和分布式系统的技术核心知识点；通过Hadoop，Spark，HBase知识的学习，能够掌握大数据应用的开发和运维能力，并能够掌握海量数据处理的编码和性能调优经验。让学员能够从0到1独立完成Hadoop，Spark，HBase分布式系统的搭建；熟悉中国Top5互联网企业（如阿里巴巴，腾讯）的大数据平台中Hadoop，Spark的技术应用和最佳实践。

培训特色：

1. 讲师能力过硬：讲师来自国内一线互联网大数据平台，有超过7年的大数据技术从业经验，每日处理超过500TB数据，拥有丰富的大数据处理经验和培训经验。

2. 结合一线企业案例：加入了一线互联网公司使用大数据Hadoop技术的案例和最佳实践，能够让学员快速熟悉生产环境下的大数据应用。

3. 实战为主：会学不代表会用，本课程安排了大量实战环节，学习过的学员能够独立从0到1搭建Hadoop平台，完成海量数据处理的软件设计和编码。

4. Hadoop，Spark原理深入：课程内容完成大数据核心知识点的介绍后，会继续深入Hadoop，Spark的底层原理和源代码，让学员学会剖析和解构大数据技术，提高创造能力和职场核心竞争力。

课程时长

2天（12H）

分享对象

本课程不仅适合大数据 Hadoop, Spark，HBase 从业人员，同时也适合热爱或者希望未来从事大数据相关工作的在校学生，软件开发工程师，运维工程师以及架构师学习。通过本课程，学员将能够快速熟悉和掌握大数据利器，在生产中解决实际问题。

学习本课程应具备下列基础知识：

1、熟悉Java或Python语言，有编码经验。

2、熟悉Linux基础命令。

分享提纲

主题	内容
一、大数据技术在企业的应用	1.1 Hadoop体系软件架构 1.2 企业应用Hadoop的技术架构 2. Hadoop体系技术架构介绍 2.1 海量数据存储技术：HDFS 2.2 海量数据计算技术：Spark，Flink，Presto，Hive 2.3 资源调度：YARN，Mesos 2.4 任务调度：Azkaban 2.5 日志搜索：Elasticsearch 2.6 数据收集，传输：Beats，Flume
二、Hadoop存储与离线计算	1. HDFS 1.1 架构原理 1.2 NameNode, DataNode, JournalNode 工作原理 1.3 FSimage和Edit文件 1.4 文件读写流程 1.5 HDFS的副本机制 1.6 HDFS Shell操作 1.7 Java API操作 1.8 如何实现HDFS 高可用 2. MapReduce 2.1 核心思想 2.2 编程模型：Map与Reduce基本用法 2.3 用MapReduce编程实现 TopN 排序、 2.4 MapReduce Join算法 2.5 数据倾斜与优化 3.YARN 3.1 架构原理 3.2 NodeManger,ResourceManager, ApplicationMaster工作原理 3.3 HA高可用 3.4 MapReduce ON YARN 3.5 Yarn的资源调度机制 3.6 YARN集群提交任务 4. Hadoop安装流程 4.1 单机版(伪分布式)Hadoop集群安装 4.2 分布式Hadoop集群安装
三、Spark流式与分布式SQL计算引擎	1.Spark Core 1.1 RDD 编程模型 1.2 分布式运行架构：Spark Standalone、Spark ON YARN 1.3 spark-shell、spark-submit，spark-sql的使用方法 1.4 RDD Action和Transformation操作. 2.Spark Streaming 2.1 Spark Streaming原理 2.2 Spark流式处理架构 2.3 DStream的特点 2.4 Dstream的操作和RDD的区别 2.4 SatefulRDD和windowRDD实战 2.5 Kafka+Spark Steaming实战 2.6 Spark Streaming的优化 2.7 Kafka+Spark Streaming实例 2.8 实现自定义的数据源 3. Spark SQL 3.1 Spark SQL原理 3.2 Spark SQL的Catalyst优化器 3.3 Spark SQL内核 3.4 Spark SQL和Hive 3.5 DataFrame和DataSet架构 3.6 Dataframe、DataSet和Spark SQL的比较 3.7 SparkSQL parquet格式实战 3.8 Spark SQL的实例和编程 3.9 Spark SQL的实例操作demo 3.10 Spark SQL的编程 4. Spark优化 4.1 Spark SQL的优化 4.2 基于Spark计算的文件格式选择 4.3 Spark on Yarn的优化 4.4 Spark SQL执行计划的优化 4.5 Spark 内存管理的机制 5. Spark综合实战： 4.1 flume+Kafka+Spark Streaming+MySQL集成开发 4.2. MySQL + HBase 实现多源聚合SQL查询引擎
四、HBase与NoSQL	1. NoSQL认知 1.1 海量数据与NoSQL 1.2 为什么要用HBase 2. HBase Shell基本操作 2.1 用create命令建表 2.2 用list命令来查看库中有哪些表 2.3 用describe命令来查看表属性 2.4 用put命令来插入数据 2.5 用scan来查看表数据 2.6 用get来获取单元格数据 2.7 用delete来删除数据 2.8 deleteall来删除整行记录 2.9 用disable来停用表 2.10 用drop来删除表 3. 使用HBase API 3.1 HTable类和Table接口 3.2 put方法 3.3 append方法 3.4 increment方法 3.5 get方法 3.6 exists 方法 3.7 delete方法 3.8 mutation方法
五、HBase进阶掌握	1. 深入HBase原理 1.1 数据模型 1.2 HBase是怎么存储数据的 1.3 预写日志 WAL 1.4 MemStore 1.5 HFile（ StoreFile） 1.6 KeyValue类 1.7 数据读写 1.8 Region 2. 过滤器与协处理器 2.1 过滤器 2.1.1 过滤器快速入门 2.1.2 比较运算快速入门 2.1.3 分页过滤器 2.1.4 过滤器列表 2.1.5 行键过滤器 2.1.6 列过滤器 2.1.7 单元格过滤器 2.1.8 装饰过滤器 2.2 协处理器（coprocessor） 2.2.1 协处理器家族 2.2.2 快速入门 2.2.3 如何加载 2.2.4 协处理器核心类 2.2.5 观察者（Observers） 2.2.6 终端程序（EndPoint） 3. HBase 性能调优 3.1 Master和RegionServer的JVM调优 3.2 Region的拆分 3.3 Region的合并（merge） 3.4 WAL的优化 3.5 BlockCache的优化 3.6 Memstore的优化 3.7 HFile（StoreFile）的合并（Compaction） 4. HBase 实战 4.1 Spark与HBase结合实现广告展现流与广告点击流关联
六、企业大数据实战	1. 电商运营实时分析系统 1.1 实时统计指标 1.2 聚合统计实现 2. 广告点击率统计系统 2.1 广告展示，点击模型，CTR指标 2.2 展示流和点击流的关联方式 2.3 Spark + HBase + MySQL的架构和实现 3. 企业级实时数据仓库 3.1 数据仓库模型设计 3.2 数据仓库的实时ETL 3.3 数据仓库的聚合表 3.4 数据仓库的纬度表关联