大数据Hadoop
John Zhao 查看讲师
百林哲咨询(北京)有限公司专家团队成员
Oracle中国有限公司高级技术顾问,华为认证讲师。
浏览:494次
详情 DETAILS

课程简介

Hadoop设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,使得Hadoop一出现就受到众多公司的青睐,一跃成为业界最流行、应用最广泛的大数据计算框架。

本课程详细介绍了Hadoop的体系结构和分布式存储、分布式计算等关键技术,结合一个完整的大数据开发项目及一组实际项目训练案例,帮助学员了解Hadoop及NoSQL生态系统平台的应用开发与运维实践,重点强化理解Hadoop及NoSQL大数据项目各个阶段的工作重点,同时掌握作为大数据项目管理者的基本技术与业务素养。

课程收益

1、帮助学员了解Hadoop的体系架构

2、帮助学员掌握Hadoop关键技术;

3、帮助学员了解Hadoop及NoSQL生态系统平台的应用开发与运维实践基本流程和工作重点,提高职业素养

受众人群

大数据的研发人员,大数据构师,大数据运维人员

课程周期

       4天(24H) 

课程大纲

标题

授课内容

一、大数据基础与背景知识

1. 大数据背景知识与起源

(1) Hadoop部分各章概述

(2) 实验环境简介与准备

(3) 几个基本概念

(4) Google的低成本思想

(5) Google的思想论文之一:GFS

(6) Google的思想论文之二:MapReduce

(7) Google的思想论文之三:BigTable

2. 搭建Hadoop环境

(1) Hadoop的目录结构

(2) 搭建Hadoop的本地模式

(3) 搭建Hadoop的伪分布模式

(4) 免密码登录的原理和配置

(5) 搭建Hadoop的全分布环境

3. Hadoop的体系架构

(1) Hadoop体系结构概述

(2) HDFS的体系结构

① 名称节点

② 数据节点

③ 第二名称节点

(3) Yarn的体系结构

① Yarn的体系结构和任务的调度

② Yarn的资源分配方式

(4) HBase的体系结构简介

(5) 主从结构的单点故障问题及解决方案

4. HA与联盟

(1) 主从结构的单点故障的问题

(2) ZooKeeper

① ZooKeeper简介和体系结构

② 搭建ZooKeeper的Standalone模式

③ 搭建ZooKeeper的集群环境和Demo演示

④ 利用ZooKeeper实现秒杀功能

(3) Hadoop的HA

(4) NameNode的联盟

二、大数据Hadoop的存储系统

1. 分布式文件系统HDFS

(1) HDFS概述

① 操作HDFS

② 通过Web Console操作HDFS

③ 通过命令行操作HDFS

④ 使用Java API创建目录和权限问题

⑤ 使用Java API上传和下载数据

⑥ 使用Java API获取文件信息

(2) HDFS的原理剖析

① HDFS上传数据的过程和原理

② HDFS下载数据的过程和原理

(3) HDFS的高级功能

① HDFS的回收站

② HDFS的快照

③ HDFS的安全模式和权限

④ HDFS的配额

⑤ HDFS的集群简介

(4) HDFS的底层原理

① HDFS底层原理之一:代理对象

② HDFS底层原理之二:什么是RPC?

2. HBase

(1) NoSQL数据库简介

(2) HBase的表结构和体系结构

(3) 搭建HBase的本地模式和伪分布模式

(4) 搭建HBase的全分布环境和HA

(5) HBase在ZK中保存的数据和HA

(6) 通过命令行操作HBase

(7) 通过JAVA API操作HBase

(8) HBase数据保存的过程和Region的分裂

(9) HBase的过滤器

(10) HBase上的MapReduce

(11) HBase的高级特性与SQL

三、大数据Hadoop离线计算引擎

1. Hadoop的分布式计算模型MapReduce

(1) MapRudce课程概述

(2) MapReduce编程基础

(3) MapReduce的特性一:序列化

(4) MapReduce的特性二:排序

(5) MapReduce的特性三:分区和合并

(6) MapReduce的核心:Shuffle

(7) MapReduce编程案例

① 编程案例一:数据去重

② 知识回顾:关系型数据库中的多表查询

③ 编程案例二:分析等值连接的数据处理流程

④ 编程案例二:实现等值连接的数据处理流程

⑤ 编程案例三:分析自连接的数据处理流程

⑥ 编程案例三:实现自连接的数据处理流程

⑦ 案例四:分析倒排索引的数据处理过程

⑧ 案例四:编程实现倒排索引

⑨ 案例五:使用MRUnit进行单元测试

四、大数据Hadoop的数据分析引擎

1. 大数据分析引擎Hive

(1) 数据分析引擎和Hive简介

(2) Hive的体系结构与安装配置

(3) Hive的内部表与外部表

(4) Hive的分区表

(5) Hive的桶表和视图

(6) Hive的查询

(7) Hive的Java客户端

(8) Hive的自定义函数

2. 大数据分析引擎Pig

(1) Pig简介和安装配置

(2) Pig的常用命令

(3) Pig的数据模型

(4) Pig的自定义函数和自定义运算函数

(5) 使用PigLatin语句分析和处理数据

(6) Pig的自定义加载函数

五、大数据中的ETL工具应用

1. Sqoop与Flume

(1) 使用Sqoop进行数据交换

(2) 使用Flume采集日志

六、大数据机器学习框架与数据挖掘

1. 机器学习算法在大数据中应用-推荐算法的应用

(1) 基于Hadoop Mahout的数据挖掘与机器学习

(2) 基于用户/物品的协同过滤算法

(3) 基于ALS的协同过滤算法

(4) 基于逻辑回归的预测算法


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1