大数据计算框架Spark
John Zhao 查看讲师
百林哲咨询(北京)有限公司专家团队成员
Oracle中国有限公司高级技术顾问,华为认证讲师。
浏览:543次
详情 DETAILS

课程简介

随着大数据时代的快速到来以及大数据在生产生活中的迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark、Storm、Impala等,其中Spark已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围广泛、前景非常广阔。

本课程采用循序渐进的课程讲授方法,首先讲解Spark系统基础知识、概念及架构,之后讲解Spark实战技巧,最后详尽地介绍Spark经典案例,帮助学员全面了解大数据Spark的理论基础和实现原理,能够通过Spark、Hadoop轻松应对大数据的业务需求。

课程收益

1、帮助学员了解数据仓库的核心概念和大数据中心平台的整体架构;

2、帮助学员理解Spark为代表的大数据处理引擎的运行机制和原理;

3、帮助学员掌握Spark生态体系架构;

4、帮助学员掌握Spark、Hadoop协同工作,能够通过Spark、Hadoop轻松应对大数据的业务需求

受众人群

大数据的研发人员,大数据构师,大数据运维人员

课程周期

  3天(18H) 

 课程大纲

标题

授课内容

一、大数据开发基础

1. 大数据的基本概念

(1) 什么是大数据及其核心问题

(2) 数据仓库与大数据

(3) OLTP与OLAP

2. 大数据的理论基础

(1) 分布式存储系统的基本原理

(2) 分布式计算模型的基本原理

3. Hadoop基础

(1) 分布式文件系统HDFS

(2) 资源任务调度器Yarn与MapReduce

4. 实验环境的准备

(1) 搭建Linux实验环境

(2) 部署Hadoop环境

(3) 配置Spark的基础环境

二、Spark开发基础之Scala编程语言

1. Scala编程语言

(1) Scala语言基础

(2) Scala语言的面向对象

(3) Scala语言的函数式编程

(4) Scala中的集合

(5) Scala语言的高级特性

三、大数据执行引擎Spark Core

1. Spark Core

(1) 什么是Spark?

(2) Spark的体系结构与安装部署

① Spark的主从架构

② 什么是ZooKeeper

③ Spark HA的实现

(3) 执行Spark Demo程序

① 使用Spark访问Hadoop的HDFS

② Spark on Yarn

(4) Spark运行机制及原理分析

(5) Spark的算子

(6) Spark RDD的高级算子

(7) Spark基础编程案例

(8) Spark性能诊断和优化案例

① 系统死锁的诊断和分析

② 系统内存溢出的诊断和分析

(9) 案例分享

① 基于Spark的大数据平台架构

四、数据分析引擎Spark SQL

 

1. Spark SQL

(1) Spark SQL基础

① Spark SQL简介

② 基本概念:Datasets和DataFrames

③ 测试数据

④ 创建DataFrames

⑤ DataFrame操作

⑥ Global Temporary View

⑦ 创建Datasets

⑧ Datasets的操作案例

(2) 使用数据源

① 通用的Load/Save函数

② Parquet文件

③ JSON Datasets

④ 使用JDBC

⑤ 使用Hive Table

(3) 性能优化

(4) 在IDEA中开发Spark SQL程序

五、流式计算引擎Spark Streaming

1. Spark Streaming

(1) Spark Streaming基础

① Spark Streaming简介

② Spark Streaming的特点

③ Spark Streaming的内部结构

④ 第一个小案例:NetworkWordCount

⑤ 开发自己的NetworkWordCount

(2) Spark Streaming进阶

① StreamingContext对象详解

② 离散流(DStreams):Discretized Streams

③ DStream中的转换操作(transformation)

④ 窗口操作

⑤ 输入DStreams和接收器

⑥ DStreams的输出操作

⑦ DataFrame和SQL操作

⑧ 缓存/持久化

⑨ 检查点支持

(3) 高级数据源

① Spark Streaming接收Flume数据

② Spark Streaming接收Kafka数据

(4) 性能优化

① 减少批数据的执行时间

② 设置正确的批容量

③ 内存调优

六、机器学习Spark MLLib

1. Spark  MLLib

(1) 什么是MLLib?

(2) MLLib中的常见算法

(3) MLlib的应用案例:推荐系统的实现

① 基于用户的协同过滤

② 基于物品的协同过滤

③ 基于ALS的协同过滤

④ 逻辑回归算法


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1