课程简介
随着大数据时代的快速到来以及大数据在生产生活中的迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark、Storm、Impala等,其中Spark已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围广泛、前景非常广阔。
本课程采用循序渐进的课程讲授方法,首先讲解Spark系统基础知识、概念及架构,之后讲解Spark实战技巧,最后详尽地介绍Spark经典案例,帮助学员全面了解大数据Spark的理论基础和实现原理,能够通过Spark、Hadoop轻松应对大数据的业务需求。
课程收益
1、帮助学员了解数据仓库的核心概念和大数据中心平台的整体架构;
2、帮助学员理解Spark为代表的大数据处理引擎的运行机制和原理;
3、帮助学员掌握Spark生态体系架构;
4、帮助学员掌握Spark、Hadoop协同工作,能够通过Spark、Hadoop轻松应对大数据的业务需求
受众人群
大数据的研发人员,大数据构师,大数据运维人员
课程周期
3天(18H)
课程大纲
标题 | 授课内容 |
一、大数据开发基础 | 1. 大数据的基本概念 (1) 什么是大数据及其核心问题 (2) 数据仓库与大数据 (3) OLTP与OLAP 2. 大数据的理论基础 (1) 分布式存储系统的基本原理 (2) 分布式计算模型的基本原理 3. Hadoop基础 (1) 分布式文件系统HDFS (2) 资源任务调度器Yarn与MapReduce 4. 实验环境的准备 (1) 搭建Linux实验环境 (2) 部署Hadoop环境 (3) 配置Spark的基础环境 |
二、Spark开发基础之Scala编程语言 | 1. Scala编程语言 (1) Scala语言基础 (2) Scala语言的面向对象 (3) Scala语言的函数式编程 (4) Scala中的集合 (5) Scala语言的高级特性 |
三、大数据执行引擎Spark Core | 1. Spark Core (1) 什么是Spark? (2) Spark的体系结构与安装部署 ① Spark的主从架构 ② 什么是ZooKeeper ③ Spark HA的实现 (3) 执行Spark Demo程序 ① 使用Spark访问Hadoop的HDFS ② Spark on Yarn (4) Spark运行机制及原理分析 (5) Spark的算子 (6) Spark RDD的高级算子 (7) Spark基础编程案例 (8) Spark性能诊断和优化案例 ① 系统死锁的诊断和分析 ② 系统内存溢出的诊断和分析 (9) 案例分享 ① 基于Spark的大数据平台架构 |
四、数据分析引擎Spark SQL
| 1. Spark SQL (1) Spark SQL基础 ① Spark SQL简介 ② 基本概念:Datasets和DataFrames ③ 测试数据 ④ 创建DataFrames ⑤ DataFrame操作 ⑥ Global Temporary View ⑦ 创建Datasets ⑧ Datasets的操作案例 (2) 使用数据源 ① 通用的Load/Save函数 ② Parquet文件 ③ JSON Datasets ④ 使用JDBC ⑤ 使用Hive Table (3) 性能优化 (4) 在IDEA中开发Spark SQL程序 |
五、流式计算引擎Spark Streaming | 1. Spark Streaming (1) Spark Streaming基础 ① Spark Streaming简介 ② Spark Streaming的特点 ③ Spark Streaming的内部结构 ④ 第一个小案例:NetworkWordCount ⑤ 开发自己的NetworkWordCount (2) Spark Streaming进阶 ① StreamingContext对象详解 ② 离散流(DStreams):Discretized Streams ③ DStream中的转换操作(transformation) ④ 窗口操作 ⑤ 输入DStreams和接收器 ⑥ DStreams的输出操作 ⑦ DataFrame和SQL操作 ⑧ 缓存/持久化 ⑨ 检查点支持 (3) 高级数据源 ① Spark Streaming接收Flume数据 ② Spark Streaming接收Kafka数据 (4) 性能优化 ① 减少批数据的执行时间 ② 设置正确的批容量 ③ 内存调优 |
六、机器学习Spark MLLib | 1. Spark MLLib (1) 什么是MLLib? (2) MLLib中的常见算法 (3) MLlib的应用案例:推荐系统的实现 ① 基于用户的协同过滤 ② 基于物品的协同过滤 ③ 基于ALS的协同过滤 ④ 逻辑回归算法 |
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员