课程收益
了解云上的大数据架构的基础知识,组件功能和核心应用。
熟悉大数据和云计算技术核心知识点。
受众人群
技术人员,有一定研发背景
想要了解大数据和云计算的架构师
课程周期
1天(6H)
课程大纲
1. 大数据的特点和面临的问题
a) 数据到大数据发展历程
b) 集中式数据系统到大数据平台
c) 案例:阿里大数据平台的发展历程
2. 云计算系统的基本原理
a) 分布式系统基本原理
i. 什么是分布式系统?
ii. CAP定理
b) 云计算的基本原理
i. 什么是云计算?
ii. 虚拟化
iii. 弹性计算
iv. 成本优势
c) 云上大数据基本构成
i. 计算系统 Computing
ii. 文件存储系统File System
iii. 资源调度 Resource Scheduling
iv. 结构化存储引擎 Structured Storage
v. 有向无环图系统 DAG
vi. 上层查询引擎 Query
vii. 任务调度 Job Scheduling
d) 云上大数据的优势
e) 适用场景
i. 离线计算及业务
ii. 实时计算及业务
iii. 实时查询和交互式查询 OLAP
iv. 交易及事务处理 OLTP
3. 云上大数据平台的架构
a) 高负载离线架构
b) 高可用在线架构
c) 多场景弹性架构
d) 开源的架构及组成
4. Hadoop分布式文件系统HDFS
a) Hadoop Distributed File System组件及原理
b) Namenode主结点Master结点
c) Datanode从结点Slave结点
5. Hadoop分布式调度系统Yarn:Yet Another Resource Negotiator
a) 什么是资源调度
b) 资源包括什么
c) Resource Manager 主结点Master结点
d) Node Manager 从结点Slave结点
e) Application Master 应用可扩展主结点
6. MapReduce离线计算引擎
a) MapReduce功能及原理
b) Shuffle
7. Spark批处理计算引擎
a) Spark原理
b) RDD和Shuffle
c) Spark Streaming和微批
8. Flink流式计算引擎
a) Flink架构和的原理
b) 状态的保存及恢复
c) 流批统一
9. Hive查询引擎
a) Hive架构的原理
b) 优化器和可插拔计算引擎
c) 原数据系统和事实标准
10. AirFlow任务调度引擎
a) AirFlow功能和原理
b) AirFlow基本架构和特点
c) 适用场景
11. 使用及优化案例
a) 离线和在线统一
b) 支持OLTP和OLAP
c) 高负载作业支持
d) Flink典型使用场景
e) Spark典型使用场景
f) Hive典型使用场景
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员