云上的大数据架构
John Yang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
硅谷海归软件工程师、架构师,曾供职阿里巴巴云梯、飞天及计算平台任高级技术专家
浏览:1966次
详情 DETAILS

课程收益

了解云上的大数据架构的基础知识,组件功能和核心应用。

熟悉大数据和云计算技术核心知识点。

受众人群

技术人员,有一定研发背景

想要了解大数据和云计算的架构师

课程周期

1天(6H)

课程大纲

1. 大数据的特点和面临的问题

a) 数据到大数据发展历程

b) 集中式数据系统到大数据平台

c) 案例:阿里大数据平台的发展历程

2. 云计算系统的基本原理

a) 分布式系统基本原理

i. 什么是分布式系统?

ii. CAP定理

b) 云计算的基本原理

i. 什么是云计算?

ii. 虚拟化

iii. 弹性计算

iv. 成本优势

c) 云上大数据基本构成

i. 计算系统 Computing

ii. 文件存储系统File System

iii. 资源调度 Resource Scheduling

iv. 结构化存储引擎 Structured Storage

v. 有向无环图系统 DAG

vi. 上层查询引擎 Query

vii. 任务调度 Job Scheduling

d) 云上大数据的优势

e) 适用场景

i. 离线计算及业务

ii. 实时计算及业务

iii. 实时查询和交互式查询 OLAP

iv. 交易及事务处理 OLTP

3. 云上大数据平台的架构

a) 高负载离线架构

b) 高可用在线架构

c) 多场景弹性架构

d) 开源的架构及组成

4. Hadoop分布式文件系统HDFS

a) Hadoop Distributed File System组件及原理

b) Namenode主结点Master结点

c) Datanode从结点Slave结点

5. Hadoop分布式调度系统YarnYet Another Resource Negotiator

a) 什么是资源调度

b) 资源包括什么

c) Resource Manager 主结点Master结点

d) Node Manager 从结点Slave结点

e) Application Master 应用可扩展主结点

6. MapReduce离线计算引擎

a) MapReduce功能及原理

b) Shuffle

7. Spark批处理计算引擎

a) Spark原理

b) RDDShuffle

c) Spark Streaming和微批

8. Flink流式计算引擎

a) Flink架构和的原理

b) 状态的保存及恢复

c) 流批统一

9. Hive查询引擎

a) Hive架构的原理

b) 优化器和可插拔计算引擎

c) 原数据系统和事实标准

10. AirFlow任务调度引擎

a) AirFlow功能和原理

b) AirFlow基本架构和特点

c) 适用场景

11. 使用及优化案例

a) 离线和在线统一

b) 支持OLTPOLAP

c) 高负载作业支持

d) Flink典型使用场景

e) Spark典型使用场景

f) Hive典型使用场景


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1