课程简介
了解大数据平台的技术背景、基本知识、常识及术语。学员通过学习本课程,能够熟悉大数据行业和分布式系统的技术核心知识点;通过Hadoop、Hive、Spark、HBase知识的学习,能够掌握大数据应用的开发和运维能力,并能够掌握海量数据处 理的编码和性能调优经验。
熟悉中国互联网公司(如阿里巴巴、腾讯)的大数据平台中各组件的技术应用和最佳实践。了解大数据平台在互联网业务及地理信息系统的应用。
课程特色
讲师能力过硬:硅谷海归,有十多余年的大数据基础设施构建经验。基于阿里十余年大数据平台构建经验,每日处理超过30万道作业,10PB以上数据,拥有丰富的大数据经验。
行业经验丰富:结合大数据平台在饿了么、高德等地理信息应用案例,介绍大数据平台及其在地理信息中的应用。
培训经验丰富:在阿里内部、硅谷太阁、中移动、曹操出行、小象学院等机构有过培训经验。
受众人群
1.拥有一定研发经验,希望行业前研经验和应用有所了解的学员。
2.所有对《大数据平台及地理信息应用》感兴趣的学员。
课程周期
1天(6H)
课程大纲
一、大数据平台的发展历程
1、数据到大数据发展历程
2、集中式数据系统到大数据平台
3、阿里大数据平台的发展历程
二、大数据平台的基本原理
1、分布式系统基本原理
1.1、什么是分布式系统?
1.2、CAP定理
2、分布式大数据基本构成
2.1计算系统
2.2文件存储系统
2.3结构化存储引擎
2.4有向无环图系统
2.5上层查询引擎
3、适用场景
3.1、离线计算平台及业务
3.2、实时计算平台及业务
三、大数据平台的架构类型
1、开源的架构及组成
1.1Hadoop分布式文件系统HDFS,Hadoop Distributed File System组件及原理
Namenode主结点Master结点
Datanode从结点Slave结点
12、Hadoop分布式调度系统Yarn,Yet Another Resource Negotiator
Resource Manager 主结点Master结点
Node Manager 从结点Slave结点
Application Master 应用可扩展主结点
1.3、计算引擎
MapReduce
Hive
Spark
Flink
1.4、调度引擎
AirFlow
Oozie
2、商业公司的架构及组成,以阿里飞天为例
2.1飞天分布式文件系统盘古
分布式文件系统Pangu Master主结点
分布式文件系统从结点Chunk Server Slave从结点
2.2飞天分布式计算平台伏羲
伏羲Master
伏羲Slave
3、基于飞天的生态系统
4、地理信息应用举例
4.1淘宝应用举例
离线应用
在线实时应用
地理信息应用
4.2高德应用举例
离线应用
在线实时应用
地理信息应用
4.3饿了么应用举例
离线应用
在线实时应用
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员