课程简介
从实战角度解密大数据的技术原理与架构,结合汽车行业的应用,使企业快速掌握大数据技术原理和构建能力,降低试错的成本。帮助企业厘清概念,解决实战中的问题。
课程特色
基于互联网行业十年的经验,结合汽车行业的应用,从理论到实践介绍大数据及数据分析技术。
受众人群
所有对《大数据技术在汽车行业的应用》感兴趣的学员
有一定软件开发经验的软件工程师、架构师。
IT部门相关员工及管理者。
课程周期
1天(6H)
课程大纲
l 大数据技术前世今生(Day 1)
n 数据到大数据的发展历程
n 集中式数据系统到数据平台
n 系统成本压力与收益
l 数据平台的基本业务
n ETL业务
n 离线计算业务
n 实时计算业务
n Kappa架构和Lambda架构
n 推荐算法与机器学习业务
n 商业智能与报表业务
n 数据产品化及数据化运营
l 数据平台的基本构成
n 文件存储系统
n 计算系统
n 资源调度系统
n 结构化存储引擎
n 有向无环图系统
n 上层查询引擎
n 作业调度管理系统
n CDH Hadoop生态系统举例
l Hadoop分布式文件系统 Hadoop Distributed File System(HDFS)
n HDFS组件与原理
n Namenode主结点Master结点
n Datanode从结点Slave结点
n HDFS存储原理
n 应对集群故障
n HDFS小文件管理
l Hadoop分布式调度系统Yet Another Resource Negotiator() (Day 1 PM)
n Resource Manager 主结点Master结点
n Node Manager 从结点Slave结点
n Application Master 应用可扩展主结点
n 开发自定义分布式计算程序
n 队列分配与资源分配
n 离线与在线混合部署
l 离线计算引擎 MapReduce
n MapReduce基本原理
n MapReduce在Yarn上实现
n Shuffle的基本原理
n Shuffle的调优
l 离线及实时计算引擎Spark
n Spark的基本原理
n Spark的架构
n 开发一个Spark应用程序
n Spark实际运算过程解析
n 使用Spark时注意的问题
l 消息中间件Kafka (Day 2)
n Kafka架构
n Kafka基础原理
n Kafka应用实践
n Kafka常用配置
n Kafka调优
l 上层查询引擎Hive
n Hive架构
n Hive基本原理
n 大数据系统的元数据
n Hive应用实践
n 数据倾斜问题
n Hive 调优
l 作业调度管理系统
n AirFlow原理及使用
n Oozie原理及使用
n 阿里云天网原理及使用
l 数据抽取的工具和方法
n Sqoop原理及使用
n DataX原理及使用
n 数据抽取与SAP ERP结合
n 数据抽取与MES结合
n 注意事项
n 案例:接入微软D365 ERP系统
l 数据清洗的方法
n DQC数据质量控制与检测
n 离线抽取方式与调度
n 实时抽取方式
n 异常的处理与恢复
l 数据展示与业务支持
n Hadoop数据展示与Business Objects结合
n Hadoop数据展示与Tableau结合
n 其它基于Hadoop的数据展示工具
l 总结与讨论
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员