课程简介
课程介绍了大数据中台的背景、基本业务、基本构成以及Hadoop分布式系统等。
课程周期
2天(12H)
课程大纲
l 大数据中台的前世今生(Day 1 AM)
n 数据到大数据的发展历程
n 集中式数据系统到大数据平台
n 系统成本压力与收益
n 分久必合的中台发展史
n 阿里大数据中台的发展历程
l 大数据中台系统的基本业务
n 离线计算业务
n 实时计算业务
n Kappa架构和Lambda架构
n 推荐算法与机器学习业务
n 商业智能与报表业务
n 数据产品化及数据化运营
l 大数据中台系统的基本构成
n 文件存储系统
n 计算系统
n 资源调度系统
n 结构化存储引擎
n 有向无环图系统
n 上层查询引擎
n 作业调度管理系统
n 数据市场与数据治理
n Hadoop生态系统举例
n 阿里飞天的生态系统举例
l Hadoop分布式文件系统 Hadoop Distributed File System(HDFS)
n HDFS组件与原理
n Namenode主结点Master结点
n Datanode从结点Slave结点
n HDFS存储原理
n 应对集群故障
n HDFS小文件管理
l Hadoop分布式调度系统Yet Another Resource Negotiator() (Day 1 PM)
n Resource Manager 主结点Master结点
n Node Manager 从结点Slave结点
n Application Master 应用可扩展主结点
n 开发自定义分布式计算程序
n 队列分配与资源分配
n 离线与在线混合部署
l 离线计算引擎 MapReduce
n MapReduce基本原理
n MapReduce在Yarn上实现
n Shuffle的基本原理
n Shuffle的调优
l 离线计算引擎Spark
n Spark的基本原理
n Spark的架构
n 开发一个Spark应用程序
n Spark实际运算过程解析
n 使用Spark时注意的问题
l 实时计算引擎Flink
n 实时流处理与业务场景
n Flink的基本原理
n Flink应用实践
n 流式处理引擎的对比
n Flink常用的优化手段
l 消息中间件Kafka
n Kafka架构
n Kafka基础原理
n Kafka应用实践
n Kafka常用配置
n Kafka调优
l 上层查询引擎Hive (Day 2 AM)
n Hive架构
n Hive基本原理
n 大数据系统的元数据
n Hive应用实践
n 数据倾斜问题
n Hive 调优
l 结构化存储引擎HBase
n HBase架构
n HBase基本原理
n HBase应用实践
n 云上多模式数据库
n 常见问题与调优
l 作业调度管理系统
n AirFlow原理及使用
n Oozie原理及使用
n 阿里天网
l 机器学习PyTorch
n 架构
n 学术界常用场景
n 原理及应用
n 与Hadoop结合
l 机器学习TensorFlow
n 架构
n 工业界常用场景
n 原理及应用
n 与Hadoop结合
l 大数据上的机器学习与人工智能
n 机器学习是研究什么的?
n 交叉验证与混淆矩阵
n 偏差与方差
n 逻辑回归及细节
n 主要成分分析PCA
n 聚类
n 递度下降
n 支持向量机
n 随机森林
l 综合应用案例
l 总结与讨论
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员