课程简介
介绍大规模分布式系统和分布式计算系统的原理、基本概念、基本常识和术语,通过案例实战的应用,来介绍分布式计算的原理和内容。
课程周期
2天(12H)
课程大纲
l 分布式计算的类型
n 离线计算与实时计算(Offline and/or Realtime)
u 案例:离线计算用户画像
u 案例:实时计算用户画像
n 流式处理和批处理(Batch and/or Streaming)
u 案例:离线处理用户的点击流入库
u 案例:实时处理用户的点击流入库
n Lambda架构与Kappa架构
u 案例:Twitter的Lambda架构
u 案例:LinkedIn的Kappa架构
n 离线学习和实时学习(Online learning and/or Offline learning)
u 案例:电商推荐系统“猜你喜欢”
n 即席分析和交互式分析(Ad-hoc and/or Interactive)
u 案例:商业智能报表分析工具
n 时序计算(Time Series Computing)
u 案例:证券交易价格分析
n 图计算(Graph Computing)
u 案例:金融行业个人实体动态关系挖掘
n 复杂事件处理(CEP)
u 案例:金融交易欺诈检测和监控
l 大规模分布式计算的水电煤
n 分布式计算的基础架构层次
n Hadoop生态系统
n 资源调度框架Yarn
n 容器编排系统Kubernetes
l 典型计算框架
n 离线计算
u 批数据与离线计算
u Map和Reduce
u Shuffle
u Spark架构
u Spark应用案例
u 离线小文件处理
u 数据倾斜处理
u 作业的调优
n SQL系统Hive
u Hive架构与优势
u Hive应用案例
u Hive与其它系统结合
u SQL系统的优化
n 实时计算Flink
u 流式数据与实时计算
u Flink架构
u Flink运行原理
u Flink事件时间与处理时间
u Flink窗口类型及使用
u Flink水印
u 触发器
u 状态处理
u 数据一致性保障
u Flink应用案例与工程实践
u Flink常见问题
n 三个主流流式框架比较
u Flink适用场景
u Spark Streaming适用场景
u Kafka Stream适用场景
n 机器学习框架
u 工业界的Tensor Flow
u 学术界的PyTorch
u 机器学习框架与Flink、Spark结合
l 综合应用案例
n 实时报表系统架构
n 淘宝电商推荐系统案例
l 需要关注的问题
n 数据倾斜与访问热点
n 容错处理
n 高可用与故障恢复
n 资源利用率
n 性能调优的基本方式
n 延迟和吞吐量的权衡
l 行业的趋势和展望
n 存储与计算分离趋势
n 离线计算与在线计算混合部署
n 流处理和批处理统一
n 结构化查询和非编程方式计算
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员
John Yang
百林哲咨询(北京)有限公司专家团队成员