大规模分布式计算原理和应用3H
John Yang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
硅谷海归软件工程师、架构师,曾供职阿里巴巴云梯、飞天及计算平台任高级技术专家
浏览:2112次
详情 DETAILS

课程简介

介绍大规模分布式系统和分布式计算系统的原理、基本概念、基本常识和术语,通过案例实战的应用,来介绍分布式计算的原理和内容。

课程周期

2天(12H)

课程大纲

分布式计算的类型

离线计算与实时计算(Offline and/or Realtime)

案例:离线计算用户画像

案例:实时计算用户画像

流式处理和批处理(Batch and/or Streaming)

案例:离线处理用户的点击流入库

案例:实时处理用户的点击流入库

Lambda架构与Kappa架构

案例:Twitter的Lambda架构

案例:LinkedIn的Kappa架构

离线学习和实时学习(Online learning and/or Offline learning)

案例:电商推荐系统“猜你喜欢”

即席分析和交互式分析(Ad-hoc and/or Interactive)

案例:商业智能报表分析工具

时序计算(Time Series Computing)

案例:证券交易价格分析

图计算(Graph Computing)

案例:金融行业个人实体动态关系挖掘

复杂事件处理(CEP)

案例:金融交易欺诈检测和监控

大规模分布式计算的水电煤

分布式计算的基础架构层次

Hadoop生态系统

资源调度框架Yarn

容器编排系统Kubernetes

典型计算框架

离线计算

批数据与离线计算

Map和Reduce

Shuffle

Spark架构

Spark应用案例

离线小文件处理

数据倾斜处理

作业的调优

SQL系统Hive

Hive架构与优势

Hive应用案例

Hive与其它系统结合

SQL系统的优化

实时计算Flink

流式数据与实时计算

Flink架构

Flink运行原理

Flink事件时间与处理时间

Flink窗口类型及使用

Flink水印

触发器

状态处理

数据一致性保障

Flink应用案例与工程实践

Flink常见问题

三个主流流式框架比较

Flink适用场景

Spark Streaming适用场景

Kafka Stream适用场景

机器学习框架

工业界的Tensor Flow

学术界的PyTorch

机器学习框架与Flink、Spark结合

综合应用案例

实时报表系统架构

淘宝电商推荐系统案例

需要关注的问题

数据倾斜与访问热点

容错处理

高可用与故障恢复

资源利用率

性能调优的基本方式

延迟和吞吐量的权衡

行业的趋势和展望

存储与计算分离趋势

离线计算与在线计算混合部署

流处理和批处理统一

结构化查询和非编程方式计算


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1