实时大数据平台落地应用实践
John Yang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
硅谷海归软件工程师、架构师,曾供职阿里巴巴云梯、飞天及计算平台任高级技术专家
浏览:1629次
详情 DETAILS

课程简介

通过培训,可以让学员对实时数据处理有更深入和全面的理解,掌握实时数据平台建设思路,了解实时数据处理技术,并能够在实际应用中。

受众人群

了解大数据的架构师、中/高级开发工程师。

课程周期

1天(6H)

主题

培训内容

实时数据处理现状和分析

1. 实时数据处理概念

2. 实时数据特点

3. 实时数据处理技术介绍

4. 国内外企业典型实时数据处理架构

5. 实时数据处理应用场景总结

1) EL(Extract Load)

异构系统数据同步

增量数据归集

2) ETL(Extract Transform Load)

数据预处理(清洗、集成、转换)

3) EMT(Extract Match Trigger)

CEP

SQL

4) EAT(Extract Algorithm Trigger)

算法集成

实时数据处理平台分析

1. 实时数据处理平台应该具备功能

1) 数据采集

2) 数据加工

3) 数据写入

4) 运维监控

5) 可视化操作

6) 数据安全

7) 多租户

2. 数据加工能做什么

1) 预处理

SQL

UDF

插件

2) 规则匹配

UDAF

CEP

SQL

插件

3) 多个流上数据关联

4) 流上数据与外部数据关联(Lookup)

3. 实时数据处理平台建设痛点

1) 技术问题

2) 人才问题

3) 见效慢

实时数据处理平台落地实践

1. 实时数据处理平台设计思想

1) 设计目标

2) 设计规范

2. 实时数据处理平台架构设计

3. 数据采集平台

1) 数据采集平台架构设计

2) 数据采集平台功能设计

全量数据拉取设计

ü MYSQL全量数据拉取

ü ORACLE全量数据拉取

增量数据拉取方案

ü MYSQL数据接入

ü ORACLE数据接入

3) 数据采集平台特性解析

ORACLE表结构变更

全量拉取分片策略

数据追源ums_id_

数据链路心跳

4. 数据处理平台

1) 数据处理平台架构设计

2) 数据处理平台功能设计

      平台管理

数据安全

运维监控

数据解析

数据加工

数据写入

3) 数据处理平台特性解析

幂等写入

多Flow支持(Spark/Flink)

动态Flow指令(Spark/Flink)

监控数据采集(Spark/Flink)(Error和统计)

HDFS小文件(Spark)

业务时间策略(Spark)(流上Join和Lookup)

Flow漂移(Spark)

热加载Topic变化(Spark)

Lookup性能优化(Spark)

UDF热加载(Spark)

自定义数据格式(Spark/Flink?)

CEP可视化(Flink)

启动加载数据Schema (Flink)

5. 案例解析

流批一体化

1. 流批一体化架构

Lambda 架构

Kappa架构

2.  流批一体化产品

Uber流批一体化产品

阿里流批一体化产品

Pulsar

Delta Lake

3.  流批一体化总结

实时数据湖

1. 数据湖的概念

2. 数据湖与数据仓库、数据中台区别

3. 实时数据湖实践

4. 实时数据湖总结


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1