数据湖核心技术及不同行业应用案例分析
Baron 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某大型通信集团大数据基础平台负责人,大数据架构师,10多年的软件研发项目经验,擅长分布式系统技术栈。
浏览:1860次
详情 DETAILS

课程简介

数据湖作为新一代大数据基础设施,近年来持续火热,为数据存储以及数据应用方面带来新的挑战。随着企业规模的扩大,数据也越来越庞杂、数据的开源和格式也趋向多样化,急需全面、敏捷且准确的数据保障体系来满足企业的需求,数据湖应运而生。数据湖可以容纳海量的数据、对数据格式没有规定、可以快速灵活的分析探查,且开发周期短,为企业解决难题。

本课程从数据湖的定义、基本概念、价值为出发点,系统概括数据湖的核心功能与应用场景;之后在数据湖产品与解决方案方面进行理论陈述,并以阿里、百度、腾讯、华为为例进行案例精讲;通过案例探索数据湖核心技术,如FlinkHudiIcebergDeltaOzone,分析其项目背景、核心原理、部署实施、及应用案例;通过技术的掌握来理解架构的建立,对数据湖治理体系的构建进行详细解读,重在理解数据湖全生命周期的管理;最后通过金融、电信、政府、能源行业对商业项目进行分析,更好的将理论与实际应用结合起来。 

课程收益

面向企业信息技术专业人士,学成后达成以下目标

1. 掌握什么是企业数据湖及其应用场景;

2. 掌握企业数据库、企业数据仓库与企业数据湖的关系;

3. 掌握企业数据湖兰姆达架构;

4. 掌握企业数据湖组件;

5. 掌握优化数据自助服务的优化;

6. 掌握企业数据湖的技术实现;

7. 了解企业数据湖的行业用例;

8. 建立企业数据湖整体视图概念  

受众人群

1、数据湖、数据仓库建设相关技术人员 

2、大数据方向有一定经验的技术人员

3、了解数据湖相关开发技术人员

课程周期

212H

课程大纲

标题

授课内容

课程要点

一、数据湖基础理论

1、基础概念对比:什么是数据湖?

1定义:数据仓库、大数据平台、数据湖、数据中台、湖仓一体概念介绍

2价值:多源异构、全域、全格式、大规模数据存储、计算、分析与应用

2、数据湖核心功能

1存储:存储结构化、非结构化、无结构化的的数据;突破文件数规模限制;  

2管理:无数仓结构化、范式化的规范,需要加强有效的管理和治理;

3分析:批量流式实时分布式计算、跨数据源使用不同的分析方式分析不同的数据

3、数据湖应用场景

1即席查询、数据探查、异构数据交互式查询......

二、数据湖产品与解决方案+案例(上)

1理论:阿里数据湖产品与解决方案介绍

2理论:百度数据湖产品与解决方案介绍

3案例:数据湖本地环境搭建

三、数据湖产品与解决方案+案例(下)

1理论:腾讯数据湖产品与解决方案介绍

2理论:华为数据湖产品与解决方案介绍

3案例:数据湖基础运维管理

四、数据湖核心技术:Flink、Hudi

1Flink:项目背景、核心原理、部署实施、应用案例

2Hudi:项目背景、核心原理、部署实施、应用案例

3Flink+Hudi:构建准实时数仓应用案例

答疑

针对当天课程的内容进行答疑

五、数据湖核心技术:Iceberg、Delta、Ozone

1Iceberg:项目背景、核心原理、部署实施、应用案例

2Delta:项目背景、核心原理、部署实施、应用案例

3Ozone:项目背景、核心原理、部署实施、应用案例

4Flink+Iceberg:构建准实时数仓应用案例

六、数据湖治理体系构建: 专题理论+案例

1数据治理: 概念定义、DAMA、DCMM等国内外理论框架体系

2数据质量: 概念定义、整体框架、度量维度、质量评分卡、应用案例

3数据安全:概念定义、整体框架、产品工具、成熟度模型、应用案例

4数据生命周期管理:概念定义、集群治理工具、管理评分卡、应用案例

七、数据湖真实商业项目案例

1金融行业:项目背景、整体架构设计、核心模块介绍、总体实施方案

2电信行业:项目背景、整体架构设计、核心模块介绍、总体实施方案

3政府行业:项目背景、整体架构设计、核心模块介绍、总体实施方案

4能源行业:项目背景、整体架构设计、核心模块介绍、总体实施方案

答疑

针对当天课程的内容进行答疑


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1