课程简介
数据湖作为新一代大数据基础设施,近年来持续火热,为数据存储以及数据应用方面带来新的挑战。随着企业规模的扩大,数据也越来越庞杂、数据的开源和格式也趋向多样化,急需全面、敏捷且准确的数据保障体系来满足企业的需求,数据湖应运而生。数据湖可以容纳海量的数据、对数据格式没有规定、可以快速灵活的分析探查,且开发周期短,为企业解决难题。
本课程从数据湖的定义、基本概念、价值为出发点,系统概括数据湖的核心功能与应用场景;之后在数据湖产品与解决方案方面进行理论陈述,并以阿里、百度、腾讯、华为为例进行案例精讲;通过案例探索数据湖核心技术,如Flink、Hudi、Iceberg、Delta、Ozone,分析其项目背景、核心原理、部署实施、及应用案例;通过技术的掌握来理解架构的建立,对数据湖治理体系的构建进行详细解读,重在理解数据湖全生命周期的管理;最后通过金融、电信、政府、能源行业对商业项目进行分析,更好的将理论与实际应用结合起来。
课程收益
面向企业信息技术专业人士,学成后达成以下目标
1. 掌握什么是企业数据湖及其应用场景;
2. 掌握企业数据库、企业数据仓库与企业数据湖的关系;
3. 掌握企业数据湖兰姆达架构;
4. 掌握企业数据湖组件;
5. 掌握优化数据自助服务的优化;
6. 掌握企业数据湖的技术实现;
7. 了解企业数据湖的行业用例;
8. 建立企业数据湖整体视图概念。
受众人群
1、数据湖、数据仓库建设相关技术人员
2、大数据方向有一定经验的技术人员
3、了解数据湖相关开发技术人员
课程周期
2天(12H)
课程大纲
标题 | 授课内容 | 课程要点 |
一、数据湖基础理论 | 1、基础概念对比:什么是数据湖? | (1)定义:数据仓库、大数据平台、数据湖、数据中台、湖仓一体概念介绍 (2)价值:多源异构、全域、全格式、大规模数据存储、计算、分析与应用 |
2、数据湖核心功能 | (1)存储:存储结构化、非结构化、无结构化的的数据;突破文件数规模限制; (2)管理:无数仓结构化、范式化的规范,需要加强有效的管理和治理; (3)分析:批量流式实时分布式计算、跨数据源使用不同的分析方式分析不同的数据 | |
3、数据湖应用场景 | (1)即席查询、数据探查、异构数据交互式查询...... | |
二、数据湖产品与解决方案+案例(上) | (1)理论:阿里数据湖产品与解决方案介绍 (2)理论:百度数据湖产品与解决方案介绍 (3)案例:数据湖本地环境搭建 | |
三、数据湖产品与解决方案+案例(下) | (1)理论:腾讯数据湖产品与解决方案介绍 (2)理论:华为数据湖产品与解决方案介绍 (3)案例:数据湖基础运维管理 | |
四、数据湖核心技术:Flink、Hudi | (1)Flink:项目背景、核心原理、部署实施、应用案例 (2)Hudi:项目背景、核心原理、部署实施、应用案例 (3)Flink+Hudi:构建准实时数仓应用案例 | |
答疑 | 针对当天课程的内容进行答疑 | |
五、数据湖核心技术:Iceberg、Delta、Ozone | (1)Iceberg:项目背景、核心原理、部署实施、应用案例 (2)Delta:项目背景、核心原理、部署实施、应用案例 (3)Ozone:项目背景、核心原理、部署实施、应用案例 (4)Flink+Iceberg:构建准实时数仓应用案例 | |
六、数据湖治理体系构建: 专题理论+案例 | (1)数据治理: 概念定义、DAMA、DCMM等国内外理论框架体系 (2)数据质量: 概念定义、整体框架、度量维度、质量评分卡、应用案例 (3)数据安全:概念定义、整体框架、产品工具、成熟度模型、应用案例 (4)数据生命周期管理:概念定义、集群治理工具、管理评分卡、应用案例 | |
七、数据湖真实商业项目案例 | (1)金融行业:项目背景、整体架构设计、核心模块介绍、总体实施方案 (2)电信行业:项目背景、整体架构设计、核心模块介绍、总体实施方案 (3)政府行业:项目背景、整体架构设计、核心模块介绍、总体实施方案 (4)能源行业:项目背景、整体架构设计、核心模块介绍、总体实施方案 | |
答疑 | 针对当天课程的内容进行答疑 |
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员