课程简介
随着互联网进程持续加深,以及业务不断丰富与发展。对于低成本获取实时数据的诉求与日益膨胀的数据量以及背后的计算、存储成本已然成为大数据领域的主要矛盾之一。因此,如何在付出更少的存储、计算代价的同时,提升数据时效性与处理效率,如何实现流批一体、湖仓一体,达到技术收敛的目的,已然成为大数据行业的重要趋势。
以Hudi为代表的数据湖技术的出现,从存储层补齐了流批一体的关键一环。Hudi在具备事务、快照隔离与行、列级别更新等语义的同时,为下游提供批读、流读两个访问方式。助力企业实现数据加工从T+1全量覆盖全面向准实时增量加工转型,降低数据计算成本,提高使用效率,以及架构上实现技术收敛。
本次分享将结合Hudi在京东特有的电商场景,探讨包括千亿级数据实时入湖、全量覆写改增量加工等在内的数据湖落地的典型场景、以及落地过程中面临的挑战与创新。
课程收益
1、帮助学员了解、掌握数据湖的核心概念与价值。
2、帮助学员了解在落地数据湖的过程中,遇到的挑战以及对应解决方案。
3、结合Hudi的落地的典型场景,阐述数据湖如何帮助企业降本增效
受众人群
企业管理者,IT行业从业者及其他对数据湖感兴趣的人员
课程周期
3H
课程大纲
标题 | 授课内容 |
一、湖仓一体背景与发展过程 | 1. 行业趋势 2. 行业现状 3. 京东现状 |
二、典型应用场景 | 1. 千亿级流量数据实时Append的场景 2. 全量改增量Hudi Upsert场景 3. Partial Update 部分列更新场景 |
三、京东核心自研特性 | 1. 存档点视图 2. 数据缓冲层 3. 基于Hudi的实时拉链 |
四、行业前沿技术趋势 | 1. 技术趋势 |