京东基于Hudi的数据湖优化及实践
Joseph Zhang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
专注于数据湖及OLAP技术研究,丰富实践经验
浏览:340次
详情 DETAILS

课程简介

随着互联网进程持续加深,以及业务不断丰富与发展。对于低成本获取实时数据的诉求与日益膨胀的数据量以及背后的计算、存储成本已然成为大数据领域的主要矛盾之一。因此,如何在付出更少的存储、计算代价的同时,提升数据时效性与处理效率,如何实现流批一体、湖仓一体,达到技术收敛的目的,已然成为大数据行业的重要趋势。

Hudi为代表的数据湖技术的出现,从存储层补齐了流批一体的关键一环。Hudi在具备事务、快照隔离与行、列级别更新等语义的同时,为下游提供批读、流读两个访问方式。助力企业实现数据加工从T+1全量覆盖全面向准实时增量加工转型,降低数据计算成本,提高使用效率,以及架构上实现技术收敛。

本次分享将结合Hudi在京东特有的电商场景,探讨包括千亿级数据实时入湖、全量覆写改增量加工等在内的数据湖落地的典型场景、以及落地过程中面临的挑战与创新

课程收益

1、帮助学员了解、掌握数据湖的核心概念与价值。

2、帮助学员了解在落地数据湖的过程中,遇到的挑战以及对应解决方案。

3、结合Hudi的落地的典型场景,阐述数据湖如何帮助企业降本增效

受众人群

企业管理者,IT行业从业者及其他对数据湖感兴趣的人员

课程周期

3H

课程大纲

标题

授课内容

一、湖仓一体背景与发展过程

1. 行业趋势

2. 行业现状

3. 京东现状

二、典型应用场景

1. 千亿级流量数据实时Append的场景

2. 全量改增量Hudi Upsert场景

3. Partial Update 部分列更新场景

三、京东核心自研特性

1. 存档点视图

2. 数据缓冲层

3. 基于Hudi的实时拉链

四、行业前沿技术趋势

1. 技术趋势


预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1