课程简介
随着社会数字化发展,企业对数据时效性的需求越来越强烈。传统的离线数仓较为成熟,但存在新鲜度低和更新成本高两大问题;实时数仓虽然能将数据新鲜度提升至秒级,但计算成本与 lambda 架构两条链路的维护成本也无法忽视。企业急需一套平衡新鲜度、成本与查询效率的解决方案。
Apache Paimon 作为新一代数据湖存储格式,为数据湖带来了实时流更新以及完整的流处理能力。同时,Paimon 作为流批统一的湖格式,可以帮助企业用户使用一条链路解决流批处理以及即席查询的需求。这一新兴湖格式平衡了数据的新鲜度,数据的更新、计算与维护成本以及查询效率,在帮助数据仓库降本增效的同时提升数据新鲜度,满足企业对数据时效性的新需求。
本次分享将结合 Paimon 在阿里巴巴集团的应用案例,与企业一起探讨利用 Paimon 来提升离线数仓的新鲜度,降低离线数仓的更新成本,降低实时数仓的计算成本,并提升数据架构的可维护性。同时,对于在 Hive、MaxCompute 等数仓中已有大量历史数据的企业,也将帮助与会者逐步引入 Paimon 的方案,探讨不同业务中对新鲜度、成本与查询效率的取舍,促进企业自身相似业务的解决方案。
课程收益
1、帮助学员了解阿里巴巴集团内的业务利用 Paimon 进行湖仓平台的建设案例。
2、帮助学员利用 Paimon 平衡延迟与成本,解决实际的业务痛点。
3、帮助企业将相关解决方案迁移至自身行业中,解决自身遇到的业务问题
受众人群
企业管理者,IT行业从业者及其他对湖仓平台建设感兴趣的人员
课程周期
3H
课程大纲
1、当前数据仓库概况
1) 离线数据仓库的挑战与需求
2) 实时数据仓库的挑战与需求
2、Paimon 原理简析
3、Paimon 在阿里巴巴集团的实践案例
1) 利用 Paimon 搭建流批统一数仓的架构案例
2) 利用 Paimon 提升离线数仓数据新鲜度,降低数据更新成本的案例
3) 将计算下推至 Paimon,降低实时数仓计算成本的案例
4、以电商模型为例,利用 Paimon 搭建流式湖仓的实践
5、在现有数仓中逐步引入 Paimon 的方式
6、Paimon 的未来规划