课程简介
随着数据量的快速增长和实时性需求的不断提高,传统的批处理和流处理模式已难以满足企业复杂多变的数据处理需求,流批一体已成为大数据处理的前沿趋势。通过整合实时流处理和批量数据处理,实现了数据的高效、灵活处理;此外,流批一体的发展还推动了数据集成、数据存储和处理逻辑的统一,进一步提升了数据的一致性和准确性。
从现状来看,流批一体化技术已在多个业务场景中成功验证,并逐渐走向落地。但在实际应用中,特别是在大数据量和复杂业务场景下,流批一体的实现仍面临一定挑战,比如如何在流处理和批处理之间确保数据的一致性和可靠性,如何减少和降低因流批一体的架构而产生的运维成本和运维难度,另外流批一体系统需要平衡实时性和吞吐量,同时保证低延迟和高性能,这对系统设计和优化也提出了更高要求。
本次分享将逐条分析流批一体的现状,结合快手在流批一体上探索的经验和成果,帮助企业结合自身业务场景,思考适合自身业务特色的流批一体路线。
课程收益
1、帮助学员了解流批一体的现状
2、帮助学员了解快手在流批一体上探索的经验和成果
3、帮助行业公司选择适合自身业务发展的流批一体路线
受众人群
企业管理者,IT行业从业者及其他对流批一体架构感兴趣的人员
课程周期
3H
课程大纲
标题 | 授课内容 |
一、当前业界流批一体的现状 | 1. 单一引擎短时间无法完全解决流和批场景上的所有问题 2. 充分发挥新技术优势,结合引擎特性可以获得实际的业务收益 |
二、快手流批一体探索经验和实际收益 | 1. 介绍快手流批一体探索发展的三个阶段 2. 流计算和数据湖的结合助力核心离线公共模型提效2小时 3. 简化离线生产链路复杂度,如何在不同场景选择合适的湖仓方案 |
三、未来湖仓方案规划 | 1. 优化Flink hudi 实时化架构,使其更好支持业务场景 2. 完善湖仓实时化的能力,比如实时大宽表拼接 3. 湖仓版本升级,利用社区的新特性 4. 探索更多业务场景,比如算法领域 |
四、QA | 1. QA |