简介
1)基于近十年在移动云平台与大数据一线做架构设计与开发的经验,深度分享运营商级别大规模数据平台的演进过程、以及数据集群的治理实践心得,包括数据治理和集群治理工程的定位、背景、组织架构和方法论、实施路径、案例分析、成果收益、对外产品化进展等重点内容。
2)系统性介绍某运营商级别的大数据平台整体架构(数千节点规模、近百PB数据量、日新增数据百TB以上、日新增处理万亿级信令和互联网日志数据量、数百个多租户模型运营),包括数据采集交换平台、核心生产平台、能力开放平台、点查询中心、安全网关、智能运维平台等关键子系统的技术架构升级历程。
3)分享Hadoop MR、Spark、Flink在平台数据采集加工等具体场景的应用情况,剖析典型的故障定位、踩坑经验和性能调优案例
要点:
1) 学习构建支撑运营商级别的大规模数据平台架构,实现数据统一高效采集与加工分析,完善的质量稽核、安全合规与治理保障,通过能力开放平台赋能外部租户并完成数据资产管理体系化运营。
2) 掌握数据治理顶层设计方法、Hadoop与MPP技术混搭架构特点、容器&DevSecOps深度融合应用技巧。
启示:
充分结合商业产品&开源社区技术建设平台、在采集交换源头解决数据质量问题、构建精益高效的数据治理文化、通过大规模集群治理实践保障集群稳定性和业务连续性,同时敏捷驱动数据治理体系的价值落地。
目标:
深入理解大规模数据平台整体架构演进过程;掌握数据仓库整体架构设计技能,包含配套规范的制定方法;熟悉数据采集交换、模型加工过程、数据治理体系、数据安全管控、能力开放平台运营和大规模集群治理等专项开发经验。
课程时长
2天(12H)
受众人群
1)对大数据平台整体的架构演进和组件性能调优等技术细节感兴趣
2) 有一定的大数据开发经验,希望能深入平台底层,提升开发技能
3)对大规模数据平台的采集、交换、存储、计算等技术实现感兴趣
分享提纲
第一天上午 架构篇 | ◆ 整理概要介绍:计算引擎、数据仓库、大数据平台架构 ◆ 计算引擎:MPP+Hadoop batch+Streaming 商业与开源MPP技术对比 MR、Spark、Vertica、Greenplum、HWAQ、Drill、Impala、Presto Storm、Jstorm、Spark Streaming、Steamsets、LEAP IoT、Flink ◆ 数据仓库: 案例分析:某移动云服务数仓平台的架构设计 案例分析:某电商平台数据仓库模型规范设计 ◆ 某运营商大数据平台架构演进之路 第一阶段:能力开放 全业务支撑 第二阶段:综合治理 全流程管控 第三阶段:数据资产 管理平台化 |
第一天下午 开发篇 | ◆ 大数据平台开发与数仓开发 平台组件开发(Kafka、Redis、Hive、MR、Spark、Flink) 数据仓库开发(分层分域、数据模型、数据指标、数据集市) ◆ Hadoop数仓平台架构与设计、数据模型开发与优化方法 ◆ 案例分析:互联网日志加工模型优化(日万亿新增数据量) ◆ 案例分析:某运营商信令实时引擎升级(日千亿新增数据量) ◆ 案例分析:安全&旅游类产品模型优化(Spark广播变量问题) ◆ 案例分析:企业和个人风控平台的改造(HBase主备库+多模数据库) ◆ 案例分析:数据安全自助审计操作平台(使用Flink替换SparkStreaming) |
第二天上午
治理篇 | ◆ 大数据平台故障定位 典型故障分类: 硬件故障、组件问题、慢job问题、JVM问题、DevSecOps问题 故障排查方法:JVM、网络、系统负载、磁盘、内存、YARN监控与job洞察、MR/Spark优化 ◆ 大数据平台性能调优 方向一:主机OS、网络与Hadoop组件专项调优 方向二:Bigdata SQL调优 (如SparkSQL) 方向三:NewSQL集群优化 (如HBase) 案例分析:某集群Job作业执行慢问题 案例分析:某集群贴源表入库异常问题 案例分析:某集群job作业数据倾斜问题 案例分析:某集群NameNode故障问题#1(CDH5.13版本单集群性能瓶颈) 案例分析:某集群NameNode故障问题#2(Hadoop2.9.1社区版源码层Bug) 案例分析:某集群Hive元数据库故障问题(触发MySQL5.X PXC集群版源码层Bug) 案例分析:某HBase集群故障问题(双线程主备库同时查询触发应用层响应异常Bug) 案例分析:某集群RPC故障问题(导致集群所有提交job作业整体运行卡慢或异常Crash) 案例分析:某Kafka集群故障问题(部分节点掉线,因故障恢复流程不合理导致丢数问题) ◆ 大数据平台集群治理 集群治理工程的问题背景 集群治理工程的目标 集群治理组织架构 集群治理推进文化与工程化解决思路 案例分析与实施步骤:HDFS&YARN作业深度监控 案例分析与实施步骤:RPC请求和关键服务预警 案例分析与实施步骤:重复加工/冗余计算挖掘 案例分析与实施步骤:重构元数据管理、血缘分析应用 案例分析与实施步骤:智能分析集群用户画像与行为预测 |
第二天下午 运营篇 | ◆ 大数据能力开放平台:概念介绍 ◆ 大数据能力开放平台:整体架构设计 ◆ 大数据能力开放平台:多租户模型 ◆ 大数据能力开放平台:数据服务管理 ◆ 大数据能力开放平台:数据安全体系 ◆ 大数据能力开放平台:租户服务流程 ◆ 大数据能力开放平台:容器云平台支撑 ◆ 大数据能力开放平台:智能运维与DevSecOps系统支撑 ◆ 大数据能力开放平台:租户生态行业特征 ◆ 大数据能力开放平台:数据价值化运营实践 ◆ 两天课程总结与答疑环节 |
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员
Baron
百林哲咨询(北京)有限公司专家团队成员