大数据平台架构实践
Chad Wang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
曾在某上市公司,担任云事业群技术总监、集团的云计算首席专家和数字化转型平台业务负责人,带领团队从事数据中心云化、云原生架构、人工智能与数据平台等方向的产品研发和产业化工作。
浏览:4524次
详情 DETAILS

简介

随着互联网业务的快速发展,企业均加速大数据平台建设,以提高数据获取速度,提升数据分析效率,更快发挥数据价值。 本次内容将如何围绕和改造开源技术,以产品化思维打造大数据平台, 大数据平台构建和支撑互联网业务过程中面临的技术挑战,以在调度、安全、元数据管理、spark多租户、SQL流计算、高性能查询引擎等关键技术环节的实践经验、大数据平台未来的技术路线规划。
目标

1了解大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在互联网等行业中的应用实践;

2了解Hadoop大数据平台的生态系统组件、平台架构以及工作原理;

3深入了解Spark体系架构,RDD概念和操作;以及Spark和 Hadoop的整合等

受众人群

运维工程师、架构师、大数据工程师、资深工程师、技术经理等

课程时长

2天(12H)

分享提纲

主题课程模块课程内容时长
大数据平台架构

大数据基础概念和数据平台相关概

1.大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在互联网等行业中的应用实践;

2.数据平台的基本概念

3.数据平台的组成部分,功能和作用:包括数据存储、计算、传输(输入/输出)、任务调度系统、开发者平台、数据质量监控等
1.5H
数据平台案例分享1.美团点评数据平台整体架构0.5H

Hadoop分布式存储HDFSMapReduce计算介绍

1.Hadoop大数据平台的生态系统组件、平台架构以及工作原理

2.Hadoop大数据存储系统HDFS的技术原理及应用实战,以及分布式文件系统HDFS概述、功能、作用、优势、应用现状和发展趋势

3.HDFS分布式存储系统的核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展。

4.大数据平台中的并行计算处理与函数式编程技术原理,以及数据并行技术—MapReduce技术的工作机制、工作原理、性能调优和大数据处理架构,以及MapReduce技术的发展趋势

5.Hadoop MapReduce并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践
3H
Hadoop集群建设参考架构

1.Namenode\DataNode节点硬件以及网络选择

2.集群高可用配置

3.集群机房实际部署拓扑推荐

4.集群监控和自动化运维实践

5.案例:唯品会Hadoop集群架构
1H
Hive和数据仓库

1.Hive简介

2.Hive数据模型

3.Hive QL语法和使用

4.基于Hive的数据仓库建设
1H
Spark数据分析

1.Spark 简介

2.Spark安装与部署,Spark独立部署和YARN整合

3.深入了解Spark体系架构,RDD概念和操作;以及Spark和 Hadoop的整合

4.Spark SQL以及Spark和Hive的整合

5.Spark Streaming介绍,介绍其特点和使用建议

6.案例演示
3H
数据安全

1.Hadoop权限体系介绍

2.Hive权限体系简介

3.Kerberos和LDAP在Hadoop安全上的应用

4.如何构在hadoop上建自动化授权和鉴权体系
1H
实时流计算

1.介绍Storm相关概念和基础知识,以及如何使用Storm等。

2.以流量实时化和实时推荐为例,介绍实时系统的使用场景、系统架构和最佳实践

3.在流处理方向Spark Stream和Storm的区别和使用特点
1H
数据分析实践(以用户行为分析为例

1.打点框架,用户行为数据收集

2.数据、日志的收集和传输

3.ETL和数据建模

4.用户画像以及实际应用

5.Case分享:大众点评的数据驱动精准化营销实践
1.5H
总结1.大数据和分布式系统新的发展方向和趋势0.5H


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1