大数据及AI挖掘技术落地实战
John Yang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
硅谷海归软件工程师、架构师,曾供职阿里巴巴云梯、飞天及计算平台任高级技术专家
浏览:1806次
详情 DETAILS

课程简介

课程介绍了大数据中台的背景、基本业务、基本构成以及Hadoop分布式系统等。

课程周期

2天(12H)

课程大纲

大数据中台的前世今生(Day 1 AM)

数据到大数据的发展历程

集中式数据系统到大数据平台

系统成本压力与收益

分久必合的中台发展史

阿里大数据中台的发展历程

大数据中台系统的基本业务

离线计算业务

实时计算业务

Kappa架构和Lambda架构

推荐算法与机器学习业务

商业智能与报表业务

数据产品化及数据化运营

大数据中台系统的基本构成

文件存储系统

计算系统

资源调度系统

结构化存储引擎

有向无环图系统

上层查询引擎

作业调度管理系统

数据市场与数据治理

Hadoop生态系统举例

阿里飞天的生态系统举例

Hadoop分布式文件系统 Hadoop Distributed File System(HDFS)

HDFS组件与原理

Namenode主结点Master结点

Datanode从结点Slave结点

HDFS存储原理

应对集群故障

HDFS小文件管理

Hadoop分布式调度系统Yet Another Resource Negotiator() (Day 1 PM)

Resource Manager 主结点Master结点

Node Manager 从结点Slave结点

Application Master 应用可扩展主结点

开发自定义分布式计算程序

队列分配与资源分配

离线与在线混合部署

离线计算引擎 MapReduce

MapReduce基本原理

MapReduce在Yarn上实现

Shuffle的基本原理

Shuffle的调优

离线计算引擎Spark

Spark的基本原理

Spark的架构

开发一个Spark应用程序

Spark实际运算过程解析

使用Spark时注意的问题

实时计算引擎Flink

实时流处理与业务场景

Flink的基本原理

Flink应用实践

流式处理引擎的对比

Flink常用的优化手段

消息中间件Kafka

Kafka架构

Kafka基础原理

Kafka应用实践

Kafka常用配置

Kafka调优

上层查询引擎Hive (Day 2 AM)

Hive架构

Hive基本原理

大数据系统的元数据

Hive应用实践

数据倾斜问题

Hive 调优

结构化存储引擎HBase

HBase架构

HBase基本原理

HBase应用实践

云上多模式数据库

常见问题与调优

作业调度管理系统

AirFlow原理及使用

Oozie原理及使用

阿里天网

机器学习PyTorch

架构

学术界常用场景

原理及应用

与Hadoop结合

机器学习TensorFlow

架构

工业界常用场景

原理及应用

与Hadoop结合

大数据上的机器学习与人工智能

机器学习是研究什么的?

交叉验证与混淆矩阵

偏差与方差

逻辑回归及细节

主要成分分析PCA

聚类

递度下降

支持向量机

随机森林

综合应用案例

总结与讨论





企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1