课程简介
阿里云大数据专业认证是面向使用阿里云大数据产品的架构、开发、运维类人员的专业技术认证,通过ACP认证可以掌握基于阿里云的产品定制有效的技术解决方案和企业最佳实践的能力。
本课程采用原理技术剖析和实战案例相结合的方式开展互动教学,强化以建立大数据项目解决方案为主体的应用开发、技术讨论与交流咨询,在学习的同时促进讲师学员之间的交流,帮助学员详细了解大数据技术知识体系,掌握实际大数据应用项目的动手开发实践与运维管理部署能力。
课程收益
1、帮助学员掌握大数据的存储、处理、分析以及展现的基础知识;
2、帮助学员掌握根据企业的业务需求,基于阿里云的产品制定有效的技术解决方案和企业最佳实践的能力;
3、帮助学员熟练运用阿里云的大数据计算服务MaxCompute、数据工场DataWorks、数据集成、QuickBI以及机器学习PAI等产品;
4、帮助学员掌握诊断基于阿里云大数据产品构建的业务系统在运行中出现的常见问题并找到相应的解决方案的能力
受众人群
大数据的研发人员,大数据构师,大数据运维人员
课程周期
6天(36H)
课程大纲
标题 | 授课内容 |
一、阿里大数据产品体系、大数据计算服务MaxCompute基础、数据上传与下载Tunnel | 1. 阿里大数据产品体系 (1) 什么是大数据 (2) OLTP与OLAP (3) 数据仓库 (4) 阿里大数据产品体系 ① 阿里云大数据基础产品 ② 阿里云数加平台 (5) 大数据平台的理论基础 ① 分布式文件存储 ② 分布式计算 2. 大数据计算服务MaxCompute基础 (1) MaxCompute简介 (2) MaxCompute的体系架构与基本概念 ① MaxCompute的架构 ② MaxCompute的基本概念 (3) 使用MaxCompute ① 创建阿里云账号 ② 开通MaxCompute ③ 创建项目空间与客户端配置 (4) MaxCompute快速入门 ① 使用阿里云提供的公开数据集 ② 创建表与数据的导入 ③ 执行MapReduce任务 ④ 执行Spark任务 3. 数据上传与下载Tunnel (1) Tunnel命令参考 (2) Tunnel命令示例 (3) Tunnel SDK |
二、SQL开发基础、UDF开发基础 | 1. SQL开发基础 (1) MaxCompute SQL基础知识 (2) 数据定义语言DDL ① 创建表 ② 添加删除分区 ③ 视图 (3) 数据操作语言DML ① insert插入数据 ② select查询数据 (4) 内置函数 ① 数值运算函数 ② 日期函数 ③ 字符串函数 ④ 条件函数case ⑤ 组函数 ⑥ 窗口函数 2. UDF开发基础 (1) MaxCompute UDF简介 (2) MaxCompute Java UDF实现逻辑 (3) MaxCompute Java UDF开发 |
三、MapReduce编程、Graph编程 | 1. MapReduce编程 (1) 序列化 (2) 排序 (3) 分区 (4) Combiner合并Graph编程 2. Graph编程 (1) 图计算基本概念 (2) Graph数据结构 (3) Graph的处理流程 (4) Graph SDK介绍 (5) Graph的Aggregator机制 (6) Graph示例:单源最短距离 |
四、权限与安全、大数据开发平台DataWorks基础 | 1. 权限与安全 (1) 用户与角色 ① 用户 ② 角色 (2) 用户管理授权 ① ACL授权 ② Policy授权 ③ ACL与Policy的区别 (3) 基于标签的安全管理 ① LabelSecurity基本操作 ② LabelSecurity应用场景示例 (4) 跨项目空间的资源分享 ① Package创建者 ② Package使用者 ③ Package场景示例 (5) 项目空间的数据保护 ① 数据保护机制 ② 开启数据保护机制后的数据流出 2. 大数据开发平台DataWorks基础 (1) DataWorks简介 (2) DataWorks基本概念 (3) DataWorks功能架构 (4) DataWorks角色隔离 |
五、DataWorks应用开发、数据集成 | 1. DataWorks应用开发 (1) DataWorks开发流程 (2) DataWorks数据开发 (3) DataWorks调度配置 ① 调度的周期配置 ② 调度的参数配置 ③ 调度的依赖关系 (4) DataWorks数据管理 (5) DataWorks运维管理 ① Dataworks的运维中心 ② 手动任务与周期任务 ③ 周期实例操作 ④ 补数据实例 ⑤ 监控报警 (6) DataWorks项目管理 (7) 实操案例 ① 建表并上传数据 ② 创建业务流程 ③ 创建同步任务 ④ 设置周期和依赖 ⑤ 运行及排错 2. 数据集成 (1) 数据集成简介 ① 离线(批量)同步简介 ② 实时同步简介 ③ 支持的数据源 ④ 什么是数据同步和数据同步作业 ⑤ 数据集成DataX (2) 数据同步 ① 配置数据源 ② 创建同步任务 ③ 运行同步任务 ④ 查看同步任务结果 ⑤ 同步中的“脏”数据和容错 (3) 常见配置 ① 配置白名单 ② 配置安全组 ③ 配置通道控制参数 ④ 数据源切分键(分区)配置 ⑤ 数据字段映射配置 |
六、Quick BI、机器学习 | 1. Quick BI (1) Quick BI简介 ① 什么是Quick BI? ② Quick BI的基本对象 ③ Quick BI的产品架构 ④ Quick BI的应用场景 (2) 产品应用 ① 准备工作,建立数据源 ② 数据建模 ③ 仪表盘可视化分析 ④ 调整仪表板布局 ⑤ 搭建数据门户 ⑥ 公开仪表板 (3) 常用图表解析 2. 机器学习 (1) 机器学习基础知识 ① 什么是机器学习? ② 机器学习的常见算法 (2) 阿里云机器学习平台PAI ① 机器学习产品PAI ② PAI的架构 ③ PAI的功能特性 ④ PAI的基本概念 ⑤ PAI的应用场景 (3) 机器学习平台PAI的应用 ① 应用流程 ② 数据预处理 ③ 特征工程 ④ 统计分析 ⑤ 算法分类 ⑥ 应用流程 |
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员
John Zhao
百林哲咨询(北京)有限公司专家团队成员