简介
Druid作为用于大数据实时查询和分析的高容错、高性能开源分布式系统。在快速处理大规模的数据,能够实现快速查询和分析。尤其是当发生代码部署,机器过账以及其他产品系统遇到宕机等情况时,Druid仍能保持100%正常运行。Druid是一个JDBC组件,Druid内置提供了一个功能强大的StatFilter插件,能够详细统计SQL的执行性能。它包括三个部分:DruidDriver,代理Driver,能够提供基于Filter-Chiain模式的插件体系;DruidDdataSource高效可管理的数据库连接池;SQLParse等
目标
1、帮助学员更高效的监控数据库访问性能,对于线上分析数据库访问性能有很大的效果。
2、帮助学员建立一个高效、功能强大、可扩展性好的数据库连接池。
3、建立Druid用以查询的Broker和Historical支持多级缓存,每个segment启动一个线程并发执行查询,支持多Historical内部的线程级并发及Historical之间的进程间并发,Broker将各Historical的查询结果做合并。
受众人群
大数据分析师、大数据挖掘工程师;大数据高级开发工程师、项目经理、技术总监;T运维人员;
课程时长
1天(6H)
分享提纲
标题 | 内容 |
Druid介绍 | 1.druid是什么? 2.druid特性 3.druid适用的场景 |
数据格式与存储 | 1.列存储 2.数据布局 3.字典编码 4.BitMap索引 5.编码设计 6.压缩 |
Druid架构与设计 | 1.整体架构 2.各节点介绍 3.如何实现实时性 4.如何保障高可用 5.多线程模型(如何支撑高并发) 6.查询引擎设计 7.实时和离线混合的架构 |
数据摄入(导入) | 1.数据格式 2.Schema设计 3.Schema变更 4.流式摄入 5.离线摄入 6.数据更新 |
查询 | 1.查询介绍 2.Aggregator介绍 3.Granularity介绍 4.如何解决Join 5.多值维度 6.多租户设计 7.SQL支持 8.OrderBy排序 9.缓存配置 |
实践与优化 | 1.UTC时区问题 2.节点硬件配置 3.如何确定集群规模 4.如何配置内存 5.最佳Segment大小 6.集群升级 7.数据保留周期 8.数据可视化 9.监控与告警 10.消除“时间窗口” 11.和Hive的集成 12.数据可视化 |
经典案例 | 1.经典架构 2.广告实时多维分析 3.点击人群分析 4.用户留存分 |