Python大数据实战:大规模爬取分析与可视化
成喆 查看讲师
百林哲咨询(北京)有限公司专家团队成员
从业超过10年,长期任职于大数据平台DevSecOps、AIOps的构建相关领域,曾任大数据公司顶级公司Splunk高级架构师等,在大数据处理与安全领域拥有6项美国专利。善于实战经验与技能知识结合,深入浅出的讲解分享。
浏览:3575次
详情 DETAILS

课程简介

顶级大数据平台公司的资深架构师、最权威Python大会PyCon首席讲师讲授,实战与10年+经验与技巧结合,掌握数据分析与可视化以及在Python中应用的最佳捷径。全真案例,借助案例与数据分析的知识与原理,借助最佳实践,帮助您提高数据爬取、处理分析与可视化能力,从而获取大数据带来的价值。关注业界流行工具包与最佳实践,以实战训练驱动对数据获取、处理、分析与可视化进行理解与运用

课程收益

1.解决爬虫难以编写,执行效率低下的问题

2.解决爬虫不够灵活,过于简单,容易被识别,容易出错,自适应差的问题

3.解决数据规整耗时耗力,效果不佳的问题

4.解决分析方法缺乏,难以快速有效地提取信息与要素的问题

5.解决可视化效率低下,无法满足需求的问题

6.解决分析可视化架构不够健全,适应性差的问题

受众人群

大数据工程师、运维工程师、运维经理、技术经理、资深工程师

课程周期

1天(6H)

课程大纲

第一单元:Python大数据爬取与处理基础

主题: 以爬取某网站数据为例,讲解实际爬虫与数据处理用到的Python核心技巧

1.从几个爬虫与数据分析的实际案例开始讲起,如何构建一个健壮的大数据爬取、整理、分析与可视化系统。覆盖知识:生态、概念与挑战

2.从一个网络爬虫与数据分析的例子中,讲解更健壮的爬虫文本处理。覆盖技术:IO、Http、字符串编码、正则表达式

3.继续上例子,讲解更有效的数据处理与解析。覆盖技术:切片、列表推导式、内置数据结构、迭代器、生成器等

第二单元:Python高级数据爬取与数据清洗实战

主题:进一步提升爬虫稳定性、并发性与分布式扩展能力,并着手数据清洗工作

1.以实际爬虫为例,改造并发提升稳定性。覆盖技术:错误处理、状态保存、任务发现等

2.继续之前爬虫的例子,改造并发提升性能。覆盖技术:GIL、线程池、进程池、异步IO

3.进一步改造提升爬虫的分布式能力。覆盖技术:队列服务、数据状态服务、调度服务

4.以实际数据为例,对数据进行规整、清洗与验证。覆盖技术:Pandas、DataFrame等

第三单元:Python高级数据分析实战

主题:通过某网站数据,使用Pandas、SeaBorn进行多维与高阶数据分析

1.DataFrame数据操作

 案例分析:多维度数据的操作与分析。

2.IO操作与数据预清洗

 案例分析:杂乱数据的加载与预处理。

3.高级数据清洗

 案例分析:高级数据清洗

4.数据展示

 案例分析:可视化直观的展示客户分布与规律

5.数据转换与丰富

 案例分析:丰富数据内容与格式转换成需要的样子。

6.高阶数据统计与展示

 案例分析:使用高级接口进行快速分析与展示。

7.多维数据分析

 案例分析:使用SeaBorn进行高级统计回归分析

第四单元:Python时间序列数据分析实战

主题:通过某网站数据,使用Pandas进行基于时间序列的分析

1.时间序列的格式

  案例分析:基于时间的数据进行统计分析

2.高级时间格式

 案例分析:时间格式的调整与转换

3.时间块数据分析

 案例分析:基于时间块的数据分析

第五单元:Python可视化扩展实战

主题:通过某网站数据,使用Jupyter、Flask/Django、Grafana、Dash构建可视化服务

1.以实际网站数据,简单数据可视化与分享服务构建。覆盖技术:使用Jupyter作为数据分享平台

2.以实际网站数据,构建更加灵活的数据可视化服务。覆盖技术:使用Flask/Django作为数据底层欧宁泰

3.扩展可视化性能,进一步提升更大数据可视化能力。覆盖技术:使用Grafana作为数据展示平台

4.扩展可视化能力,增加更多交互性。覆盖技术:使用Dash构建交互式可视化服务


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1