简介
大数据分析和挖掘在互联网公司中已经得到实质性的推进和应用,典型的应用场景包括搜索引擎的搜索结果和搜索广告排序、电商网站的商品推荐和虚假信息检测、电子邮件服务中垃圾邮件检测、互联网安全公司的病毒和木马检测、视频和新闻分享网站中视频和新闻推荐、互联网金融服务中的用户信誉评估等。
社交网络的火爆可以看成是促使大数据技术迅猛发展的直接驱动原因。社交网络的 数据呈现大规模、异构、网状相连的特征,为大数据挖掘提供了更复杂、更有挑战的案例。在社交网络中,大数据挖掘的应用更是覆盖了 70%左右的场景。经典的使用场景诸如好友新鲜事(tweets)智能排序、好友推荐、好友搜索、社交广告等。
大数据受到广泛认可,究其原因,主要是如果大数据相关技术得到较好的使用,会带来从访问流量到收入变现能力等关键数据指标的实质提升。以讲师亲身项目经验为例:一个新的好友推荐算法的上线可能带来 80%以上的“关注量”或者“加好友申请量”的提高;对手机通讯录匹配算法的优化升级,可使手机号对应的社交网络的用户帐号匹配量增加 55%以上; 社交广告中用户定向和广告排序算法的引入,可使广告收入暴涨 100%以上。又如,用户社交圈智能划分算法的上线,使很多用户的三四百个好友被自动合理分到合适的社交圈中,免 去他们手动逐个操作的麻烦,提升了用户体验,他们评价“真心觉得做到了我的心里”、“给数据挖掘跪了”。
目标
本课程将围绕大数据背景下的数据挖掘技术、社交网络中的推荐技术和好友关系链挖掘技术做一些实践案例讲解。该课程使学员:
掌握社交图谱挖掘的一到两个经典数据挖掘案例的解决方案;
掌握社交好友推荐中一到两个经典案例的解决方案;
掌握如何搭建一个实用的推荐引擎的方法;
掌握数据挖掘的经典方法论:数据挖掘过程、模型评估标准等;
侧重掌握最普遍使用的分类预测技术的方法,轻松理解分类预测技术的重难点主题及一些新技术:模型优化的原理、Overfitting 和 Underfitting、Variance/Bias 和多模型方法等。
课程时长
2天(12H)
受众人群
数据挖掘工程师、数据分析师、大数据工程师、算法专家、项目经理、技术经理、数据产品经理以及其他具有一定数据挖掘经验的人员。
课程特点
大量大数据挖掘实践案例 难点理论讲述浅显易懂
数据挖掘算法讲述会超出传统教科书的讲解范畴,不会赘述具体经典算法,而是讲述经典课本上不会出现的适应大数据背景下数据挖掘的实用新技术
分享提纲
课程项目 | 具体内容 |
1.数据挖掘基础及 Weka 工具使用 (1.5h) | 1.1 数据挖掘过程与挖掘工具 Weka 使用实践 1.1.1 Weka 介绍 1.1.2 数据格式 1.1.3 数据准备 1.1.4 选择算法 1.1.5 模型训练 1.1.6 模型评估 1.1.7 模型应用 1.1.8 使用命令行 1.1.9 Weka 使用举例:金融服务中用户信誉评估 1.2 数据挖掘模型评估方法 1.2.1 Training – Testing 1.2.2 Cross Validation 1.2.3 基于用户和 PM 反馈的评估 1.2.4 如何选择合适的数据挖掘评估方法:案例讲解 1.3 数据挖掘的模型评估指标 1.3.1 Confusion Matrix 1.3.2 Accuracy 和 Error Rate 1.3.3 Precision 和 Recall 1.3.4 F-measure 1.3.5 Specificity, Sensitivity 和 G-mean 1.3.6 ROC 和 AUC 1.3.7 MSE 和 RMSE 1.3.8如何选择合适的数据挖掘评估指标:案例讲解 |
2. 数据分类挖掘新技术(1.5h) | 2.1 工业界应用举例 2.1.1 计算广告 2.1.2 好友推荐系统 2.2 分类挖掘原理探索:经典的单模型方法 2.2.1 分类学习的根源问题及解决 2.2.2 Bias、Variance 困境 2.2.3 均衡 Overfitting 和 Underfitting 2.3 分类学习根源问题的更好解决方案:多模型方法 2.4 多模型重要算法汇总 2.4.1 Ensemble Selection 2.4.2 Bagging 2.4.3 Random Forest 2.4.4 Random Decision Tree (RDT) 2.4.5 Boosting 2.4.6 Meta-learning 2.4.7 Error-Correcting Output Codes (ECOC) 2.4.8 多模型与单模型方法的比较:Weka 案例讲解 2.5 如何研发一个新的数据挖掘算法:案例讲解 2.5.1 创新一个新数据挖掘算法的过程 2.5.1.1需求驱动的算法优化和创新 2.5.1.2理论驱动的算法优化和创新 2.5.1.3算法建模 2.5.1.4算法实验验证 2.5.1.5 算法上线 2.5.2 Dynamic Data Mining(DDM):分而治之的多模型框架研发过程 2.5.2.1理论驱动 2.5.2.2 DMM 建模研发 2.5.2.3算法验证及上线 |
3.推荐引擎技术实战(1.5h) | 3.1 推荐引擎解决的问题 3.2 推荐系统历史 3.3 通用推荐引擎基础架构 3.3.1 统一展示逻辑 3.3.2 实验分流平台 3.3.3 推荐结果预处理 3.3.4 推荐结果召回 3.3.5 推荐过滤去重 3.3.6 推荐排序 3.3.7推荐解释 3.3.8实时数据统计分析平台 3.3.9系统监控平台 3.3.10数据挖掘和推荐算法管理 3.4 社会化推荐引擎 3.4.1好友推荐使用场景举例 3.4.2好友推荐主要挑战 3.4.3好友推荐引擎架构 3.5 社会化推荐引擎算法案例讲解 3.5.1 Online Learning 的特点和一般流程 3.5.1.1在线挖掘数据特点 3.5.1.2在线挖掘基本过程 3.5.2二度好友模型:案例讲解 3.5.2.1二度好友模型解决的问题 3.5.2.2二度好友模型的建模过程 3.5.2.3二度好友模型的效果评估 3.5.3好友簇算法:案例讲解 3.5.3.1好友簇算法解决的问题 3.5.3.2聚类方法原理 3.5.3.3好友簇算法的建模过程 3.5.3.4 好友簇算法的效果评估 3.5.4 加好友申请接受率预估模型:案例讲解 3.5.4.1加好友申请接受率预估解决的问题 3.5.4.2加好友申请接受率预估的建模过程 3.5.4.3加好友申请接受率预估的效果评估 |
4.社交网络中大数据挖掘实战(1.5h) | 4.1 社交图谱挖掘介绍 4.1.1 社交网络数据挑战 4.1.2 社交网络中的数据挖掘意义 4.1.3 社交图谱挖掘主要任务 4.1.4 社交图谱挖掘通用路标 4.2 社交图谱挖掘案例讲解:好友亲密度模型 4.2.1好友亲密度模型的意义 4.2.2经典用户行为分析建模方法简介 4.2.3 好友亲密度建模过程 4.2.4好友亲密度模型效果分析 4.3 社交图谱挖掘案例讲解:好友自动分组 4.3.1好友智能分组的意义 4.3.2社区发现简介 4.3.3好友自动分组建模过程 4.3.4好友自动分组效果评估 |
5学员问题解答 |