SlideShare una empresa de Scribd logo
1 de 39
腾 讯 大 讲 堂 第五十九期 研发管理部 大讲堂主页: http://km.oa.com/class 与讲师互动: http://km.oa.com/group/class
数据蕴含商机,挖掘决胜千里 腾讯研究院 数据分析研究室 SimonJiang /  江宇闻 2009-02-24
Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
从运筹帷幄到决胜千里… 舌战群儒 草船借箭 巧借东风 火烧赤壁 ,[object Object],[object Object],[object Object],[object Object],[object Object]
观日月之行,察天地之变 风 雷 电 雨 云 云多会下雨 刮风会下雨 下雨会闪电 闪电会打雷 …… 换成它呢???
数据爆炸的时代 Data Mining, circa 1963 IBM 7090 600 cases “ Machine storage limitations restricted the total number of variables which could be considered at one time to 25.”
数据挖掘是…… Data Information Knowledge Wisdom ,[object Object],[object Object],[object Object],[object Object],Data + context Information +  rules Knowledge + experience
多学科的融合 Databases Statistics Pattern Recognition KDD Machine Learning AI Neurocomputing Data Mining
Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
几个基本概念 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
数据挖掘是一个过程 ,[object Object]
数据挖掘方法论 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
工欲善其事必先利其器 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
先来玩玩数据( EDA ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
数据挖掘  =  模型  +  算法 Logistic Regression 决策树 神经网络 K-Means K-Mode SOM (自组织图) Apriori FP-Growth 基于统计 基于距离 基于偏差 分类预测 关联规则 孤立点探测 聚类
你使用过信用卡吗? ,[object Object],[object Object],[object Object],影响 资产组合 ( Portfolio ) 1 、根据历史,预测将来 2 、目标是一个分类变量 3 、预测结果是一个统计意义下的概率 1 、哪些人可以发卡,额度是多少。 2 、持卡人拖欠的概率是多少 3 、该对谁催收
分类过程 训练集 分类学习 训练集 IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ Jef is YES! 分类器
物以类聚,人以群分 人为地选取细分维度 ,[object Object],[object Object],[object Object],[object Object],维度灾难的发生 ,[object Object],[object Object],[object Object],市场
聚类示意 ,[object Object],[object Object],[object Object],A1 A2 B1 x y z
发现商品间的关联规则 buy(x,”diapers”)    buy(x,”beers”)
关联规则的量度 ,[object Object],[object Object],[object Object],[object Object],P(Y|X)/P(Y)  置信度对期望可信度的比值  改善度  P(Y|X)  X 出现的前提下, Y 出现的频率 置信度 P(Y)  Y 出现的频率  期望可信度  P(X ∩ Y)  X 、 Y 同时出现的频率  支持度 公式 描述 名称
关联规则的度量 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],顾客购买尿布 顾客购买两者 顾客购买啤酒
从算法到应用
数据挖掘厂商 挖掘和统计分析平台 ,[object Object],[object Object],[object Object],[object Object],与数据库集成挖掘平台 ,[object Object],[object Object],[object Object],[object Object],行业运用及解决方案 ,[object Object],[object Object],[object Object]
Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
看看 QQ 的流失数据 每个月 500~1000 万的老用户流失,一年老用户流失接近 1 亿 , 实际自然人流失状况虽然没有这么严重,但是仍然是一个惊人的数据。 客户流失是每个行业每天都在面对的问题 1 、建立流失预测模型,回答客户是否要流失,何时流失的问题 2 、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失 3.05% 2.07% 2.35% 2.59% 当月老帐户流失率 8,217,569 5,466,807 6,006,582 6,572,087 当月流失老帐户数 269,060,000 264,006,894 255,749,736 253,668,411 当月活跃总帐户数 2007 年 6 月 2007 年 5 月 2007 年 4 月 2007 年 3 月 流失率
一切从目标出发 目标变量 :即需要根据业务需求确定模型需要预测的对象,在 QQ 客户流失模型中即是在业务上对“流失”的定义。 沉默客户数在 4 月后区域稳定 模型选择连续沉默 2 个月作为流失的定义 目标变量的定义: Good : 在表现窗口连续两个月有登陆的客户 Bad:   在表现窗口连续两个月都没有登陆的客户 Intermediate:   在表现窗口其中一个月有登陆的客户
打开观测用户的窗口 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],观察窗口 表现窗口 Time Lag M M-1 M-2 M-3 M-4 M-5 M+1 M+2 M+3 1 观察窗口: 形成自变量的时间段。 表现窗口 :形成因变量的时间段。 2 3 Time Lag :预留给业务部门进行相应操作的时间段。 1 2 3
勾勒出用户行为的特征 变化幅度特征变量  描述用户使用量上的变化幅度 基本属性变量  描述用户的基本属性 产品使用行为特征  描述用户使用产品的情况 消息业务使用行为特征  描述用户使用消息业务的情况 音频业务使用行为特征  描述用户使用音频业务的情况 视频业务使用行为特征  描述用户使用视频业务的情况 客户在线的行为特征  从在线时长,登陆次数,登陆频率等角度研究用户的使用行为 归属地变化的行为特征  描述用户在某一时间周期内登陆所在地的变化情况 中间变量 比例特征变量  描述用户业务使用占比 基础变量 变量描述 行为趋势特征变量  描述用户的使用行为变化趋势 变量描述
黄沙吹尽始到金 ,[object Object],[object Object],变量筛选 使用 Logistic 回归的 Stepwise 方法进行下一步拟合 卡方统计量  Chi Square 信息价值  Information Value 信息增益  Gain Index 单变量回归 偏相关分析  Partial Correlation
Lift 曲线 1 2,267,293 Total 0.05 226,730 9 0.07 226,729 8 0.11 226,729 7 0.15 226,730 6 0.25 226,729 5 0.35 226,729 4 0.55 226,730 3 1.03 226,728 2 2.27 226,729 1 5.17 226,729 0 Lift 样本数量 十分位
ROC 曲线 >50% >75%
建立闭环的业务流程 流失客户分析 数据挖掘 数据分析 数据采集 /ETL 现有流程评估 计划和设计挽留行动 执行挽留行动 评估挽留结果 调整应用流程
Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
几点心得 实施数据挖掘是一个战略性举措 Business First, Technique Second 数据挖掘不是万能的,没有它也不是万万不能 数据挖掘是一个循环探索的过程
参考文献
网络资源 ,[object Object],[object Object],[object Object],[object Object],[object Object]
Tecent Research   Question & Answer ?
联系我们 RTX : simonjiang  TEL : 7999 RTX : florayi  TEL : 8889 RTX : jeavinqiu  TEL : 5909 RTX : neilliao  TEL : 4232 Thank you !!

Más contenido relacionado

Destacado

Sugerencia 3b (Tercer Ciclo)
Sugerencia 3b (Tercer Ciclo)Sugerencia 3b (Tercer Ciclo)
Sugerencia 3b (Tercer Ciclo)
elbaulvolador
 
A brief history of Django model syntax
A brief history of Django model syntaxA brief history of Django model syntax
A brief history of Django model syntax
Jacob Kaplan-Moss
 
facebookbannertailgate
facebookbannertailgatefacebookbannertailgate
facebookbannertailgate
Musa Do
 
Diagrama ministerio de la ciencia y la tecnología
Diagrama ministerio de la ciencia y la tecnologíaDiagrama ministerio de la ciencia y la tecnología
Diagrama ministerio de la ciencia y la tecnología
uftpre6427028
 

Destacado (13)

Sugerencia 3b (Tercer Ciclo)
Sugerencia 3b (Tercer Ciclo)Sugerencia 3b (Tercer Ciclo)
Sugerencia 3b (Tercer Ciclo)
 
A brief history of Django model syntax
A brief history of Django model syntaxA brief history of Django model syntax
A brief history of Django model syntax
 
Executive Headhunt
Executive HeadhuntExecutive Headhunt
Executive Headhunt
 
História de minas gerais
História de minas geraisHistória de minas gerais
História de minas gerais
 
Como arrumar a mesa para as refeições brincadeiras na cozinha - cristina ca...
Como arrumar a mesa para as refeições   brincadeiras na cozinha - cristina ca...Como arrumar a mesa para as refeições   brincadeiras na cozinha - cristina ca...
Como arrumar a mesa para as refeições brincadeiras na cozinha - cristina ca...
 
facebookbannertailgate
facebookbannertailgatefacebookbannertailgate
facebookbannertailgate
 
ソーシャルメディア全盛時代のスマートフォン事業機会への取り組み
ソーシャルメディア全盛時代のスマートフォン事業機会への取り組みソーシャルメディア全盛時代のスマートフォン事業機会への取り組み
ソーシャルメディア全盛時代のスマートフォン事業機会への取り組み
 
Diagrama ministerio de la ciencia y la tecnología
Diagrama ministerio de la ciencia y la tecnologíaDiagrama ministerio de la ciencia y la tecnología
Diagrama ministerio de la ciencia y la tecnología
 
Apostila números e palhaços simone helen drumond
Apostila números e palhaços simone helen drumondApostila números e palhaços simone helen drumond
Apostila números e palhaços simone helen drumond
 
Alcotek Brand Development. Tashir group
Alcotek Brand Development. Tashir groupAlcotek Brand Development. Tashir group
Alcotek Brand Development. Tashir group
 
Módulo San Francisco el Grande
Módulo San Francisco el GrandeMódulo San Francisco el Grande
Módulo San Francisco el Grande
 
Esparta eta jainkoak
Esparta eta jainkoakEsparta eta jainkoak
Esparta eta jainkoak
 
Apresentação Solixx
Apresentação SolixxApresentação Solixx
Apresentação Solixx
 

Similar a 腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里

腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
George Ang
 
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
samanthaleee
 
03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 061103 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611
ikewu83
 
Alibaba arch-jiangtao-qcon
Alibaba arch-jiangtao-qconAlibaba arch-jiangtao-qcon
Alibaba arch-jiangtao-qcon
Yiwei Ma
 
App operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-finalApp operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-final
iambuku
 
22
2222
22
42qu
 
PPT设计形象化
PPT设计形象化PPT设计形象化
PPT设计形象化
CaoQingpeng
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
jasonfuoo
 
04 陈良忠ibm cloud forum ibm experience 0611
04 陈良忠ibm cloud forum  ibm experience 061104 陈良忠ibm cloud forum  ibm experience 0611
04 陈良忠ibm cloud forum ibm experience 0611
ikewu83
 
Don’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).pps
Don’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).ppsDon’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).pps
Don’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).pps
shen wannian
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
锐 张
 

Similar a 腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里 (20)

腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
 
03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 061103 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
Alibaba arch-jiangtao-qcon
Alibaba arch-jiangtao-qconAlibaba arch-jiangtao-qcon
Alibaba arch-jiangtao-qcon
 
App operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-finalApp operationattaobao-velocity2010 bj-final
App operationattaobao-velocity2010 bj-final
 
欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案
 
22
2222
22
 
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田) Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
 
PPT设计形象化
PPT设计形象化PPT设计形象化
PPT设计形象化
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
Data Mining
Data MiningData Mining
Data Mining
 
1 Dmaic D
1 Dmaic D1 Dmaic D
1 Dmaic D
 
04 陈良忠ibm cloud forum ibm experience 0611
04 陈良忠ibm cloud forum  ibm experience 061104 陈良忠ibm cloud forum  ibm experience 0611
04 陈良忠ibm cloud forum ibm experience 0611
 
機密圖檔與敏感資料庫資料防洩漏方案
機密圖檔與敏感資料庫資料防洩漏方案機密圖檔與敏感資料庫資料防洩漏方案
機密圖檔與敏感資料庫資料防洩漏方案
 
云计算概念介绍2011 03
云计算概念介绍2011 03云计算概念介绍2011 03
云计算概念介绍2011 03
 
软件工程
软件工程软件工程
软件工程
 
Don’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).pps
Don’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).ppsDon’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).pps
Don’t Make Me Think—PPT设计中的形象化表达_田士庆(小田).pps
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 

Más de d0nn9n

腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)
腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)
腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)
d0nn9n
 
腾讯大讲堂:55 企业法律风险防范
腾讯大讲堂:55 企业法律风险防范腾讯大讲堂:55 企业法律风险防范
腾讯大讲堂:55 企业法律风险防范
d0nn9n
 
腾讯大讲堂:56 qzone安全之路
腾讯大讲堂:56 qzone安全之路腾讯大讲堂:56 qzone安全之路
腾讯大讲堂:56 qzone安全之路
d0nn9n
 
腾讯大讲堂:57 超级qq的千万之路
腾讯大讲堂:57 超级qq的千万之路 腾讯大讲堂:57 超级qq的千万之路
腾讯大讲堂:57 超级qq的千万之路
d0nn9n
 
蔡学镛 Rebol漫谈
蔡学镛   Rebol漫谈蔡学镛   Rebol漫谈
蔡学镛 Rebol漫谈
d0nn9n
 
赵泽欣 - 淘宝网前端应用与发展
赵泽欣 - 淘宝网前端应用与发展赵泽欣 - 淘宝网前端应用与发展
赵泽欣 - 淘宝网前端应用与发展
d0nn9n
 
Yanggang wps
Yanggang wpsYanggang wps
Yanggang wps
d0nn9n
 
熊节 - 软件工厂的精益之路
熊节 - 软件工厂的精益之路熊节 - 软件工厂的精益之路
熊节 - 软件工厂的精益之路
d0nn9n
 
谢恩伟 - 微软在云端
谢恩伟 - 微软在云端谢恩伟 - 微软在云端
谢恩伟 - 微软在云端
d0nn9n
 
去哪儿平台技术
去哪儿平台技术去哪儿平台技术
去哪儿平台技术
d0nn9n
 
吴磊 - Silverlight企业级RIA
吴磊 - Silverlight企业级RIA吴磊 - Silverlight企业级RIA
吴磊 - Silverlight企业级RIA
d0nn9n
 
Tom - Scrum
Tom - ScrumTom - Scrum
Tom - Scrum
d0nn9n
 
Tim - FSharp
Tim - FSharpTim - FSharp
Tim - FSharp
d0nn9n
 
Tiger oracle
Tiger oracleTiger oracle
Tiger oracle
d0nn9n
 
Paulking groovy
Paulking groovyPaulking groovy
Paulking groovy
d0nn9n
 
Paulking dlp
Paulking dlpPaulking dlp
Paulking dlp
d0nn9n
 
Patrick jcp
Patrick jcpPatrick jcp
Patrick jcp
d0nn9n
 
Nick twitter
Nick twitterNick twitter
Nick twitter
d0nn9n
 
Marc facebook
Marc facebookMarc facebook
Marc facebook
d0nn9n
 
Kane debt
Kane debtKane debt
Kane debt
d0nn9n
 

Más de d0nn9n (20)

腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)
腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)
腾讯大讲堂:62 拇指下的精彩(手机qq交互设计经验分享)
 
腾讯大讲堂:55 企业法律风险防范
腾讯大讲堂:55 企业法律风险防范腾讯大讲堂:55 企业法律风险防范
腾讯大讲堂:55 企业法律风险防范
 
腾讯大讲堂:56 qzone安全之路
腾讯大讲堂:56 qzone安全之路腾讯大讲堂:56 qzone安全之路
腾讯大讲堂:56 qzone安全之路
 
腾讯大讲堂:57 超级qq的千万之路
腾讯大讲堂:57 超级qq的千万之路 腾讯大讲堂:57 超级qq的千万之路
腾讯大讲堂:57 超级qq的千万之路
 
蔡学镛 Rebol漫谈
蔡学镛   Rebol漫谈蔡学镛   Rebol漫谈
蔡学镛 Rebol漫谈
 
赵泽欣 - 淘宝网前端应用与发展
赵泽欣 - 淘宝网前端应用与发展赵泽欣 - 淘宝网前端应用与发展
赵泽欣 - 淘宝网前端应用与发展
 
Yanggang wps
Yanggang wpsYanggang wps
Yanggang wps
 
熊节 - 软件工厂的精益之路
熊节 - 软件工厂的精益之路熊节 - 软件工厂的精益之路
熊节 - 软件工厂的精益之路
 
谢恩伟 - 微软在云端
谢恩伟 - 微软在云端谢恩伟 - 微软在云端
谢恩伟 - 微软在云端
 
去哪儿平台技术
去哪儿平台技术去哪儿平台技术
去哪儿平台技术
 
吴磊 - Silverlight企业级RIA
吴磊 - Silverlight企业级RIA吴磊 - Silverlight企业级RIA
吴磊 - Silverlight企业级RIA
 
Tom - Scrum
Tom - ScrumTom - Scrum
Tom - Scrum
 
Tim - FSharp
Tim - FSharpTim - FSharp
Tim - FSharp
 
Tiger oracle
Tiger oracleTiger oracle
Tiger oracle
 
Paulking groovy
Paulking groovyPaulking groovy
Paulking groovy
 
Paulking dlp
Paulking dlpPaulking dlp
Paulking dlp
 
Patrick jcp
Patrick jcpPatrick jcp
Patrick jcp
 
Nick twitter
Nick twitterNick twitter
Nick twitter
 
Marc facebook
Marc facebookMarc facebook
Marc facebook
 
Kane debt
Kane debtKane debt
Kane debt
 

腾讯大讲堂:59 数据蕴含商机,挖掘决胜千里

  • 1. 腾 讯 大 讲 堂 第五十九期 研发管理部 大讲堂主页: http://km.oa.com/class 与讲师互动: http://km.oa.com/group/class
  • 3. Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
  • 4.
  • 5. 观日月之行,察天地之变 风 雷 电 雨 云 云多会下雨 刮风会下雨 下雨会闪电 闪电会打雷 …… 换成它呢???
  • 6. 数据爆炸的时代 Data Mining, circa 1963 IBM 7090 600 cases “ Machine storage limitations restricted the total number of variables which could be considered at one time to 25.”
  • 7.
  • 8. 多学科的融合 Databases Statistics Pattern Recognition KDD Machine Learning AI Neurocomputing Data Mining
  • 9. Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15. 数据挖掘 = 模型 + 算法 Logistic Regression 决策树 神经网络 K-Means K-Mode SOM (自组织图) Apriori FP-Growth 基于统计 基于距离 基于偏差 分类预测 关联规则 孤立点探测 聚类
  • 16.
  • 17. 分类过程 训练集 分类学习 训练集 IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ Jef is YES! 分类器
  • 18.
  • 19.
  • 21.
  • 22.
  • 24.
  • 25. Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
  • 26. 看看 QQ 的流失数据 每个月 500~1000 万的老用户流失,一年老用户流失接近 1 亿 , 实际自然人流失状况虽然没有这么严重,但是仍然是一个惊人的数据。 客户流失是每个行业每天都在面对的问题 1 、建立流失预测模型,回答客户是否要流失,何时流失的问题 2 、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失 3.05% 2.07% 2.35% 2.59% 当月老帐户流失率 8,217,569 5,466,807 6,006,582 6,572,087 当月流失老帐户数 269,060,000 264,006,894 255,749,736 253,668,411 当月活跃总帐户数 2007 年 6 月 2007 年 5 月 2007 年 4 月 2007 年 3 月 流失率
  • 27. 一切从目标出发 目标变量 :即需要根据业务需求确定模型需要预测的对象,在 QQ 客户流失模型中即是在业务上对“流失”的定义。 沉默客户数在 4 月后区域稳定 模型选择连续沉默 2 个月作为流失的定义 目标变量的定义: Good : 在表现窗口连续两个月有登陆的客户 Bad: 在表现窗口连续两个月都没有登陆的客户 Intermediate: 在表现窗口其中一个月有登陆的客户
  • 28.
  • 29. 勾勒出用户行为的特征 变化幅度特征变量 描述用户使用量上的变化幅度 基本属性变量 描述用户的基本属性 产品使用行为特征 描述用户使用产品的情况 消息业务使用行为特征 描述用户使用消息业务的情况 音频业务使用行为特征 描述用户使用音频业务的情况 视频业务使用行为特征 描述用户使用视频业务的情况 客户在线的行为特征 从在线时长,登陆次数,登陆频率等角度研究用户的使用行为 归属地变化的行为特征 描述用户在某一时间周期内登陆所在地的变化情况 中间变量 比例特征变量 描述用户业务使用占比 基础变量 变量描述 行为趋势特征变量 描述用户的使用行为变化趋势 变量描述
  • 30.
  • 31. Lift 曲线 1 2,267,293 Total 0.05 226,730 9 0.07 226,729 8 0.11 226,729 7 0.15 226,730 6 0.25 226,729 5 0.35 226,729 4 0.55 226,730 3 1.03 226,728 2 2.27 226,729 1 5.17 226,729 0 Lift 样本数量 十分位
  • 33. 建立闭环的业务流程 流失客户分析 数据挖掘 数据分析 数据采集 /ETL 现有流程评估 计划和设计挽留行动 执行挽留行动 评估挽留结果 调整应用流程
  • 34. Agenda 数据挖掘是什么? 1 模型 + 算法 2 数据挖掘实践分享 3 心得与总结 4
  • 35. 几点心得 实施数据挖掘是一个战略性举措 Business First, Technique Second 数据挖掘不是万能的,没有它也不是万万不能 数据挖掘是一个循环探索的过程
  • 37.
  • 38. Tecent Research Question & Answer ?
  • 39. 联系我们 RTX : simonjiang TEL : 7999 RTX : florayi TEL : 8889 RTX : jeavinqiu TEL : 5909 RTX : neilliao TEL : 4232 Thank you !!

Notas del editor

  1. 商场如战场