SlideShare una empresa de Scribd logo
1 de 21
数据挖掘九律 Tony Deng http://twitter.com/wolfdeng http://friendfeed.com/tonydeng http://delicious.com/wolf.deng http://wolfchina.blogbus.com
原文地址 http://smartdatacollective.com/metabrown/32627/data-mining-fundamentals-khabaza-s-9-laws-data-mining
第一,目标律 数据挖掘是一个业务过程,必须得有业务目标。 无目的,无过程。
第二,知识律 业务知识贯穿在挖掘这个业务过程的各个环节
第三,准备律 数据获得、数据准备等数据处理等工作耗时占整个挖掘过程的一半。
第四,NFL律 NFL(No Free Lunch),没有免费午餐 没有一个固定的算法适用所有的业务问题,特点应用适合的模型只能经验发现。
第五,大卫律 要相信,数中必有业务规律。 大卫.沃尔金斯最早提出,故此名。
第六,洞察律 数据挖掘本质上是增强对业务领域的认知
第七,预测律 数据挖掘基于过去得出模式,并泛化到类似新事物上,这就是预测,但这是统计概念的。
第八,价值律 挖掘模型的最终价值并非精度或稳定性,而是驱动业务行动或通过重新洞察导致策略改善
第九,变化律 人不会两次踏入同一条河流 业务在变,目标在变,认识也在变,甚至规律本身也在变,挖掘模型也得与时俱进
心法 敌不动我不动,见招拆招,以无招胜有招。
故事时间 人物背景介绍: 悟空:挖掘新手 菩提:悟空的导师,挖掘高高手
事情背景介绍: 一日,悟空接到任务,走一趟挖掘。过了段时间,他找到了菩提,菩提正在闭目打坐。 然后,发生了下面这一场对话。
师傅,徒儿接到任务,已经开始干了,不出一个月就可大功告成。 嗯,不错,什么进展了? 我已经安排下去,现在数据准备已经完成,并且建了一个小模。哎呀,您是不知道啊,那个数据太烂,一堆问题,到处是空值,很多信息也是假的,balabala…. 先别说你的数据,数据准备干了多长时间了? 干了一个多月,还蛮符合准备率的吧! 这个任务到底要干什么? 嗨,就是要找出想搞破坏的人,放心,第一律我牢记于胸。现在还有两个人帮我一起做,一个准备数据,一个建模。 那你干什么?
我搞业务理解啊,并且运用知识律,搞了一个挖掘过程模板,我们三个就用这个模板进行过程交互,挺好的,什么时候给您瞅瞅。 嗯,听起来不错,那你今天来此打扰我清修作甚? 您是不知道啊。不是跟你说了,我们还建了一个小模嘛。唉,效果不太好。用分类预测训练了数据,但那个数据实在太差了,感觉那个模型一点都不靠谱,没反应出 来什么规律。我们用那个结论在我们三个身上试了一下,结果大家都觉得不对,我们都成了想搞破坏的人,一点都不符合实际情况。 你忘了大卫律了?要相信。还有预测律,你这个模型在你们三个身上试验,能证明什么? 是啊,我没忘啊。不过要找到规律还需要时间啊。我们要计划在找更多的样本去验证。不过…今天来…确实是无事不登三宝殿…有个事儿… 啥事?
您前年不是搞了一个犯罪预测嘛,现在很多地方都在用,我想跟这次任务的目标类似,我想能不能就直接把您的模型拉过来训练一下就行了…您那个模型实在是太绝了… 哈哈,看来你想偷懒啊,但你怎么能够知道这个模型适用你的任务呢? 您的模型我还担心什么啊。主要是这次任务时间紧,我也没办法,先解决了问题吧,能精确定位目标人群就行了,您的模型,肯定很准的。 虽然你拍我马屁,但我还是对你很失望啊。挖掘的本质是什么? 呃…洞察…我也知道天下没有免费的午餐...但时间太紧,任务太重啊,没您不行啊,您的模型就是我们的法宝啊。 唉,不说那是两年前的模型,现在你遇到的情况跟我遇到的情况不一样,现在的犯罪手段也变了各种花样,变化率怎么说的?再说,你为什么如此看重模型的精度,那并非挖掘的终极价值啊!醒悟吧!我代表客户鄙视你!
老家伙,你到底是给还是不给?你是想看着我死吗? (仰天长叹)唉,师徒一场,罢了罢了,拿去吧。但你此一去,我们师徒恩断义绝,以后再也不要来见我,再也不要叫我师傅,也不要再别人面前妄称我是你的师傅。走吧,走吧…
谢谢

Más contenido relacionado

Más de Tony Deng

我们为何工作--找到正确的工作方式
我们为何工作--找到正确的工作方式我们为何工作--找到正确的工作方式
我们为何工作--找到正确的工作方式Tony Deng
 
漫谈职业规划
漫谈职业规划漫谈职业规划
漫谈职业规划Tony Deng
 
一次Http请求过程分析
一次Http请求过程分析一次Http请求过程分析
一次Http请求过程分析Tony Deng
 
一次Code review引发的思考
一次Code review引发的思考一次Code review引发的思考
一次Code review引发的思考Tony Deng
 
My sql迁移总结
My sql迁移总结My sql迁移总结
My sql迁移总结Tony Deng
 
一次项目的探险旅程
一次项目的探险旅程一次项目的探险旅程
一次项目的探险旅程Tony Deng
 
Scrum敏捷开发模型
Scrum敏捷开发模型Scrum敏捷开发模型
Scrum敏捷开发模型Tony Deng
 
Shoutv 冯晓东
Shoutv 冯晓东Shoutv 冯晓东
Shoutv 冯晓东Tony Deng
 
技术债务的形成
技术债务的形成技术债务的形成
技术债务的形成Tony Deng
 
我们不了解的计算机世界(二)
我们不了解的计算机世界(二)我们不了解的计算机世界(二)
我们不了解的计算机世界(二)Tony Deng
 
我们不了解的计算机世界(一)--Unix目录结构的来历
我们不了解的计算机世界(一)--Unix目录结构的来历我们不了解的计算机世界(一)--Unix目录结构的来历
我们不了解的计算机世界(一)--Unix目录结构的来历Tony Deng
 
节约内存:Instagram的redis实践
节约内存:Instagram的redis实践节约内存:Instagram的redis实践
节约内存:Instagram的redis实践Tony Deng
 
晁盖与宋江的“兄弟情谊”
晁盖与宋江的“兄弟情谊”晁盖与宋江的“兄弟情谊”
晁盖与宋江的“兄弟情谊”Tony Deng
 
非常靠谱 Html 5
非常靠谱 Html 5 非常靠谱 Html 5
非常靠谱 Html 5 Tony Deng
 
施耐庵究竟怎样写武松
施耐庵究竟怎样写武松施耐庵究竟怎样写武松
施耐庵究竟怎样写武松Tony Deng
 
我们的岛,又有多大
我们的岛,又有多大我们的岛,又有多大
我们的岛,又有多大Tony Deng
 
核辐射乱谈
核辐射乱谈核辐射乱谈
核辐射乱谈Tony Deng
 

Más de Tony Deng (20)

我们为何工作--找到正确的工作方式
我们为何工作--找到正确的工作方式我们为何工作--找到正确的工作方式
我们为何工作--找到正确的工作方式
 
SDN介绍
SDN介绍SDN介绍
SDN介绍
 
漫谈职业规划
漫谈职业规划漫谈职业规划
漫谈职业规划
 
一次Http请求过程分析
一次Http请求过程分析一次Http请求过程分析
一次Http请求过程分析
 
图解Git
图解Git图解Git
图解Git
 
一次Code review引发的思考
一次Code review引发的思考一次Code review引发的思考
一次Code review引发的思考
 
My sql迁移总结
My sql迁移总结My sql迁移总结
My sql迁移总结
 
一次项目的探险旅程
一次项目的探险旅程一次项目的探险旅程
一次项目的探险旅程
 
Scrum敏捷开发模型
Scrum敏捷开发模型Scrum敏捷开发模型
Scrum敏捷开发模型
 
Shoutv 冯晓东
Shoutv 冯晓东Shoutv 冯晓东
Shoutv 冯晓东
 
技术债务的形成
技术债务的形成技术债务的形成
技术债务的形成
 
我们不了解的计算机世界(二)
我们不了解的计算机世界(二)我们不了解的计算机世界(二)
我们不了解的计算机世界(二)
 
HBase
HBaseHBase
HBase
 
我们不了解的计算机世界(一)--Unix目录结构的来历
我们不了解的计算机世界(一)--Unix目录结构的来历我们不了解的计算机世界(一)--Unix目录结构的来历
我们不了解的计算机世界(一)--Unix目录结构的来历
 
节约内存:Instagram的redis实践
节约内存:Instagram的redis实践节约内存:Instagram的redis实践
节约内存:Instagram的redis实践
 
晁盖与宋江的“兄弟情谊”
晁盖与宋江的“兄弟情谊”晁盖与宋江的“兄弟情谊”
晁盖与宋江的“兄弟情谊”
 
非常靠谱 Html 5
非常靠谱 Html 5 非常靠谱 Html 5
非常靠谱 Html 5
 
施耐庵究竟怎样写武松
施耐庵究竟怎样写武松施耐庵究竟怎样写武松
施耐庵究竟怎样写武松
 
我们的岛,又有多大
我们的岛,又有多大我们的岛,又有多大
我们的岛,又有多大
 
核辐射乱谈
核辐射乱谈核辐射乱谈
核辐射乱谈
 

数据挖掘九律