8. 北京工业大学管理学硕士学位论文
-II-
Abstract
In the real world, data distribution is often class-imbalanced.The un-balanced
data problem has already affected many applications for example: customer churn,
fraud detection, risk management and so on. Now, with in-depth study of data mining,
non-equilibrium data mining is becoming a hot new field of research.
In the thesis, the customer churn data sets are typical of non-equilibrium data.
And in the thesis the customer is enterprise customer of web recruit sits.The industry
of global web recruitment is developing so rapidly. It was reported that about the
world's 20 million daily employment information released and More than 3000
million people on the Internet issued their Resumes and in 2006 the global
recruitment market reached 17.2 billion dollar. In China, the web recruitment market
size reached 0.97 billion RMB in 2007, 1.25 billion RBM in 2008 and expected in
2009 will reach 1.61 billion RBM. For web recruitment huge market size, good
prospects of highly profit, lots of new specialization, industry, local recruitment web
sites was born and meanwhile increased the web recruitment of industry competition.
For the problems of customer churn, in the telecommunications industry, banking,
insurance, building customer churn prediction based on data mining technology is
good choose and achieved fruitful research results. However, the study of churn
problems for enterprise is the initial stage in web recruitment industry. In the thesis,
we have a depth study and research on the non-equilibrium data mining problems.
The customer churn theory, research methods and the development of context were
reviewed and summarized. And to China’s web recruitment industry characteristics,
market size and growth prospects were also analyzed and discussed. Support Vector
Machine as a popular data mining techniques and becomes a research hotspot in
recent years for its solid theoretical foundation and the promotion of good
performance were introduced and systematic exposition.on the basis of to the problem
of customer churn and retention strategy, we have a demonstration study based on
data mining through collecting a well known domestic web recruitment site enterprise
customers’ characteristics data and their online behavior log data.
In the thesis, the results of research are:
Customer churn data sets have typical non-equilibrium characteristic and
differences in the cost of misclassification. In traditional SVM based on the Cost
Sensitive Learning put forward a Cost Sensitive SVM customer churn prediction
modeling, experimental verification of the validity of the modeling to solve such
9. Abstract
- III -
problems on a certain reference.
To against the problem of customer churn data sets’ High -Dimensional
characteristics , put forward a principal component analysis and neural network
prediction modeling and through empirical research results show that the combination
of ways to reduce high-dimensional attributes, simplifying the neural network
topology and improving the performance of the model predictions.
For the issue of retention enterprise customer, the thesis discusses the retention
strategy. In addition, customer online behavior is analyzed by K-means clustering
technology.
Keywords: data mining; customer churn prediction; un-balanced data; cost sensitive
learning; support vector machine
28. 北京工业大学管理学硕士学位论文
-16-
使用的决定必须达成。
6) 部署(Deployment):通常,模型的创建不是项目的结束。模型的作用是从
数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需
求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖
掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。
2.2 统计学习理论与支持向量机
2.2.1 机器学习
机器学习根据已训练样本输出类别是否已知分为有监督学习和无监督学习。
有监督学习的目的是根据训练样本,求出对某系统输入输出间的依赖关系,使它
能够对未知输入做出尽可能准确的预测和分类。
一般表示为:因变量 y 与自变量 x 存在未知的依赖关系,即遵循某一未知的
概率分布 ( , )F x y ,机器学习的目的就是根据给定的l 个独立同分布的观测样本
1 1{( , ), ,( , )}l lT x y x y=
,
在一组函数{ ( , )}f x w 中寻求一个最优的函数
{ ( , )}of x w 对依赖关系进行评
估,使期望风险
( ) ( , ( , )) ( , )R w L y f x w dF x y= ∫ (2.1)
最小。其中 , {1, 1}, 1, ,n
i ix X R y i l∈ = = − = ;{ ( , )}f x w 称为预测函数集,w 为
广义参数; ( , ( , ))L y f x w 为损失函数,不同类型的学习问题损失函数的形式不同。
机器学习的损失函数有三种类型:模式识别、函数逼近及概率密度估计。
对于模式识别问题,输入 y 是类别标签,就两分类问题而言 {1, 1}y = − ,其
预测函数也称指示函数,其损失函数的定义为:
0 ( , )
( , ( , ))
1 ( , )
y f x w
L y f x w
y f x w
=⎧
= ⎨
≠⎩
(2.2)
对于函数逼近问题,y 是连续变量,采用最小平方误差准则,损失函数的定
义为:
2
( , ( , )) ( ( , ))L y f x w y f x w= − (2.3)
29. 第 2 章 相关理论研究
- 17 -
对于概率密度估计问题,学习的目的是根据训练样本确定 x 的概率密度。
记估计的密度函数为 ( , )p x w ,其损失函数的定义形式为:
( , ( , )) ln ( , )L y f x w p x w= − (2.4)
上述问题中,机器学习的目标在于使期望风险最小化。但是由于可利用的信
息只有样本数据,
因此(2.1)式的期望风险无法计算。基于此,传统的学习方法是采用经验风险
最小化(ERM)准则,即用经验风险作为式(2.1)的估计。经验风险:
1
1
( ) ( , ( , ))
n
emp i i
i
R w L y f x w
n =
= ∑ (2.5)
对损失函数(2.2),经验风险就是训练样本错误率;对损失函数(2.3),经验
风险就是平方训练误差;而采用(2.3),经验风险就是最大似然法。
从期望风险最小化到经验风险最小化没有经过严格的理论推理和依据,只是
直观上合理的想当然。存在以下问题:
1)期望风险和经验风险都是 w 的函数,概率论中的大数定理只是说明当样本
趋于无穷多时经验风险将在概率论意义上,趋近于期望风险,并未保证两个风险
的 w 是同一点,更不能保证经验风险能够趋近于期望风险。
2)即使有办法使这些条件在样本数据量无穷大时得当满足,也无法保证在这
些条件下得到的经验风险最小化方法在样本数量有限时仍能得到好的结果。
在有限样本条件下,经验风险最小化并不意味着期望风险最小化;学习机器
的复杂性不仅与所研究的系统有关,而且还应与有限的学习样本相适应;学习精
度与推广能力之间似乎是一对不可调和的矛盾,采用复杂的学习机器虽然容易使
得学习误差更小,但却带来了推广能力的下降;传统的解决办法如采用正则化、
模型选择等方法以控制学习机器的复杂度,但这些方法往往缺乏坚实的理论基
础。基于此,我们需要一种在有限样本特别是小样本情况下建立有效的学习和推
广方法的理论,即统计学习理论。
2.2.2 统计学习理论
统计学习理论(Statistical Learning Theory,SLT)是目前针对有限样本统计估计
和预测的高效理论,它从理论上较为系统地研究了经验风险最小化原则成立的条
件、有限样本下经验风险与期望风险的关系以及如何利用这些理论寻找新的学习
原则和方法等。
SLT 的核心内容有:基于经验风险最小化准则的统计学习一致性条件;统计
学习推广性的界;在推广界的基础上建立小样本归纳推理的准则等。与之相关的
30. 北京工业大学管理学硕士学位论文
-18-
核心概念有 VC 维和结构风险最小化。
(1) VC 维
VC 维的直观定义为:对于一个指示函数(即只有 0 和 1 两种取值的函数)集,
如果存在h 个样本能够被函数集中的函数按所有可能的2h
种形式分开,则称函数
集能够把h 个样本打散;函数集的 VC 维就是能够打散的最大样本数目。如果对
任意数目的样本,总有函数能把它们打散,则函数集的 VC 维是无穷大。
VC 维反映了函数集的学习能力,VC 维越大则学习机越复杂。学习机的 VC
维影响着它的泛化能力,作为 SLT 中一个核心的概念,目前尚无关于任意函数
集 VC 维计算的理论,只是对一些特殊的函数集知道其 VC 维。如在n 维实数空
间中线性分类器和线性实数的 VC 维是 1n + ,而函数
( , ) sin( )f x a xa=
的 VC 维则是无穷大。
(2) 推广性的界
SLT 系统地研究了经验风险与实际风险之间的关系,即推广性的界。
根据 SLT 中关于函数集推广性界的理论,对于指示函数集中所有的函数,
经验风险 ( )empR w 和实际风险 ( )R w 之间至少以概率1 η− 满足如下关系:
(ln(2 / ) 1) ln( / 4)
( ) ( )emp
h n h
R a R a
n
η+ −
≤ + (2.6)
其中,h 为函数集 VC 维,n 为样本数目。由(2.6)式可知,学习机器的实际
风险由两部分组成:训练样本的经验风险和置信区间。其中,置信区间同置信水
平1 η− 有关,而且同学习机器的 VC 维和训练样本有关,则可得:
( ) ( ) ( )emp
n
R R
h
α α≤ + Φ (2.7)
从(2.7)式易知,在训练样本有限的情况下,学习机器的 VC 维越高,则置信
范围就越大,导致实际风险与经验风险之间可能的差也就越大。
在设计分类器时,不但要使经验风险最小化,还要使 VC 维尽量小,从而
缩小置信范围,使期望风险最小。
(3) 结构风险最小化
传统机器学习方法中,普遍采用的经验风险最小化原则在样本数目有限时是
不合理的,因此,需要同时最小化经验风险和置信范围。
与经验风险不同,统计学理论提出了一种新的策略—结构风险最小化
(Structural Risk Minimization,SRM),即把函数集构造为一个函数子集序列,使各
32. 北京工业大学管理学硕士学位论文
-20-
支持向量机分类算法有两个基本出发点,即最大间隔原则和核技巧。最大间
隔原则最早可以追溯到优化专家 Mangasarian 20 世纪 60 年代的工作,之后 Vapnik
等人从统计学习理论的角度重新提出,发展并严格论证了这一原则。核技巧把在
原输入空间需要用超曲面分划的分类问题,转化为 Hilbert 空间中用超平面划分
的问题。或者说,它把非线性问题转化为线性问题,从而大大降低了问题的难度。
(1) 核函数
核方法通过一个特征映射可以把输入空间中的线性不可分数据映射为高维
特征空间中可进行线性划分的数据。分类函数只涉及训练样本之间的内积运算
i jxx ⋅( ),因此,在高维空间中只需进行内积运算,这种内积运算可通过定义在原
空间中的函数来实现。
根据 Hibert-Schmidt 原理,只需一种运算满足 Mercer 条件,就可以作为内积
使用。
Mercer 条件:对于任意的对称函数 '
( , )K x x ,它是某个特征空间中的内积运
算的充要条件是,
2 ' ' '
( ) 0 ( ) , ) ( ) ( ) 0x x dx K x x x dxdxϕ ϕ ϕ ϕ≠ < ∞ >∫ ∫∫对于任意的 且 有 (x, (2.8)
而一般支持向量分类机的最终的决策函数值仅仅依赖于变换后的 Hibert 空
间中的内积,即
( , ) ( )i j i jk x x x x= Φ( )⋅Φ( ) 和 ( , ) ( ), , 1, ,i ik x x x x i j l= Φ( )⋅Φ( ) = (2.9)
简言之,SVM 方法中得到的学习机器只是涉及到特征空间中的内积,而内
积可以通过某个核函数即所谓的 Mercer 核来表示,因此最终可以利用核函数来
表示学习机器。
定义 核函数 设 χ 是 n
R 中的一个子集,称定义在 χ χ× 上的函数 ( , )K x x′ 是
核函数,如果存在着从 χ 到某一个 Hibert 空间Η 的映射
,
x x
χ → Η
Φ :
→ Φ( ).
(2.10)
使得
( , ) ( ),K x x x x′ ′= Φ( )⋅Φ( ) (2.11)
其中( )⋅ Η表示 中的内积 。
常用的核函数:
线性核函数
33. 第 2 章 相关理论研究
- 21 -
( , )K x x x x′ ′= ⋅ (2.12)
Gauss 径向基核
2 2
( , ) exp( / )K x x x x σ′ ′= − − (2.13)
其中,σ 为核函数参数,它隐式地定义了从原始空间到高维特征空间中的非
线性映射,每个 Gauss 函数中心对应一个支持向量。
多项式核函数
对于任意给定的正整数 d ,函数
( , ) (( ) )d
K x x x x c′ ′= ⋅ + (2.14)
其中c >0 是正定核。当 c>0 时,称它为非线性齐次多项式核。特别地,当 c=0
时,得到
( , ) ( )d
K x x x x′ ′= ⋅ (2.15)
Sigmoid 核函数
( , ) tanh( ( , ) )K x x k x x v′ ′= + (2.16)
其中, 0, 0k v> < 。
核函数的选择决定了空间的结构,对于多项式核函数,当特征空间维数很高
时, d 值必然很大,使得计算量激增,甚至在某些情况下不能得到正确的结果。
对于 Sigmoid 核函数,由于核函数中的 ,k v 只对某些值满足 Mercer 条件,所以
Sigmoid 核函数有一定的局限性。Gauss 径向基核函数是一种普适核函数,通过
参数的选择它可以使用于任意分布的样本,是目前 SVM 中广泛应用的一种核函
数。
(2) 线性支持向量机
SVM 是从线性可分情况下的最优分类面发展而来的,基本思想如图 2-3 所
示的二维平面的情况说明。图 2-3 中,黑方块与圆点分别表示两类样本,中间的
粗实线为最优分类线,两条虚线上的点称为支持向量,虚线间的距离就是分类间
隔(margin)。所谓最优分类线就是不但要求分类线能将两类样本正确分开(即训练
错误率为 0),还要使分类间隔最大。SVM 就是要寻找一个满足分类要求的超平
面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两
侧的空白间隔最大。过两类样本中离分类面最近的点且平行于最优分类面的超平
面 1 2,H H 。
对于分类线( ) 0w x b⋅ + = 进行标准化处理,则线性可分的训练样本T 满足不
34. 北京工业大学管理学硕士学位论文
-22-
等式:
(( ) ) 1i iy w x b⋅ + ≥ , (2.17)
其中, 1, ,i l=
w
arg 2m in w=
( ) 1w x b⋅ + =
( ) 0w x b⋅ + =
( ) 1w x b⋅ + = −
图 2-3 线性分类最优超平面
Figure 2-3 optimal hyperplane of the linear classification
此时,分类间隔 margin 为 2/ w ,最大间隔 margin 等价于 / 2w 最小。训练
样本被正确划分,且使 / 2w 最小的分类面即为最优分类面,而位于两虚线上的
训练样本点就称为支持向量。
根据以上分析,线性可分条件下的 SVM 算法为:
设 已 知 训 练 集 1 1{( , ), ,( , )} ( )l
l lT x y x y X Y= ∈ × , 其 中 n
ix X R∈ = ,
{1, 1}iy Y∈ = − , 1, ,i l=
构造并求解对变量 w b和 的最优化问题
2
,
1
min ,
2
. . (( ) ) 1, 1, ,
w b
i i
w
s t y w x b i l⋅ + ≥ =
(2.18)
构造分划超平面 * *
( ) 0w x b⋅ + = ,由此求得决策函数 * *
( ) sgn(( ) )f x w x b= ⋅ + 。
35. 第 2 章 相关理论研究
- 23 -
式(2.18)的最有解为 Lanrange 函数的鞍点:
1
1
( , , ) ( ) [ (( ) ) 1]
2
l
i i i
i
L w b a w w a y w x b
=
= ⋅ − ⋅ + −∑ (2.19)
其中a 为 Largange 系数。
根据在鞍点求出的 w 和b 的梯度为 0,由:
1
0
l
i i i
i
L
w a y x
w =
∂
= − =
∂
∑ (2.20)
1
0
l
i i
i
L
a y
w =
∂
= =
∂
∑ (2.21)
得:
1
l
i i i
i
w a y x
=
= ∑ (2.22)
1
0
l
i i
i
a y
=
=∑ (2.23)
将(2.22)式与(2.23)式代入(2.19)中,则构造最优超平面的问题转化为一个简
单的对偶二次规划问题:
1 1 1
1
1
min ( )
2
. . 0
0
l l l
i j i j i j j
a
i j j
l
i i
i
i
y y x x a
s t y
α α
α
α
= = =
=
⋅ −
=
≥
∑∑ ∑
∑ (2.24)
其中 , 1,...,i j l= 。设 * * *
1( , , )T
la a a= 为式(2.24)的最优解,若令:
* * * *
1 1
, ( )
l l
i i i i i i i j
i i
w y a x b y y a x x
= =
= = − ⋅∑ ∑ (2.25)
则 * *
( , )w b 即为问题(2.24)的最优解。
然而,实际情况中,当训练集不可分时,任何分划超平面都必有错划。所以,
不能要求所有的训练点均满足约束条件 (( ) ) 1i iy w x b⋅ + ≥ 。为此,对第i 个训练样
本 ( , )i ix y 引进松弛变量 0iξ ≥ ,把约束条件放宽为 (( ) ) 1i i iy w x b ξ⋅ + + ≥ 。向量
T
1=( , )lξ ξ ξ 反映了训练样本被错划的情形,可采用
1
l
i
i
ξ
=
∑ 描述训练样本被错划的
36. 北京工业大学管理学硕士学位论文
-24-
程度。此时,不但希望间隔
2
w
尽可能大,同时还要考虑错划程度
1
l
i
i
ξ
=
∑ 尽可能小。
为协调这两者关系,引入惩罚系数 0C > 作为调节这两个目标的权重,则式(2.18)
化为:
2
,
1
1
min ,
2
. . (( ) ) 1,
0,
l
i
w b
i
i i i
i
w C
s t y w x b
ξ
ξ
ξ
=
+
⋅ + + ≥
≥
∑
(2.26)
其中, 1,...,i l= ,C 越大惩罚越重。
构造式(2.26)的 Lagarange 函数
1 1 1
1
( , , ) ( ) { (( ) ) 1}
2
l l l
i i i i i i i
i i i
L w b a w w C a y w x bξ ξ β ξ
= = =
= ⋅ + − ⋅ + + − −∑ ∑ ∑ (2.27)
根据 KKT 条件,最优解满足:
0
( (( ) ) 1
0
, , 0
i i
i
i i i i
i i
i i i
L
C a
a y w x b i
i
a i
β
ξ
ξ
β ξ
β ξ
∂⎧
= − − =⎪ ∂
⎪⎪
⋅ + + − ∀⎨
⎪ ⋅ = ∀
⎪
≥ ∀⎪⎩
(2.28)
则构建最优超平面的问题转化为以下对偶二次规划问题:
1 1 1
1
1
min ( )
2
. . 0
0
l l l
i j i j i j j
a
i j j
l
i i
i
i
y y x x a
s t y
C
α α
α
α
= = =
=
⋅ −
=
≤ ≤
∑∑ ∑
∑ (2.29)
其中, 1,...,i l= 。
(3) 非线性支持向量机
对于线性不可分问题,非线性 SVM 的基本思想为:通过非线性变换将输入
变量 x 转化到某个高维空间中,然后在变换空间中求最优分类面。由于这种变换
可能比较复杂,因而一般不易实现。但是由于转化为对偶问题后只涉及到训练样
本间的内积运算
( )i jx x⋅ 1,...,i l=
即在高维空间中只需进行内积运算,而这种内积运算可以通过用原空间中的
函数实现,因此,我们只需一种核函数:
37. 第 2 章 相关理论研究
- 25 -
( ), , 1, ,i jK x x i j l⋅ =
满足 Mercer 条件,它就对应某一变换空间中的内积。通过引入输入空间 n
R
到一个高维 Hilbert 空间Η 的变换
( )
n
R X H
x x
χ ⊂ → ⊂
Φ :
→ Χ = Φ
(2.30)
如果定义 ( ) ( ) ( )i j i jK x x x x⋅ = φ ⋅φ ,则“最大间隔”非线性支持向量机的目标
函数变为:
1 1 1
1
( ) ( )
2
l l l
j i j i j i j
j i j
W a a y y K x xα α
= = =
= − ⋅∑ ∑∑ (2.31)
相应的决策函数为:
1
( ) sgn( ( ) ) sgn( ( ) )
l
i i i
i
f x w x b y a K x x bφ
=
= ⋅ + = ⋅ +∑ (2.32)
同理,“软间隔”非线性可分的原始问题为:
, ,
1
1
min ( )
2l
l
i
w b b R
i
w w C
ξ
ξ
∈ ∈ ∈
=
⋅ + ∑ , (2.33)
. . (( ) ) 1,
0
i i i
i
s t y w x b ξ
ξ
⋅ + + ≥
≥
, (2.34)
其中,C>0, 1, ,i l= .
相应的对偶问题为:
1 1 1
1
min ( )
2
l l l
i j i j i j j
a
i j j
y y K x x aα α
= = =
⋅ −∑∑ ∑ , (2.35)
1
. . 0
0 , 1, ,
l
i i
i
i
s t y a
a C i l
=
=
≤ ≤ =
∑ (2.36)
2.2.4 支持向量机研究现状
作为一种基于统计学习理论的新型算法,支持向量机坚实的理论基础和良好
的模型推广性能,SVM 近年来受到了广泛的关注和研究,已经在语音识别、图
像识别、客户流失预测等诸多领域有了一定的研究和应用。SVM 根据有限的样
40. 北京工业大学管理学硕士学位论文
-28-
图 2-4 基于 BP 算法的神经网络模型
Figure 2-4 the model of BP arithmetic neural networks
1)输入层节点 ( 1,2, , )i i n= ,其输出 iO 等于输入 ix ,将控制变量值传到第二
层。
2)隐含层节点 ( 1,2, , )j j p= , 其输入 jI , 输出 jO 分别为:
ji
n
i
jij OI θω += ∑=1
(2.37)
)]exp(1/[1)( jjj IIfO −+== (2.38)
式中 jiω 为隐含层节点 j 与输入层节点 i 之间的连接权;θj 为隐含层节点 j 的
偏置 ; f 为 Sigmoid 函数; ( ) 1/[1 exp( )]f x x= + − 。
3)输出层节点 ( 1,2, , )k k m= ,其输入 kI ,输出 ky 分别为:
kj
p
j
kjk OI θω += ∑=1
; )]exp(1/[1)( Kkk IIfy −+== (2.39)
式中 jkω 为输出层节点 k 与隐含层节点 j 之间的连接权;θk 为输出层节点 k
的偏置(或阈值) 。
对于给定的训练样本集 ),.....,( 21 pnpp xxx , p 为样本数( p = 1, 2, ⋯, P) , 网络
运算结果与训练样本目标输出之间的均方误差可表示为:
∑=
=
p
p
pE
p
E
1
1
(2.40)
式中 2
1
1
( ) ;
2
L
p pl pl
l
E t y
=
= −∑ p 为样本数; plt 为第 p 个样本的第l 个输出单元
42. 北京工业大学管理学硕士学位论文
-30-
如 K-means、K-medoids、BIRCH、CURE 等算法。
2) 基于密度的聚类算法:相对于基于距离的聚类算法,基于密度的聚类方
法主要是依据合适的密度函数等。
3) 基于互连性(Linkage-Based)的聚类算法:通常基于图或超图模型。高度
连通的数据聚为一类。
(3) K-means 算法原理
k-means 算法,也被称为 k-平均或 k-均值,是一种得到最广泛使用的聚类算
法。相似度的计算根据一个簇中对象的平均值来进行。算法首先随机地选择 k 个
对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其
与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个
过程不断重复,直到准则函数收敛。准则函数试图使生成的结果簇尽可能地紧凑
和独立。算法如下:
输入:簇的数目 k 和包含 n 个对象的数据库。
输出:k 个簇,使平方误差准则最小。
①. assign initial value for means; /*任意选择 k 个对象作为初始的簇中心;*/
②. REPEAT
③. FOR j=1 to n DO assign each jx to the closest clusters;
④. FOR i=1 to k DO
i
i i x C
x C x∈
= ∑
/* Ci 是一个聚类,x 是 Ci 内的一个数据点,更新簇平均值*/
⑤. Compute
2
1 i
k
i ji x C
E x x x= ∈
= −∑ ∑ /*计算准则函数 E*/
⑥. UNTIL E 不再明显地发生变化。
2.4 本章小结
本章分析对数据挖掘概念、功能及流程进行了分析,对本文应用的数据挖
掘算法原理进行了介绍。重点介绍了机器学习基本理论,系统讨论了统计学习理
论,支持向量机。作为一种流行的机器学习算法,支持向量机在模式识别、语音
识别、文本分类、以数据挖掘和非线性系统控制均有很好的应用。目前,支持向
量机在客户分类、客户流失预测中的研究正受到了越来越多的关注和应用研究。
47. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 35 -
3.2 代价敏感学习
现实世界中,数据的分布往往是非平衡的,“不正常”数据的数目往往比
“正常”数据的数目少很多。G .Weiss 对非平衡数据进行了准确、广泛的定义,
不仅考虑了类之间的不平衡性,还考虑了类里的不平衡性,他将现实中的各种类
似现象统称为稀有问题,并且将该问题分为两类:一是稀有类(rare classes),也
就是我们在此提到非平衡类问题。这类问题往往会和分类相关。另一个是稀有案
例(rare cases),稀有案例通常对应的是在数据集中意义重大,但数量较少或中等
的数据子集,其只依赖于数据分布,因此可以是标记数据也可以是未标记数据,
既可以进行有监督学习,也可以进行无监督学习。
传统的机器学习算法对于分类问题假定不同类型的样本是同等重要的,它们
的错分代价相等,只要提高算法的预测准确里则意味着分类性能的提高。随着研
究的深入发现,对于客户流失、欺诈识别、疾病诊断、信用评估等,这些问题中
不同类别样本的错分代价相差很大,这类问题由于流失者、欺诈者、不良信贷者
等样本比例低。而传统基于错误率的算法应用此类问题时,算法的准确率虽然很
高,但对于此类数据却往往无法识别。因此,对于此类问题,必须考虑错分代价
问题,即更需要提高小样本数据的识别率而非整体数据分类的准确率。
对于代价敏感学习(cost-sentitive learning)的研究最早可以追溯到 1984 年
Breiman 等人对分类回归树的研究[49]
。近年来,对该领域的研究引逐渐升温,
Domingos 提出了基于 Bagging 的 MetaCost 算法,用于任何基于错误率的分类器,
Gama 提出了一种朴素贝叶斯的迭代方法实现代价敏感学习[50]
。罗菲菲等研究了
基于代价敏感学习的范例推理方法,并将其应用于入侵检测[51]
。笔者针对不同分
类问题的错分待代价差异问题,采用代价敏感学习理论,在改进标准支持向量机
的基础上提出了待机敏感支持向量机的学习算法。
设任一样本 x 属于类 j 的概率为 ( | )P j x ,Bayes 决策论把样本分类为i 需要
最小化风险条件
( | ) ( | ) ( , )
j
R i x P j x Cost i j= ∑
最小化后的条件风险成为 Bayes 风险。其中 1 2, { , , , },mi j c c c m∈ 为类别数 ;
( , )Cost i j 为把一个 j 类样本分类为i 的风险,i j= 表示正确分类,i j≠ 表示错误
分 类 。 对 于 基 于 精 度 度 的 “ 0-1 ” 损 失 分 类 器 , i j= 时 , ( , ) 0Cost i j = ;
, ( , ) 1i j Cost i j≠ =时 。分类器的任务是寻找 x 的极大后验概率。
48. 北京工业大学管理学硕士学位论文
-36-
对于非平衡分类问题而言, ( , ) ( , )i j Cost i j Cost j i≠ ≠时, 。此时不再仅以 x 的
极大后验概率确定其类别。若给定把一个类别样本误分为另一类的代价,可以重
构代价矩阵 ( , )Cost i j ,使全局误分类代价最小 。说明可以在 Bayes 决策论基础
上引入代价敏感函数实现一个差异误分类器。其中 ( , )Cost i j 可以表示为财产损
失,时间消耗等,收益等于负的代价。
对于分类训练样本 x 而言,先估计后验概率 ( 1| ) ( 1| )P x P x+ −与 ,然后计算其
属于任一类i 的代价,从而重构 x 的类别标号为:
^ 1 if ( 1| ) ( 1| )
1
P x P x
y
+ + ≤ −⎧
= ⎨
−⎩
,
, 否则
(3-1)
该类标号集成了样本的误分类代价信息,称为样本的“真”类标号。
3.3 不同惩罚系数 SVM
对于第 2 章中的(2-26)式标准 C-SVM 算法,对非平衡数据进行训练时,训
练集中的正类样本与负类样本的个数存在较大差异。如果对正类样本和负类样本
应用相同的惩罚系数 C,则意味着那一类点的个数多,则更看重那些点,这样样
本点多的那一类学习较好,而样本点的少的那一类则欠学习。对于客户流失问题,
更多的是关注流失客户,因此,一个有效的解决方法就是对正类样本和负类样本
本采用不同的惩罚系数,Veropoluos 提出了对两类样本数据施加不同惩罚系数的
方法,降低了两类样本数据量相差较大时对整体分类性能的影响。为此,在选择
适当的参数 C 后,令
,
N N
C C C C
N N N N
− +
+ −
+ − + −
= =
+ +
,
L L C
C
+ − +
−
其中, 和 分别是正类样本和负类样本的个数, 是对正类样本点集的惩罚系数,
是对负类样本点的惩罚系数。
此时,C-SVM 原始优化问题形式变为:
{ | 1} { | 1}
1
min :
2
s.t. ( ) 1
0
i i
N N
T
i i
i y i y
T
i i i
i
w w C C
y w x b
ξ ξ
ξ
ξ
+ −
=+ =−
+ +
+ ≥ −
≥
∑ ∑
(3-2)
其对偶问题为:
49. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 37 -
1 1 1
i=1
1
min: ( )
2
s.t. 0
0 , 1
0 , 1
n n n
i j i j i j i
i j i
n
i i
i i
i i
y y k x x a
y
C y
C y
α α
α
α
α
= = =
+
−
−
=
≤ ≤ = +
≤ ≤ = −
∑∑ ∑
∑
i
如果
如果
(3-3)
3.4 代价敏感 SVM
针对客户流失数据自身的特点,不仅要考虑正负样本量的非平衡性问题,还
要考虑由错分代价带来的挽留成本问题。为此,本文采用代价敏感学习对(3-2)
式进行改进,提出了一种代价敏感 SVM。
设样本集为 ( , ,cos )i i ix y t ,
, { 1, 1},cos 0, 1,2,d
i i ix R y t i N∈ ∈ − + ≥ =
,其中
cos it 为第i 个样本被错分的代价,与 iy 相关。则其分类问题可描述为:
{ | 1} { | 1}
1
min : cos cos
2
s.t. ( ) 1
0
i i
N N
T
i i i i
i y i y
T
i i i
i
w w C t C t
y w x b
ξ ξ
ξ
ξ
+ −
= + = −
+ +
+ ≥ −
≥
∑ ∑
(3-4)
构造 Lagrange 函数
{ | 1} { | 1}
1 1
1
cos cos
2
( ( ) 1 )
i i
N N
T
i i i i
i y i y
N N
T
i i i i i i
i i
L w w C t C t
y w x b
ξ ξ
α ξ β ξ
+ −
=+ =−
= =
= + +
− + − + −
∑ ∑
∑ ∑
(3-5)
其中 0, 0i iα β≥ ≥ 为 Lagrange 系数。分别求得
由
1
1
0,
0,
cos 0,
n
i i i
i
n
i i
i
i i i
i
L w a y x
w
L a y
b
L t C a βξ
=
=
⎧ ∂ = − =⎪ ∂
⎪
⎪
∂⎨ = − =
∂⎪
⎪∂ = − − =⎪ ∂⎩
∑
∑ (3-6)
并满足 KKT 条件:
1
( ( ) 1 ) 0
0
T
i i i i
N
i i
i
y w x bα ξ
α ξ
=
⎧ + − + =
⎪
⎨
=⎪
⎩
∑
(3-7)
解得此改进 SVM 得到其对偶表达式为:
50. 北京工业大学管理学硕士学位论文
-38-
1 1 1
N
i=1
1
min: ( )
2
s.t. 0
0 cos 1
0 cos 1
n n n
i j i j i j i
i j i
i i
i i i
i i i
y y k x x a
y
t C y
t C y
α α
α
α
α
= = =
+
−
⋅ −
=
≤ ≤ = +
≤ ≤ = −
∑∑ ∑
∑
如果
如果
(3-8)
3.5 预测建模
3.5.1 数据选择
客户基本信息来源于某知名综合类招聘网站在前期推广过程中获取的客户
数据 10000 条,按 7:3 分为训练数据与测试数据,其中正样本(付费客户) 2446
条数据,负样本(流失客户) 7554 条数据。
数据指标的选取通过参考相关领域学术文献[10,17,22]
并与领域专家充分探讨
交流后确定,涉及客户基本信息、活跃信息、发布职位信息、职位浏览信息、收
到简历信息等五大类。具体为公司基本信息:包括公司名称,企业规模,企业性
质,注册资金,成立时间等;而其余四类信息则涉及客户在线行为日志数据,数
据的获取要从网络日志数据库中对客户在线行为数据进行抽取、转换、加载即
ETL 过程形成数据集市,构建与客户付费预测密切相关的 KPI 指标,包括客户
激活到现在的时间,客户平均登陆系统次数,发布职位总数,发布职位总次数,
登陆系统次数,收到简历数量,客户发布职位被浏览次数等 22 个指标,如表 3-3
所示。
表 3-3 客户流失预测数据
Table 3-3 customer churn prediction data
信息类别 数据属性
客户基本信息 企业性质,成立时间,注册资金,企业规模,客户类型(免
费客户、付费客户)等
客户活跃信息 客户激活距当前时间(天),最近登入时间,登陆系统次
数,登陆系统频率(天)等
发布职位信息 发布职位总数数,最近 2 周发布职位数,职位更新次数,
平均发布职位数/次等
职位浏览信息 职位总浏览量,最近 2 周职位浏览量,职位最大浏览量,
职位平均浏览量等