正文:摘要 面对客户流失这一类的非平衡数据集,如何更有效的进行分类学习,提高少数类(流失客户)的预测精度是一个亟待解决的问题。本文在Veropoulous提出的采用不同的惩罚因子数的支持向量机基础上,利用信息熵值来确定不同的惩罚因子,并在电信客户流失数据上进行了验证,结果表明该方法较其它方法对流失客户的识别率有很大的提高。
关键字:支持向量机、不平衡数据、信息熵、分类预测、客户流失
Entropy-based advanced SVM churn prediction model applied research
Abstract: Facing the imbalance dataset of customer churning, it is a urgent problem to be solved that how to effectively do classification learning and improve the prediction accuracy of Minority Class. This paper obtains the various penalty factor with the use of information entropy, on the base of SVM adopting various penalty factor proposed by Veropoulous, and confirm the validation on the dataset of telecommunication customer churning ,the result suggests that this method largely improves the identification accuracy of fled customer compared to other methods.
Keyword:SVM,imbalance dataset,information entropy,classification forcasting,customer churning
1引言客户关系管理系统(CRM)的智能化,要求对客户流失问题做出合理的预测,以期为企业决策支持提供有利的依据。电信企业经过几轮改革重组后,经营和管理方式更为市场化,必然引起其自身的竞争越发的激烈,导致客户流失日趋严重化。因此,如何保持现有客户,减少既有客户的流失成为电信业一个迫切需要解决的问题。
要做到有效的预测客户的流失,就必须考察流失客户的消费行为,为其建立有效的客户流失预测模型。客户流失问题可以从两个角度进行抽象建模:第一种是从产品(服务)生命周期的角度建立模型,一个产品(服务)生命周期包括引入期、成长期、成熟期和衰退期
[1]。很显然,客户随着产品(服务)的衰退而离去。因此,可以通过产品(服务)的生命周期来评估客户的剩余生存期,如比例风险模型(Cox)
[2];另一种则是将流失问题看成是一个模式识别问题,该模型把客户行为(离线、在线)看成是一
个二元结构,以此对客户进行分类识别。基于电信业的行业特点,其相似的服务和较低的转换成本导致客户流失相当频繁,服务产品难以形成一个完整的生命周期。因此,生命周期法对客户流失频繁的电信业不是有效的方法,而二元结构流失预测模型则只需判断客户流失是与否的问题,因此其更为适合于电信客户流失预测建模。
二元结构流失模型是一个二分类的模式识别问题。国内外学者针对此类问题,应用决策树、神经网络、贝叶斯网络建立预测模型,在某些领域取得不错的应用效果
[3-6]。但这些算法在处理电信客户数据此类高维度、非线性样本数据时,导致计算的空间复杂度和时间复杂度呈几何倍数增长及过拟合现象,无法得到满意的结果甚至无结果。支持向量机学习算法(Support Vector Machine ,SVM)是针对二分类问题提出的,它是建立在统计学习的VC 维理论和结构风险最
小原理基础上的,依据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得
最好的推广能力。它具有很强的数学理论依据,在处理高维度、非线性数据时较传统算法表现出了极大的优越性
[7]。经典的SVM模型并未考虑到数据的不平衡性,而电信客户数据则是一个非平衡的非线性、高维度数据集,如果将传统的SVM直接应用到电信客户流失预测问题中,将会增加错误率,影响预测精度。
本文针对电信客户数据的不平衡性,在Veropoulous的采用不同惩罚因子数的支持向量机算法基础上,提出利用两类样本自身信息熵来确定对应两类样本的惩罚因子,得到了一种改良的改进型支持向量机预测模型(E-SVM)。通过对某移动通信公司客户的数据分析和验证,得到了比其它模型更佳的预测效果。实际的生产生活中存在大量的不平衡、非线性、高维度的数据,所以本文提出的方法具有广泛的实际意义。
2二元分类建模的相关问题2.1电信客户流失问题描述
电信客户流失,就是指电信企业的原有客户终止使用其提供的服务,或者转向购买竞争对手的服务,当这一客户行为发生时,称之为客户流失(Customer Churn)
[8]。客户流失主要分为三类:第一类,自发性流失。客户出于自己的愿望终止业务或者把业务带给其它的服务提供商;第二类,强制性流失。也叫强制损耗(Forced Attrition),由于客户的原因(如欠费)迫使公司主动终止与该客户的关系;第三类,预期流失(Expected Churn),当客户不再是一个服务的目标市场时(学生时代结束,动感地带业务将不作为其服务内容)就自动流失。其中自发流失又可细分为客观原因的自发流失和主观原因的自发流失。客观原因的自发流失是由于客户的迁徙和死亡等客观原因导致;主观原因的自发流失包括对服务质量的不满意或者竞争对手提供更好的服务。
通过对流失客户的定义和分类,可以得出强制流失与预期流失以及客观原因的自发流失不是建模的对象。主观原因的自发流失客户则是消费行为特征研究的重点,是建模的对象。因为他们的消费行为具有不确定性,而且是企业主要利润的贡献者。
2.2两类错误及数据集的不平衡性问题
二元结构模型把电信客户分成两类,流失客户与未流失客户。利用训练好的预测模型去识别一个新的客户时,存在着两类错误:第一类错误,原客户为流失客户而将其判断为未流失客户;第二类错误,原客户为未流失客户而将其判断为流失客户。当其它前提条件不变时,很难同时减少犯两类错误的机率。 SASSER
[9]等人研究表明,获取一个新客户的成本约是挽留一个原有客户的5-6倍,而挽留一个原有客户的成功率是获取一个新客户的16倍。这说明犯第一类错误的成本比犯第二类错误高很多。因此,在同等条件下应尽量减少第一类错误率。而在一个时段内,电信客户流失与未流失的比例差别很大,也就是说面对的是一个非平衡数据集的分类问题。
数据的非平衡性是指待分类的样本数据集中存在类间样本的偏斜现象,即数据集中分布在某一区域内。电信客户数据正是具有此类分布特点的数据集,因为客户的在线人数与离线人数,在一个时间跨度内,在线人数肯定比离线人数多很多倍。企业的经营管理中要求掌握离线客户的消费行为特征,以此为企业决策提供支持。目的就是要尽可能的去提高流失客户的预测精度,减少第一类错误率。传统的学习机大都是针对平衡数据的,平衡数据类边界间样本为分类机提供的信息是均等的。然而非平衡数据由于边界信息的不均匀,导致了传统学习机学习精度的降低。为此,学者们分别从数据层面、算法层面及学习效果评价这三个方面研究如何去消除数据不平衡性对分类机的影响
1/4 1 2 3 4 下一页 尾页