基于信息熵的改进型支持向量机客户流失预测模型应用研究

来源：互联网 qikanw | 方磊马溪骏

【分　类】机械与建筑工程
【关键词】支持向量机、不平衡数据、信息熵、分类预测、客户流失
【来　源】互联网
【收　录】中文学术期刊网

正文：

摘要面对客户流失这一类的非平衡数据集，如何更有效的进行分类学习，提高少数类（流失客户）的预测精度是一个亟待解决的问题。本文在Veropoulous提出的采用不同的惩罚因子数的支持向量机基础上，利用信息熵值来确定不同的惩罚因子，并在电信客户流失数据上进行了验证，结果表明该方法较其它方法对流失客户的识别率有很大的提高。
关键字：支持向量机、不平衡数据、信息熵、分类预测、客户流失

Entropy-based advanced SVM churn prediction model applied research
Abstract: Facing the imbalance dataset of customer churning, it is a urgent problem to be solved that how to effectively do classification learning and improve the prediction accuracy of Minority Class. This paper obtains the various penalty factor with the use of information entropy, on the base of SVM adopting various penalty factor proposed by Veropoulous, and confirm the validation on the dataset of telecommunication customer churning ,the result suggests that this method largely improves the identification accuracy of fled customer compared to other methods.
Keyword：SVM，imbalance dataset，information entropy，classification forcasting，customer churning

1引言
客户关系管理系统（CRM）的智能化，要求对客户流失问题做出合理的预测，以期为企业决策支持提供有利的依据。电信企业经过几轮改革重组后，经营和管理方式更为市场化，必然引起其自身的竞争越发的激烈，导致客户流失日趋严重化。因此，如何保持现有客户，减少既有客户的流失成为电信业一个迫切需要解决的问题。
要做到有效的预测客户的流失，就必须考察流失客户的消费行为，为其建立有效的客户流失预测模型。客户流失问题可以从两个角度进行抽象建模：第一种是从产品（服务）生命周期的角度建立模型，一个产品（服务）生命周期包括引入期、成长期、成熟期和衰退期^[1]。很显然，客户随着产品（服务）的衰退而离去。因此，可以通过产品（服务）的生命周期来评估客户的剩余生存期，如比例风险模型（Cox）^[2]；另一种则是将流失问题看成是一个模式识别问题，该模型把客户行为（离线、在线）看成是一

个二元结构，以此对客户进行分类识别。基于电信业的行业特点，其相似的服务和较低的转换成本导致客户流失相当频繁，服务产品难以形成一个完整的生命周期。因此，生命周期法对客户流失频繁的电信业不是有效的方法，而二元结构流失预测模型则只需判断客户流失是与否的问题，因此其更为适合于电信客户流失预测建模。
二元结构流失模型是一个二分类的模式识别问题。国内外学者针对此类问题，应用决策树、神经网络、贝叶斯网络建立预测模型，在某些领域取得不错的应用效果^[3-6]。但这些算法在处理电信客户数据此类高维度、非线性样本数据时，导致计算的空间复杂度和时间复杂度呈几何倍数增长及过拟合现象，无法得到满意的结果甚至无结果。支持向量机学习算法（Support Vector Machine ，SVM）是针对二分类问题提出的，它是建立在统计学习的VC 维理论和结构风险最
小原理基础上的，依据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得

最好的推广能力。它具有很强的数学理论依据，在处理高维度、非线性数据时较传统算法表现出了极大的优越性^[7]。经典的SVM模型并未考虑到数据的不平衡性，而电信客户数据则是一个非平衡的非线性、高维度数据集，如果将传统的SVM直接应用到电信客户流失预测问题中，将会增加错误率，影响预测精度。
本文针对电信客户数据的不平衡性，在Veropoulous的采用不同惩罚因子数的支持向量机算法基础上，提出利用两类样本自身信息熵来确定对应两类样本的惩罚因子，得到了一种改良的改进型支持向量机预测模型（E-SVM）。通过对某移动通信公司客户的数据分析和验证，得到了比其它模型更佳的预测效果。实际的生产生活中存在大量的不平衡、非线性、高维度的数据，所以本文提出的方法具有广泛的实际意义。
2二元分类建模的相关问题
2.1电信客户流失问题描述
电信客户流失，就是指电信企业的原有客户终止使用其提供的服务，或者转向购买竞争对手的服务，当这一客户行为发生时，称之为客户流失（Customer Churn）^[8]。客户流失主要分为三类：第一类，自发性流失。客户出于自己的愿望终止业务或者把业务带给其它的服务提供商；第二类，强制性流失。也叫强制损耗（Forced Attrition），由于客户的原因（如欠费）迫使公司主动终止与该客户的关系；第三类，预期流失（Expected Churn）,当客户不再是一个服务的目标市场时（学生时代结束，动感地带业务将不作为其服务内容）就自动流失。其中自发流失又可细分为客观原因的自发流失和主观原因的自发流失。客观原因的自发流失是由于客户的迁徙和死亡等客观原因导致；主观原因的自发流失包括对服务质量的不满意或者竞争对手提供更好的服务。
通过对流失客户的定义和分类，可以得出强制流失与预期流失以及客观原因的自发流失不是建模的对象。主观原因的自发流失客户则是消费行为特征研究的重点，是建模的对象。因为他们的消费行为具有不确定性，而且是企业主要利润的贡献者。
2.2两类错误及数据集的不平衡性问题
二元结构模型把电信客户分成两类，流失客户与未流失客户。利用训练好的预测模型去识别一个新的客户时，存在着两类错误：第一类错误，原客户为流失客户而将其判断为未流失客户；第二类错误，原客户为未流失客户而将其判断为流失客户。当其它前提条件不变时，很难同时减少犯两类错误的机率。 SASSER^[9]等人研究表明，获取一个新客户的成本约是挽留一个原有客户的5-6倍，而挽留一个原有客户的成功率是获取一个新客户的16倍。这说明犯第一类错误的成本比犯第二类错误高很多。因此，在同等条件下应尽量减少第一类错误率。而在一个时段内，电信客户流失与未流失的比例差别很大，也就是说面对的是一个非平衡数据集的分类问题。
数据的非平衡性是指待分类的样本数据集中存在类间样本的偏斜现象，即数据集中分布在某一区域内。电信客户数据正是具有此类分布特点的数据集，因为客户的在线人数与离线人数，在一个时间跨度内，在线人数肯定比离线人数多很多倍。企业的经营管理中要求掌握离线客户的消费行为特征，以此为企业决策提供支持。目的就是要尽可能的去提高流失客户的预测精度，减少第一类错误率。传统的学习机大都是针对平衡数据的，平衡数据类边界间样本为分类机提供的信息是均等的。然而非平衡数据由于边界信息的不均匀，导致了传统学习机学习精度的降低。为此，学者们分别从数据层面、算法层面及学习效果评价这三个方面研究如何去消除数据不平衡性对分类机的影响

1/4 1 2 3 4 下一页尾页

相关推荐

土木工程应用型人才培养与钢结构毕业设计

新型二维超声振动磨削工程陶瓷试验研究

离心泵进口管道异径管接头形式的探讨

积极防治农村水安全问题,促进社会主义新农村建设

热门期刊

《河北工业大学学报(社会科学版)》
《河北工业大学学报（社会科学版）》（季刊）创刊于1917年，由河北工业大学主办。《河北工业大学学报（社会科学版）》本刊内容以理工类为主，兼顾经济、管理、法律、外语等其他...

《中国公共卫生》
《中国公共卫生》（月刊）创刊于1985年，由中华预防医学会主办。目前已经成为我国公共卫生与预防医学领域具影响的部级、性、综合性大型专业学术期刊之一。《中国公共...

《新作文(校园文学)》
《新作文》版本齐全，意境逐步形成了小学123年级版、小学456年级版、初中版、中考在线、高中版、高考在线、小学作文创新教学、中学作文教学研究、教育教学研究九...

《花木盆景》
《花木盆景》杂志，于1984年经国家新闻出版总署批准正式创刊，CN:42-1014/S，本刊在国内外有广泛的覆盖面，题材新颖，信息量大、时效性强的特点，其中主要栏目有：下月花事、...

《中国美学研究》
《中国美学研究》（半年刊），创刊于2007年，是以研究中国古代美学为主，兼及心理美学、西方美学等著译的学术集刊，由华东师范大学中文系、华东师范大学美学与艺术理论研究...

《广西师范学院学报(哲学社会科学版)》
《广西师范学院学报（哲学社会科学版）》（季刊）创刊于1980年，是由广西师范学院主办的综合性学术期刊，国内外公开发行。创刊以来，能坚持正确的政治方向和舆论导向，坚持确定...