欢迎来到天天文库
浏览记录
ID:28354972
大小:85.54 KB
页数:3页
时间:2018-12-09
《客户流失预测数据挖掘方法对比分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、客户流失预测数据挖掘方法对比分析随着市场竞争的加剧,新技术的不断涌现,数据仓库、数据挖掘技术在客户关系管理的应用日益广泛和深入,其中客户行为分析、客户满意度评价、客户细分等是数据挖掘技术在客户关系管理的典型应用。近年来,客户挽留成为客户关系管理的重要内容,在诸多行业,保持高的客户挽留率对于公司利润的增长,超过公司规模、市场份额、单位成本等竞争因素的影响。学术界、企业界提出了以客户关系管理、关系营销为营销模式,以客户需求为核心价值,采用数据挖掘技术对客户流失行为进行分析建模,以期增强客户忠诚度、降低客户流失率。1客户流失预测常用技术客户流失分析与建模是应用数据挖掘技术新的应用
2、。简言之,预测模型是从数据库中发现模式,用于对未来的预测。客户流失预测模型简单的说就是从客户数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方法形成预测模型,通过预测模型对新样本进行分类,预测出客户是否具有流失可能性。学术界开发、应用了基于数据挖掘方法与技术的客户流失预测模型,其中,最常用的有回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模,取得了不错的效果。1.1回归分析回归分析是一种广泛应用的预测技术,回归分析的目的是找出数值型变量间的依赖关系,并通过函数关系表现出来。回归分析的预测效果仅仅依赖于预测的变量与其
3、他变量的关系,即模型的精确度取决于自变量和因变量的分布符合模型的程度,自变量与因变量的分布适合所选取的模型,则预测效果好,反之,预测效果差。根据自变量和因变量的函数关系,分为线性回归和非线性回归。客户关系研究中广泛应用的模型有Linear,Logistic等回归方程。文献[1]应用Logistic回归对商业银行客户流失进行了分析预测,并以真实数据对模型进行了校验,结果表明模型具有良好的预测效果。文献[2]应用Logistic模型研究了客户生命周期价值及客户流失,研究发现,相比决策树和神经网络技术而言,Logistic模型更适合对客户流失的分析和预测,但同时作者也指出,预测性
4、能受诸多参数因素的影响,比如神经网络参数的设置及训练集的选择,只能表明他们的训练样本更适合Logistic来建模。文献[3]指出,回归分析在客户流失预测中的主要缺点是对训练样本的要求,并且不能以符号化或易于理解的形式直观地表现隐含的模式。1.2决策树决策树是一种流行的分类算法,具有学习快速块、分类准确率高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进行分类时,从树根节点开始对样本进行测试,根据测试结果确定下一个节点,直至到达也节点,叶节点所属类别就是新节点的预测类别。决策树算法有ID3,4.5,C5.0
5、,CART等。由于基于C4.5算法的决策树有良好的性能并且能够自动产生分类规则,文献[4]应用C4.5算法对保险客户基本信息进行了分类,分析出了客户流失的特征,通过此模型,保险公司提高了客户挽留率。Kitayama通过基于决策树的方法对客户档案进行了分类,首先把客户群体划分为首选客户(Preferredcustomers)和一般客户,首选客户指那些对公司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值客户,以达到挽留高价值客户的目的。为了克服决策树固有的缺点,提高客户流失预测模型的精确度和可解释性,文献[5]结合了ADTree模型与Logistic回归方程的优点,
6、提出了TreeLogit模型。1.3神经网络3神经网络是一组连接的输入/输出单元,其中每个连接都有一个加权值。神经网络的分类知识体现在网络连接上,被隐式地存储在连接的权值中。神经网络的学习过程是通过跌代运算对权值不断进行调整的过程,学习的目标就是通过权值的调整使输入元组被正确的标号。典型的神经网络有Hopfield网络,BP网络,SOM和ART网络。文献[6]通过应用神经网络来识别价值客户,预测将来的行为,来进行客户关系管理,根据他们的实验结果表明,相比其他数据挖掘技术,神经网络用于识别价值客户提供了更有效的预测模式。同时还证明了神经网络具有广泛的应用领域。然而,神经网络技
7、术的缺点也是不容忽视的,比如输出结果模糊,不易解释。[7]通过SOM技术对证券客户的潜在价值进行了细分。1.1SVM方法支持向量机(supportvectormachine,SVM)是近年来流行的分类算法,在解决小样本、非线性及高维模式识别问题中表现出独特的优势,得到普遍关注和研究应用。SVM建立在计算学习理论的结构风险最小原则基础上,即使发生真实错误的概率的上限最小,用于解决二值分类的模式识别问题。SVM使用一种非线性映射,把训练样本映射到较高的维;在新的维上,它搜索线性最佳分离超平面;使用一个适当的对足够高维的
此文档下载收益归作者所有