欢迎来到天天文库
浏览记录
ID:45582802
大小:98.50 KB
页数:9页
时间:2019-11-15
《企业CRM系统中决策树算法的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、企业CRM系统中决策树算法的应用河北金融学院郭佳许明保定市科技局《基于数据挖掘的客户关系管理系统应用研究》09ZG009摘要:客户资源决定企业的核心竞争力,更多的关心自己的销售群体,并与之建立良好的、长期的客户关系,提升客户价值,对全面提升企业竞争能力和盈利能力具有重要作用。本文以某企业销售业绩为对象,利用决策树分类算法,得到支持决策,从而挖掘出理想客户。关键字:客户关系管理;数据挖掘;分类算法决策树分类是一种从无规则、无序的训练样本集合中推理出决策树表示形式的分类规则的方法。该方法采用自顶向下的比较方式,在决策树的内部结点进行属性值的比较,然后根据不同的属性值判断从该结点向下的分支,在决策
2、树的叶结点得到结论。本文主要研究决策树分类算法中ID3算法在企业CRM系统中的应用情况。1.ID3算法原理ID3算法是一种口顶向下的决策树生成算法,是一种根据爛减理论选择最优的描述属性的方法。该算法从树的根节点处的训练样本开始,选择一个属性來区分样本。对属性的每一个值产生一个分支。分支属性的样本子集被移到新生成的了节点上。这个算法递归地应用于每个了节点,直到一个节点上的所有样本都分区到某个类中。2•用于分类的训练数据源组数据挖掘的成功在很大程度上取决于数据的数量和质量。我们应从大量的企业客户数据中找到与分析问题有关的,具有代表性的样本数据子集。然后,进行数据预处理、分析,按问题要求对数据进行
3、组合或增删生成新的变量,从而对问题状态进行有效描述。在本文研究的企业数据中,是将客户的年龄概化为“小于等于30”、“30到50之间”和“大于50”三个年龄段,分别代表青年、中年和老年客户,将产品价格分为高、中、低三档等,详见表1,将企业CRM系统数据库中销售及客户信息汇总为4个属性2个类别。4个属性是客户年龄段、文化程度、销售地区、产品档次,类别是销售业绩,分为好和差两类。表1训练样本集合attributeageeducationarealevelclass1<=30HIlowbad2<=30HIhighgood3<=30HIImediumbad4<=30HIIhighgood5<=30LI
4、highgood6<=30LIlowgood7<=30LIIlowgood8<=30MIhighgood9<=30MImediumgood10<=30MIImediumgood11〈二30MIlowgood1231-51MImediumgood1331-51MIImediumgood1431-51MIlowbad1531-51HIhighgood1631-51HImediumgood1731-51HIlowgood1831-51HIIhighbad1931-51HIIlowbad2031-51LIhighgood2131-51LIlowgood2231-51MIIhighbad2331-51
5、MIhighgood24>50MIhighbad25>50MIIhighbad26>50MImediumgood表2训练数据中各属性的说明属性说明age客户的年龄段education文化程度area业务销售地区(I木地区,II外地)level产甜档次class销售状况3.ID3算法分类模型的建立由表1可知:类标号屈性有两个不同的值,因此冇两个不同的类(即m=2)设类C1对应于good,类C2对应于bado类good有18个样本,类bad有8个样木。为了计算每个属性的信息增益,以初始信息爛为:加先使用/(»®,…,几)=10&(A),所826/=1I(S1,S2)T/1QQ_18[188I(
6、18,8)=--log2---log218126812618o8八“八八u=—log?1log=—=—*0.53H*1.7=0.890526T826-182626然后计算客户年龄、文化程度、产品档次和销售区域4个属性的爛。首先观察age屈性的每个样本值的good>bad分布,分别计算每个分布的信息爛:当age<=30:sh=9s?]=2时,I(S11,S21)=992■n,og2n-nlogto2当age在31-50间:Si2=8当age>=50:si3=lS2?=4H'J»I(si2,so2)二——log7log。—1262121262121122S23=2时'I(S13,S23)=一§1
7、0g2§一§1002§若按age划分样本,所需的信息爛为:11123E(age)=—Z(5h,521)+—©2,^22)+—I(s13,s23)=0.8192类似的,可以得到:262626E(education)=9/5;54I4、12/8
8、84f4X5z5f50,0、——(——log2log2一)+—(log7log2——)+——(——log°log2-)269~99「92612T212T2265~55「5
此文档下载收益归作者所有