欢迎来到天天文库
浏览记录
ID:52822141
大小:167.00 KB
页数:8页
时间:2020-03-30
《企业CRM系统中决策树算法的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、企业CRM系统中决策树算法的应用河北金融学院郭佳许明保定市科技局《基于数据挖掘的客户关系管理系统应用研究》09ZG009摘要:客户资源决定企业的核心竞争力,更多的关心自己的销售群体,并与之建立良好的、长期的客户关系,提升客户价值,对全面提升企业竞争能力和盈利能力具有重要作用。本文以某企业销售业绩为对象,利用决策树分类算法,得到支持决策,从而挖掘出理想客户。关键字:客户关系管理;数据挖掘;分类算法决策树分类是一种从无规则、无序的训练样本集合中推理出决策树表示形式的分类规则的方法。该方法采用自顶向下的比较方式,在决策树的内部结点进
2、行属性值的比较,然后根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。本文主要研究决策树分类算法中ID3算法在企业CRM系统中的应用情况。1.ID3算法原理ID3算法是一种自顶向下的决策树生成算法,是一种根据熵减理论选择最优的描述属性的方法。该算法从树的根节点处的训练样本开始,选择一个属性来区分样本。对属性的每一个值产生一个分支。分支属性的样本子集被移到新生成的子节点上。这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分区到某个类中。2.用于分类的训练数据源组数据挖掘的成功在很大程度上取决于数据的数量
3、和质量。我们应从大量的企业客户数据中找到与分析问题有关的,具有代表性的样本数据子集。然后,进行数据预处理、分析,按问题要求对数据进行组合或增删生成新的变量,从而对问题状态进行有效描述。在本文研究的企业数据中,是将客户的年龄概化为“小于等于30”、“30到50之间”和“大于50”三个年龄段,分别代表青年、中年和老年客户,将产品价格分为高、中、低三档等,详见表1,将企业CRM系统数据库中销售及客户信息汇总为4个属性2个类别。4个属性是客户年龄段、文化程度、销售地区、产品档次,类别是销售业绩,分为好和差两类。表1训练样本集合attr
4、ibuteageeducationarealevelclass1<=30HⅠlowbad2<=30HⅠhighgood3<=30HⅡmediumbad4<=30HⅡhighgood5<=30LⅠhighgood6<=30LⅠlowgood7<=30LⅡlowgood8<=30MⅠhighgood9<=30MⅠmediumgood10<=30MⅡmediumgood11<=30MⅠlowgood1231-51MⅠmediumgood1331-51MⅡmediumgood1431-51MⅠlowbad1531-51HⅠhighgo
5、od1631-51HⅠmediumgood1731-51HⅠlowgood1831-51HⅡhighbad1931-51HⅡlowbad2031-51LⅠhighgood2131-51LⅠlowgood2231-51MⅡhighbad2331-51MⅠhighgood24>50MⅠhighbad25>50MⅡhighbad26>50MⅠmediumgood表2训练数据中各属性的说明属性说明age客户的年龄段education文化程度area业务销售地区(Ⅰ本地区,Ⅱ外地)level产品档次class销售状况3.ID3算法分类模
6、型的建立由表1可知:类标号属性有两个不同的值,因此有两个不同的类(即m=2)设类C1对应于good,类C2对应于bad。类good有18个样本,类bad有8个样本。为了计算每个属性的信息增益,先使用,所以初始信息熵为:I(s1,s2)=I(18,8)=0.8905然后计算客户年龄、文化程度、产品档次和销售区域4个属性的熵。首先观察age属性的每个样本值的good、bad分布,分别计算每个分布的信息熵:当age<=30:s11=9s21=2时,I(s11,s21)=-当age在31-50间:s12=8s22=4时,I(s12,s
7、22)=-当age>=50:s13=1s23=2时,I(s13,s23)=-若按age划分样本,所需的信息熵为:E(age)==0.8192类似的,可以得到:E(education)==0.7669E(production)==0.853E(area)=通过以上属性,对当前分支节点进行相应样本集合划分,从而获得的信息增益分别为:Gain(age)=I(s1,s2)-E(age)=0.8905-0.8192=0.0713Gain(education)=I(s1,s2)-E(education)=0.8905-0.7769=0.1
8、236Gain(production)=I(s1,s2)-E(production)=0.8905-0.853=0.0375Gain(area)=I(s1,s2)-E(area)=0.8905-0.783=0.1075Gain(equipment)=1.576-0.873=0
此文档下载收益归作者所有