基于决策树的银行客户分类算法研究.pdf

基于决策树的银行客户分类算法研究.pdf

ID:55674816

大小:215.75 KB

页数:3页

时间:2020-05-24

基于决策树的银行客户分类算法研究.pdf_第1页
基于决策树的银行客户分类算法研究.pdf_第2页
基于决策树的银行客户分类算法研究.pdf_第3页
资源描述:

《基于决策树的银行客户分类算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第3期江苏科技信息No.32014年2月JiangsuScience&TechnologyInformationFebruary,2014基于决策树的银行客户分类算法研究郑秀仙(南京航空航天大学经济与管理学院,江苏南京211106)摘要:在国内,商业银行的数量上百家,商业银行的业务种类层出不穷,银行的客户数据与日俱增,这给银行客户分类带来了很多难题。文章针对银行客户分类问题,在决策树中引入核的概念,提出一种基于决策树的银行客户分类算法。关键词:数据挖掘;决策树;客户分类算法1决策树算法简介在列,合并重复行,并重复上述步骤,直到没有重复

2、行,则剩余决策树是对数据进行分类的一种行之有效的方法。决策树属性集为信息系统属性集合的一个约简,记作RED(Co相反,方法采用自顶向下的递归方式,顶点是整棵树的根节点,代表如果将属性i删除,使得U/IND(C一{})≠U/IND(C)成立,则某个属性,一般用椭圆形表示。通过对根节点的判断结果引出属性;在c中是必要的属性,称为信息系统属性集合的核,记不同分支,每个分支代表一种输出。分支向下指向内部节点或作CORE(C)。在此要说明一点,属性的约简不唯一,但是属性叶节点,如果是内部节点则再次判断,如果是叶节点则停止判的核是唯一的。断,叶节

3、点即为判断的结论,一般内部节点用椭圆表示,叶节点定义4在信息系统IS中,设P是对象u的条件属性集,用圆表示。从决策树的根节点到叶节点的一条路径对应着一Q是对象u的决策属性集,已知PuQ=c,且PnQ=。则令u/条合取规则,整棵决策树对应着一组析取表达式⋯。IND(P)={A1,A2,⋯,A},U/IND(Q)={B1,B2,⋯,B},则Zi=UAC2基于决策树的银行客户分类算法研究_Bj;Z1:UABAEU/IND(J^.EUIIND(,决策树就像一颗倒着生长的树,是从一组没有任何规律和则称{z,z,⋯⋯,Zn+l}为P相对于Q的泛化

4、,记作GENQ顺序的数据集中采用递归的方法生成的树。1986年,Quinlan在(P)。文章~Inductionofdecisiontrees)中提出了著名的ID3算法l2]。在信息系统IS=(U,C,V,f)中,条件属性可以分为in个不ID3算法的核心是:用信息增益作为决策树各级节点上选择属同的类M(i_1,⋯,m),系统中含有n个对象,PI是对象u中任性的标准。实施的具体步骤为:检测全部属性,将信息增益最意对象属于M。的概率,属于M。类的实例为M属于M。类实例大的属性作为决策树的根节点,属性的不同取值作为判别标的个数表示为lMil

5、,则P=lM.I/n,信息系统中对象分类准,根据不同的判别标准设立分支,以递归的方式调用该方法,所需的期望信息为:建立决策树的内部节点,当所有分支的子集仅含有同一种类别Info(u)=一Plogz(p)的数据时,算法结束。最后生成一棵能够对新的数据集进行分i=1类的决策树。本文提出的银行客户分类算法继承了ID3算法的现在,假设按照属性A划分对象集u中的对象,根据观测优点,针对于ID3算法只能对较小数据集有效这一缺点进行改属性A得知其具有v个不同值{a,a,⋯,av}。因此可以将对象进。本文将粗糙集中属性约简的思想3]引入,在新的算法中

6、提u划分为v个子集{u,u,⋯,u},其中每个子集中的样本在属出属性核的概念。本文首先给出一些相关定义,具体如下:性A上具有相同的值。此次划分并不能得到准确的分类,还需定义1在信息系统IS=(U,C,V,f)中,属性仅∈C(1≤要如下度量:k≤m)作为目标决策而存在,称为决策属性;属性OtjC(1≤InfoA(U)=∑料×Inf0()i≤m,i≠k)为决策属性提供支持,称为条件属性。j=llul定义2在信息系统IS=(U,C,V,f)中,对象的非空有限集其中ll/lU1代表第j个划分的权重。Info4()是基合u中任意的子集A,不能够

7、将非空有限集合u中的某些对于按属性A划分对象u所需要的期望信息。需要的信息越小,象区分开,则称子集A是不可辨识的,记作IND(A)。划分的纯度越高。在属性A上的分枝将获得的信息增益是:定义3在信息系统IS=(U,C,V,f)中,对于每个属性OtjGain(A)=Info()一Infoa(U)c(1≤j≤m),如果将属性,删除,使得U/IND(C一{})=U/INDQuinlan的ID3算法是选择信息增益最大的属性作为条件(c)成立,则属性Otj在C中是不必要的,删除不必要属性Otj所属性,而本文提出的客户分类算法首先是找到属性的核,如

8、果作者简介:郑秀仙(1987一),女,吉林桦句,硕士研究生;研究方向:管理信息系统与企业信息化。一10—20第14年3期2月江苏科技信息·科技金融街No.3February,2014属性的核为空,则按照ID3算法计算信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。