基于数据挖掘财富指数提取

基于数据挖掘财富指数提取

ID:38275445

大小:373.15 KB

页数:4页

时间:2019-06-01

基于数据挖掘财富指数提取_第1页
基于数据挖掘财富指数提取_第2页
基于数据挖掘财富指数提取_第3页
基于数据挖掘财富指数提取_第4页
资源描述:

《基于数据挖掘财富指数提取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京师范大学学报(自然科学版)20090246JournalofBeijingNormalUniversity(NaturalScience)45(1)3基于数据挖掘的财富指数提取1)2)•3)陈传亮田英杰邓乃扬(1)北京师范大学信息科学与技术学院,100875,北京;2)中国科学院虚拟经济与数据科学研究中心,100080,北京;3)中国农业大学理学院,100083,北京)摘要基于国家统计局的调查数据,通过数据挖掘技术对判断人们财富状况的关键因素进行了分析,提取了若干我们称之为财富指数的指标,得到了比较符合实际的结果.关键词数据挖掘;财富指数;特征选择;支持向量

2、机[2]数据挖掘的精髓主要是运用数学方法与数学模信息增益的定义为型,从海量数据中寻找隐含的数据关系,抽取潜在的、G(A)=I(D)-IA(D),(4)有价值的知识.数据挖掘是一个迅速发展的研究领域,其中D为训练集,A为某一属性.IA(D)为按照属性A不断有新内容、新方法、新技术涌现出来.在当今经济划分D所需要的期望信息.I(D)和IA(D)可以通过等全球化、中国经济快速增长的背景下,决定人们财富状式(5)、(6)求得,其中Dj为按照属性A对D进行划况的关键因素已经有了变化,一些新的因素在对判断分的v个子集中第j个子集.m人们财富状况方面起着重要的作用.I(D)=

3、-∑pilog2(pi),(5)i=11算法简介v

4、Dj

5、IA(D)=-∑log2(Dj).(6)j=1

6、D

7、1.1特征选择算法特征选择算法被用来从众多特[2]信息增益比的定义为征中选择出少量重要特征,在减少特征数量的同时尽G(A)量保留分类信息.本文共对比分析了3种特征选择算R(A)=,(7)S(A)法:CFS(correlationfeatureselection)、信息增益以及其中S(A)定义如下信息增益比,其中CFS是采用相关性来评估特征子集v

8、Dj

9、

10、Dj

11、S(A)=-∑×log2().(8)与类标号的相关程度.j=1

12、D

13、

14、D

15、在CFS属性评估器中,

16、当两个属性都为数值型1.2分类算法本文主要采用2种分类算法:PART[1][3]时,它们之间的判定采用Pearson系数算法和线性支持向量分类机(linearsupportvector∑xyclassification,L2SVC).下面对这2种分类算法进行rXY=,(1)nσxσy简要介绍.对于数值型与离散型变量直接的相关性度量,其相关1.2.1PART算法PART算法是一种规则学习算性判定规则被定义为法.PART算法基于分治策略和割治策略,通过建立k局部决策树来生成精确而且紧致的规则集,同时也避rXY=p(X=xi)rXY,(2)[3]∑bi免了全局优化的高

17、计算代价.算法首先建立一条规i=1其中,X为离散型变量,Y为数值型变量,rX为一个二则,将规则所覆盖的实例去除,然后递归地为剩余的实bi值型变量,仅当X值为xi时取值为1,否则为0.例建立规则,直至没有剩余实例.其中规则是通过为当对于2个属性均是离散型变量的情形,其相关性前实例创建一棵经修建的决策树后将覆盖实例最多的定义为叶节点得来的,提取规则后丢弃当前局部决策树.用klPART算法可提取到用于判定财富状况的判断规则.rXY=p(X=xi,Y=yj)rXrY,(3)∑∑bibj1.2.2L2SVM算法支持向量机(supportvectori=1j=1[4]变量的

18、解释同公式(2).machine,SVM)是基于统计学习理论的通用机器学3国家自然科学基金资助项目(10601064,70531040,70621001)•通信作者收稿日期:2008206214第1期陈传亮等:基于数据挖掘的财富指数提取47习方法,能较好地解决小样本、非线性、高维数和局部利用3个特征选择算法.并将三者得到的属性集进行极小点等实际问题,具有广泛的应用:手写体数字识比对和评价,得到最好的特征集.首先对于CFS特征[5][6][7][8]别、说话人识别系统、人脸识别、文本分类等.选择算法,采用十折交叉验证,在最终得到的属性排序下面主要对线性支持向量分类

19、机进行介绍.中选择在10次实验中均被选出的属性,共得到24个已知训练集T={(x1,y1),⋯,(xl,yl)}∈属性.然后采用基于信息增益和信息增益比的特征选ln择算法(X×Y),其中xi∈X=R,yi∈Y={1,-1},i=1,,进行十折交叉验证,可以得到对应于CFS算[9]法排名前⋯,l.可得到原始最优化问题:24的特征选择集.l为了判断各个特征属性集的代表能力,本文定义12min‖w‖+C∑ξi,(9)w,b,ξ2i=1特征属性集的优秀度量———聚类重合度ls.t.yi((w·xi)+b)≥1-ξ,i=1,⋯,l;(10)Cs(A)=[∑δ(xi)]/

20、

21、D

22、,(16)ξi≥0,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。