基于广义信息论的决策森林数据挖掘模型new

基于广义信息论的决策森林数据挖掘模型new

ID:34115824

大小:3.03 MB

页数:4页

时间:2019-03-03

基于广义信息论的决策森林数据挖掘模型new_第1页
基于广义信息论的决策森林数据挖掘模型new_第2页
基于广义信息论的决策森林数据挖掘模型new_第3页
基于广义信息论的决策森林数据挖掘模型new_第4页
资源描述:

《基于广义信息论的决策森林数据挖掘模型new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第40卷第1期吉林大学学报(工学版)Vol.40NO.12010年1月JournalofJilinUniversity(EngineeringandTechnologyEdition)Jan.2009基于广义信息论的决策森林数据挖掘模型王利民戒雪柏曹春红2(1.吉林大学计算机科学与技术学院,长春130012;2.东北大学信息科学与工程学院,沈阳110004)摘要:针对模式识别中的多分类器集成,通过挖掘测试样本特征属性的相关性,结合训练集的条件独立性分析对每个样本赋予分类规则,构造分类森林(而非单个决策树)进行模型集成。整个学习过程能够自适应确定各决策树结构和数量,并充分发捍集

2、成模型的伸缩性和扩展性。在UCI机器学习数据集上的实验结果验证了本方法的有效性。关键词:人工智能;模式识别;决策森林;条件独立性假设;数据挖掘模型中图分类号:TP182文献标志码:A文章编号:1671-5497(2010)01-0155-04Dataminingmodelofdecisionforestbasedongeneralizedinformaiontheory11WANGLi-min,ZANGXue-bai,CAOChu口ho日g2(1.CollegeofComputeγScienceandTechnology,JilinUniveγsity,Changchun13

3、0012,China;2.CollegeofI时ormationScienceandEπgin曰"吨,NoγtheasternUniveγ时y,She町la吨110004,China)Abstract:Forthemultipleclassifierintegrationi日thepatternrecognitio日,adecisionforestratherthanadecisiontreewasbuilttorealizethesubmodelintegrationbyminingtherelevanceinthepredictiveattributesinthetest

4、sampleandglvmgthedistinctclassificationruletoeachsamplebasedontheconditionalindependenceanalysisofthetrainingset.Thestructureandthenumberofthedecisiontreescanbedefinedadaptivelyduringthelearni日gprocess.ExperimentsonUCIlearningdatasetsprovedthefeasibilityandeffectivenessoftheproposedmethod.K

5、eywords:artificialintelligence;patternrecognition;decisionforest;conditionalindependenceassumption;datami日ingmodel分类器集成的是目前机器学习领域中的一个点比较敏感的缺点,提出了鲁棒Boosti吨算法。主要方向和研究热点。Freund和Schapire[I]提利用边际分布而不是传统的硬边际来衡量分类器出了AdaBoost(Adaptiveboost)系列算法,通过的优劣,从而提高Boosti吨算法抗奇异点和噪音该算法产生的各分类器的训练集取决于在其之前干扰的能力。1

6、991年,Breiman[4J提出了Bagging产生的成员分类器的表现,被已有成员分类器错(BootstrapAggregating)方法。各成员分类器的误判断的例子将以较大的概率出现在新分类器的训练集由从原始训练集中自助选取的若干样本组训练集中。针对Boosting边际效应理论,Rätsch成,训练集的规模通常与原始训练集相当,训练样等[2~3J从提高最小边际的角度出发构造了多种改本允许重复选取。Baggi吨方法通过重新选取训进算法。同时针对Boosti吨算法对噪音及奇异练集增加了集成的差异度,从而提高了泛化能力。收稿日期:2008-06-25.基金项目:国家自然科学基金

7、项目(6027502日,60803055).作者简介:王利民(1974-),副教授,博士.研究方向:数据挖掘,贝叶斯网络,决策树.E-mail:wangli日l@jlu.edu.cn•156•吉林大学学报(工学版)第40卷1992年,W01pert[S]提出了对多个分类器的输出Count(C二c)P(c)二N结论进行结合的Stacki吨(Stackedge时ralizatio川方法。可以用来发现并纠正所使P(XiI仁芮K(平)用的学习算法中的系统偏差,并且由相应的算法Count(C二。Xj二工;)依据基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。