欢迎来到天天文库
浏览记录
ID:36847434
大小:3.01 MB
页数:52页
时间:2019-05-16
《基于Ⅳ属性选择的随机森林模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于IV属性选择的随机森林模型研究摘要随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战,尤其是处理数据流等问题时,模型的实时性无法保障,使得更注重训练数据质量的分类模型训练周期变长,精度下降。因此,如何有效的减小数据规模,提高数据质量对提高分类模型的性能有着重要意义。本文针对属性选择及分类问题开展了以下工作的研究:(1)针对数据挖掘所面临的挑战,分析了有效缩减数据规模是重要的可行方法,并在此基础上概述了各类经典属性
2、选择方法,探讨了它们的特点与不足。(2)针对已有属性选择方法在处理高维、海量数据时,时空性能与效果上的不足,分析了将WoE与IV指标引入属性选择的可行性及存在的问题,在解决这些问题的基础上提出了基于IV指标的属性选择方法FS.IV,实验表明该算法是有效的,与经典属性选择方法相比时空性能有明显优势,并具有一定的抗噪性。(3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题,分析了解决手段,将FS.IV方法与随机森林模型结合,提出了基于IV指标的随机森林模型,实验表明该模型与C4.5,朴素贝叶斯及经过FS.IV约简的C4.5与朴素贝叶斯模型相比,在不损
3、失精度的情况下,时间性能大幅提升。(4)根据高维、海量、流数据等实际问题,对FS.IV及IV.RF模型做了适应性改进,实验表明它们对高维、海量数据有着很好的处理效果。关键词:属性选择,IV指标,随机森林,数据挖掘TheResearchOilRandomForestBasedonIVFeatureSelectionAbstractWiththerapiddevelopmentofinformationtechnology,anexplosiveamountofdataisbroughtoutinthefieldslikebanking,financialservices,e-co
4、mmerce,bioinformaticsandnetworksecurity.Thesepracticaldatathatminingtasksfaceareoftenofhigh—dimension,redundantfeatures,aswellasnoises,whichmayleadtolowerprecisionandcostmoretime,especiallyinclassificationmodeling,sincehighqualitydataarepreferred.Thus,itwillbehelpfultousethosepredictivefeatu
5、resforimprovingtheperformancesInthisthesis,researchesarecarriedoutonfeatureselectionandclassificationasbelow:(1)Accordingtothechallengesthatdataminingfaces,apossiblewayistoreducehugedatasizeeffectivelysuchasfeatureselection.Wesummarizemostclassicalmethodsoffeatureselection,andpointouttheirch
6、aracteristicsaswellasweakpointsbasedontheanalysis.(2)Duetothedefectsoftraditionalmodelsthatwementioned,thefeasibilityandthedifficultyofusingWoEandIVasafeatureselectionmethodsareanalyzed.Undertheanalysis,afeatureselectionmodelFS-IVisproposedbasedontheIVindex.Experimentsshowthatthemodelperform
7、swithashortenedtimeandhassomenoiseimmunity.(3)Fortheproblemsthatfeatureselectionbrings,suchasthenotablecutondataandthegatheringofsuperiorfeatures,asuitableclassificationmodelIVoRFisproposed.ExperimentsshowthatthemodelhasasatisfiedtimecostWithlittle
此文档下载收益归作者所有