欢迎来到天天文库
浏览记录
ID:33774773
大小:5.65 MB
页数:108页
时间:2019-03-01
《数据挖掘中的分类与预测模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、同济大学电子与信息工程学院博士学位论文数据挖掘中的分类与预测模型的研究姓名:严宁申请学位级别:博士专业:计算机应用技术指导教师:李启炎20031201麓姜摘要机器学习的方法在数据挖掘领域有广泛的应用。在当今的机器学习领域,人们经常采用多预测模型的方法以提高预测的准确性。所有这些多预测模型方法可以归为两类:(1)专家方法(2)集成方法。聚类方法在空间数据挖掘中有广泛的应用。应用于空间数据挖掘的聚类方法包括划分方法、层次方法、基于密度的方法等。本文根据应用于空间数据挖掘的聚类方法的基本要求,提出了一种基于分布的聚类算法DBCSD。本文改进了Ada
2、boost.M2算法,给出了具有属性选取的适应性属性推进方法,并且将该方法应用于空间推进中。快速k.NN分类器方法可以显著减少计算量。数据约简对于大型分布式数据库的数据挖掘也是非常有用的。在当今的数据挖掘领域中,在分布式环境中学习的工作一般有两种方式:一种是将所有数据移往一个中心以进行进一步处理:另外一种是对各地的数据分别产生预测模型,然后通过标准的机器学习方法进行移动和结合。随着网络系统的出现以及数据量不断增加,前一种方法太昂贵,后一种方法太不精确。缩小数据库的规模,降低其维数,同时又不丢失可以抽取的信息,这样可以为更有效、更精确的集中学习
3、加速数据转移。数据约简通常采用步进采样技术,本文提出了一种采用动态规划技术来计算采样schedule的新方法。目前的机器学习算法,一般都具有很高的计算复杂性,同时要求所有数据驻留主存,显然这对于大多数实际的数据挖掘应用来说是不能接受的。所以在本文中,我们将探讨在大型以及物理上分布的数据集上进行数据挖掘的方法。同时提出了在分布式环境中进行分类和预测的方法。我们提出了一种基于聚类方法的对集成中分类器进行剪枝的新方法。为了对分类器进行剪枝,采用分布分类器权重的方法。另外,我们设计了一种利用“最独立”分类器建立树的深度优先算法。该剪枝方法表明,通过选
4、择一个神经网络分类器的最优子集,我们有可能得到与整个集成接近甚至更好一点的泛化效果。一般来说,神经网络能够产生相当精确的模型。然后,这种模型都隐藏在“黑箱”中,虽然可以用来预测,但是对理解模型中变量之间的关系没有帮助。遗传算法是一种有效的优化工具,可以用于规则剪枝。本文提出了一个神经网络.模糊.遗传算法数据挖掘体系结构,它可以将发现的模式以可以理解的方式表示出来。关键词:数据挖掘,分类器,预测模型,机器学习,聚类,分布式环境,步进采样,神经网络,遗传算法,模糊推论系统。AbstractThetechnologiesofmachinelearn
5、ingarewidelyusedindatamining.Inrecentmachinelearningdomain,multi—predictionmodelsareusedtoimprovepredictionaccuracy.Allthesemulti—predictionmodelscouldbeclassifiedintotwocategories:(1)MixtureofExperts;(2)Ensembles.Clusteringmethodiswidelyusedinspatialdatamining.Theclusterin
6、gmethodsappliedtospatialdataminingincludeportioningmethod,hierarchicalmethod,density-basedmethod,andsoon.Adistributionbasedclusteringalgorithmisgivenhere.Adaboost.M2algorithmisadaptedandanewadaptiveattributeboostingalgorithmhavingattributeselectionisgiven.Andthismethodisals
7、oappliedinspatialboosting.Thefastk-NNclassifiercouldreducecomputationcomplexities.Datareductionisveryusefulindistributeddatamining.Progressivesamplingisusedindatareduction.AnewmethodbasedonDPisgivedtocomputesamplingschedule.Mostrecentmachinelearningalgorithmsusuallyhavehigh
8、computationcomplexitiesanddemandalldatatobeinmainmemory.Itisunrealistictomostdatam
此文档下载收益归作者所有