欢迎来到天天文库
浏览记录
ID:37377952
大小:7.59 MB
页数:56页
时间:2019-05-22
《基于二次学习风范的数据挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京大学研究生毕业论文基于二次学习风范的数据挖掘算法研究ResearchonTwice··LearningStyleDataMiningAlgorithms南京大学计算机科学与技术系肖新攀导师:周志华教授二。一b年五月南京大学研究生毕业论文赫l蠢隶\嬲删随着信息技术的快速发展,数据的产生、获取和积累变得十分简单快捷。为此,如何高效地从海量数据中发现有价值且易于被用户理解和使用的信息和模式,成为了一个十分重要而紧迫的问题。本文对如何通过二次学习风范提高学习系统的可理解性进行研究,取得了以下成果:1.提出两种新的二次学习算法C4.5Rule.PANE.rd和C4
2、.5Rule.PASV。现有的二次学习算法假定样本在特征空间中服从均一分布并采用集成学习器作为第一阶段的分类器。C4.5Rule—PANE.rd算法修改了样本的生成算法,使得第二阶段的训练样本更加接近原始分布。同时,本文提出采用支持向量机作为第一阶段分类器的C4.5Rule.PASV算法。实验结果表明,新算法在泛化能力和可理解性方面均有提高。2.提出基于间隔理论的二次学习算法C4.5Rule.TOOLS。该算法的泛化能力可以由间隔理论的泛化错误率上界来保证。实验表明,C4.5Rule.TOOLS算法不仅有效提高了分类性能,还由于大幅减少了生成规则的数量而显著
3、提高了输出规则的可理解性。3.将提出的二次学习算法应用于心理学数据分析。实践证明,本文提出的二次学习算法均能有效地从心理学数据中发现泛化能力强、可理解性好的模式,这表明了二次学习算法在心理学研究领域具有广阔的应用前景。豢翻:机器学习;数据挖掘;可理解性;二次学习风范;间隔理论;心理测量南京大学研究生毕业论文赫萄Therapiddevelopmentofinformationtechnologyhasgreatlyacceleratedthegeneration,acquisitionandaccumulationofdigitaldata.Insuchasi
4、tuation,itbecomesanurgentneedtofindeffectiveandefficientwaysofdiscoveringnovelandcomprehensiblepatternsfromhugeamountofdata.Usingtoolsandtechniquesfromthefieldofmachinelearninganddatamininghasbeenrecognizedasaneffectiveapproachtothisend.Thisthesisstudieshowtoimprovethecomprehensibi
5、lityoflearningsystemswiththetwice-learningparadigm,producingthefollowingresults:1.Twotwice—learningalgorithms.namelyC4.5Rule—PANE.rdandC4.5Rule.PASV,areproposed.Existingtwice-learningalgorithmsassumeuniformdistributionofdatainfeaturespace.C4.5Rule—PANE—rdemploysamodifiedmethodofgen
6、eratingrandominstanceswhichdoesnotassumeuniformdistribution.Meanwhile.C4.5Rule.PASVisatwice—learningalgorithmthatusesSupportVectorMachinesasfirst-stageclassifiers.Empiricalresultsshowthatnewalgorithmscanimprovecomprehensibilityandgeneralizationabilityinmanysituations.2.Basedonobser
7、vationsonmargintheory,amargin-basedtwice—learningalgorithm,namelyC4.5Rule‘TOOLS,isproposed.Thegeneralizationabilityofthisnewalgorithmcanbetheoreticallyguaranteedusingmargin—basegeneralizationbounds.Empiricalresultsshowthatthismargin-basedalgorithmofferssuperiorcomprehensibilitywhil
8、eprovidingguaranteedgenera
此文档下载收益归作者所有