欢迎来到天天文库
浏览记录
ID:33133700
大小:1.60 MB
页数:48页
时间:2019-02-21
《数据挖掘分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山东大学硕士学位论文摘要随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的在线处理系统(OLTP)只能利用其中的很少一部分。近年来不断完善发展的数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而分类正是其中的极其重要的技术方法。准确率、速度、强壮性、可伸缩性、可解释性是评估分类方法的五条标准,其中准确率又是重中之重。本论文就是在这几方面研究、分析了国内外比较流行的若千种分类方法:决策树分类、贝叶斯分类、神经网络分类、关联规则分类等等。另外,本论文还讨论了常用
2、的评估分类法准确率的技术保持、k翎交叉确认和改进分类法准确率的两种常见技术装袋(bagging)(或引导聚集)、推进。k-最临近(k-NM分类方法是一种基于类比学习的分类方法,在计算两训练样本的相异度时给每一属性加相同的权,这样会造成分类的准确性下降,尤其当存在很多无关属性时,甚至会造成混乱。根据信息论中概率信息的理论,数据集中每一属性所含有的信息量是不同的,可用平均互信息量(信息增益)来度量某一属性与类标号属性的相关性。也就是说,某一属性与类标号属性的平均互信息量越大,则它们之间的的相关性越大:反之,某一属性与类标号属性的平均互信息量越小,则它们之
3、间的的相关性越小。据此,本论文提出了用每一属性的信息增益作为该属性的权来计算训练样本间的相异度的数学模型并将这一模型应用于k-最临近分类方法而得到一种新的分类方法:加权k-最临近(Wk-NN)分类方法,改善了原方法的分类质量,提高了原方法的分类准确率。并且,本论文选择了一个专门用于评估分类法性能的真实数据集,设计了一个评估k-NN分类方法和Wk-NN分类方法分类准确率的算法并且将其在计算机上实现。实验结果证明本论文对k-最临近件NN)分类方法的改进是科学有效的。关键词:数据挖掘,分类,k-最临近,信息增益山东大学硕士学位论文ABSTRACTWitht
4、herapidlydevelopmentofhumanitysocietyandcomputertechnology,Accumulationofelectronicdatahastakenplaceatanexplosiverate.UndoubtedlytheremustbeabundantlatentknowledgeintheseelectronicdataofgiganticmagnitudewhichareveryimportanttopeopleandtraditionalOnlineTransactionSystemonlyutili
5、zefewproportionof.RecentlycontinuallydevelopingtechnicnamedDataMiningjustcanhelppeoplefindlatentknowledgefromdata.TheClassificationisveryimportantmethodofDataMining.Classificationmethodcanbecomparedandevaluatedaccordingtothefollowingcriteria:Accuracy,Speed,Robustness,Scalabilit
6、y,Interpretability.Amongthesefivecriteriapredictiveaccuracyismostimportant.InthispapernationalandinternationalpopularmethodsofClassificationareresearchedandanalyzedinthosefiveaspectsincludingclassificationbyDecisionTree,BayesianClassification,ClassificationBasedonNeuralNetworka
7、ndClassificationBasedonAssociationRule.InadditioncommontechnicsusedtoestimateClassifierAccuracyInncludingHoldoutmethodandk-foldcross-validationandcommontechnicsusedtoincreasingclassifieraccuracyincludingBaggingandBoostingarediscussed.IrNearestNeighborClassifiersarebasedonlearni
8、ngbyanalogy.Ink-NNmethodsamefactorisassignedtoeachattr
此文档下载收益归作者所有