基于支持向量机的多属性大规模数据分类算法的研究

基于支持向量机的多属性大规模数据分类算法的研究

ID:32966803

大小:2.58 MB

页数:61页

时间:2019-02-18

基于支持向量机的多属性大规模数据分类算法的研究_第1页
基于支持向量机的多属性大规模数据分类算法的研究_第2页
基于支持向量机的多属性大规模数据分类算法的研究_第3页
基于支持向量机的多属性大规模数据分类算法的研究_第4页
基于支持向量机的多属性大规模数据分类算法的研究_第5页
资源描述:

《基于支持向量机的多属性大规模数据分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中科技大学硕士学位论文基于支持向量机的多属性大规模数据分类算法的研究姓名:侯铁民申请学位级别:硕士专业:系统工程指导教师:陈学广;刘振元20070604华中科技大学硕士学位论文摘要数据挖掘是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。分类即通过由经验数据训练得到的分类器预测未知数据的归属,是一种最常见的数据挖掘任务。支持向量机,由于其出色的学习性能,已成为机器学习界的研究热点,并在很多领域都取得了成功的应用。但是作为一种新兴的技术,支持向量机在对数据挖掘领域的分类研究还有待探索和完善。本文在介绍支持向量机

2、的基本理论及其训练算法的基础上,重点讨论了序贯最小最优化(SequentialMinimalOptimization,SMO)算法。SMO算法是训练大规模数据集的有效算法,但是仍存在着训练速度慢、占用空间大的缺点。本文提出了一种双SMO算法。该算法在原数据集的抽样数据集上使用SMO算法得到近似分类超平面,根据近似分类超平面得到原数据集的所有支持向量,再次使用SMO算法得到最终的分类超平面。双SMO算法降低了占用空间,在一定程度上消除了噪音点对最终分类超平面的影响,加速了优化的过程。由于数据挖掘中要处理的往往是多属性

3、大规模的数据集,所以在使用双SMO算法前,需要先进行属性约减处理,以降低计算量,提高算法速度,并使挖掘出的分类模式易于理解。基于此,本文对数据挖掘中多属性问题作了属性约减的讨论,提出了属性约减的双SMO算法。该算法适用于数据挖掘中的分类问题,为建立数据挖掘方案提供了理论依据。为验证双SMO算法的有效性,本文使用该算法对二维的数据集进行了试验,并使用属性约减的双SMO算法建立了一个数据挖掘方案。结果表明该算法提高了SMO算法的性能,缩短了训练时间,降低了占用空间,并在正确率上优于决策树、神经网络和贝叶斯算法。本文把支

4、持向量机引入数据挖掘,为数据挖掘系统的设计提供了一种新的选择。关键词:数据挖掘;支持向量机;训练算法;序贯最小最优化;属性约减I华中科技大学硕士学位论文AbstractDataminingaimsatextractingnovelandusefulknowledgefromlargevolumesofdata.Classificationistopredicttheclasslabelofdatawithsupervisorobtainedfromexperientialdata,whichisabasicprob

5、lemindatamining.SupportVectorMachine(SVM)hasbecomethehotspotofmachinelearningbecauseofitsexcellentlearningperformance.SVMalsohassuccessfulapplicationsinmanyfields.Butasanewtechnique,SVMalsohasmanyshortcomingsthatneedtoberesearchedindatamining.Basedonthebasicco

6、nceptofSVMtheoryandtrainingalgorithms,theSMOalgorithmisdiscussedinthispaper.Thisalgorithmisefficiencyforlarge-scaletrainingset,butitstillhassomeshortcomings,includingslowtrainingspeed,largememoryrequirement,etc.Inthispaper,doubleSMOwhichisaimprovedSVMtraininga

7、lgorithmispresented.ThisalgorithmfindsaapproximateseparatinghyperplaneonthesampledatasetbySMOalgorithm,accordingtotheapproximateseparatinghyperplane,supportvectorsarecollected,theseparatinghyperplaneisachievedbySMOalgorithmagain.UsingdoubleSMOalgorithm,thememo

8、ryrequirementisreduced,theimpactofnoisepointiseliminatedandthetrainingspeedisfastened.Thedatasetindataminingismostlymultiattributeandlarge-scale,sobeforeusingdoubleSMOalgorithm,att

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。