欢迎来到天天文库
浏览记录
ID:33298273
大小:2.35 MB
页数:58页
时间:2019-02-23
《基于mapreduce的非线性支持向量机分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterResearchforNon-linearSupportVectorMachineClassificationAlgorithmBasedonMapReduceByYmgYmgMaSupervisor:Prof.LingMingWangComputerSoftwareandTheoryInformationEngineeringSchoolMay2014学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研o究所取得的成果。除文中已经注明弓I用的内容外,
2、本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:弓.蔓吏日期:如『千年5月26日学位论文使用授权声明本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果
3、时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者写蔓芰日期:列々年多月“日\f,‘o’‘’-、一1I-,~摘要支持向量机(SupportVectorMachine,SVM)算法是数据挖掘及机器学习领域中健壮性和稳定性较好的高精度算法,能够非常成功地处理分类和回归问题。然而,非线性SVM分类算法是一个计算密集型算法,仅适用于小样本统计学习问题。面对当今实际问题中的大数据集,本文旨在保持非线性SVM算法分类精度的基础上提高其处理能力及运行效率。在对标准SVM算法及MapReduce编程模型进行深入分析的基础上,本文进行了如下研究工作并取得了一定的成果。首先,为了提高串行非
4、线性SVM算法的数据处理能力及运行效率,提出了基于MapReduce的并行SVM(胀-SVM)算法。通过均匀划分数据集,在各数据分片上利用map任务并行求解支持向量集SVs,而后联合各分布式训练结果利用一个reduce任务执行SVM重训练得出SVM分类器。其中联合重训练使得算法能自动收敛。其次,为了弥补MR-SVM算法中分布式训练带来的精度损失,提出了基于MapReduee的并行迭代SVM(MR-C.SVM)算法。引入了迭代计算机制,通过反馈循环训练直至算法收敛于全局最优解。迭代过程中利用KKT条件筛选数据集的操作减少了重复计算。再次,为了满足在线学习的需求及克服集群存储容量无法满足需求的难题
5、,在MR-SVM算法和MR-C.SVM算法的基础上,提出了基于MapReduce的并行增量迭代SVM(MR.II.SVM)算法。此外,对MapReduce进行了支持迭代的扩展及针对MR-C.SVM算法的改进。最后,在理论上证明了MR.C.SVM算法收敛于全局最优解。对MR-II.SVM算法的各项流水线性能指标进行了计算分析。基于SpamBase数据集及MINIST数据集的实验表明,MR-C.SVM算法在保持标准SVM算法精度的同时提高了数据处理能力及运行效率,并超过了其它基于MapReduce的并行SVM算法的精度;MR-II.SVM算法在加速比和运行效率方面比同类高精度算法具有明显优势。关键
6、词:支持向量机;MapReduce;并行计算;迭代计算;收敛性;增量学习AbslractAbstractSupportVectorMachine(SVM)algorithmisarobustandstablealgorithmwithlligllprecisioninthefieldofDataMiningandMachineLearning,whichCallsuccessfullydealwithclassificationandregressionproblems.However,asacomputing-intensivealgorithm,thenon-linearSVMalgori
7、thmislimitedtosmallsamplesstatisticallearningproblem.Inthefaceofthepracticalproblems诵mhugeamountsofdata,thispaperaimstoimprovingtheprecisionofprocessingcapacityandefficiency,simultaneouslykeepingthepr
此文档下载收益归作者所有