基于分布式计算的svm算法优化

基于分布式计算的svm算法优化

ID:33409669

大小:1.09 MB

页数:60页

时间:2019-02-25

基于分布式计算的svm算法优化_第1页
基于分布式计算的svm算法优化_第2页
基于分布式计算的svm算法优化_第3页
基于分布式计算的svm算法优化_第4页
基于分布式计算的svm算法优化_第5页
资源描述:

《基于分布式计算的svm算法优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、代号10701学号1103121549分类号TP391密级公开题(中、英文)目基于分布式计算的SVM算法优化OptimizationofSVMAlgorithmBasedonDistributedComputing作者姓名郭欣欣指导教师姓名、职务王凯东副教授学科门类工学学科、专业计算机系统结构提交论文日期二○一四年二月万方数据西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所

2、罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部

3、或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。本人签名:导师签名:日期:日期:万方数据摘要摘要随着互联网技术及移动互联网的飞速发展,网络上的数据呈指数型增长,而如何很好的利用这些数据,成为大家关注的焦点,从而促进了数据挖掘的快速发展。而在数据挖掘的领域,支持向量机(SupportVectorMachine)是一种比较高效可信的数据分类算法,因其拥有较少的过度拟合、对于特征向量维数灾难影响不明显等优点而被广泛应用。但是传统的

4、SVM本身并不适用于海量数据的处理,当处理海量数据时,其算法的空间和时间复杂度都比较高,导致训练特别慢,提升了训练得到训练模型的代价。为解决这些问题,对传统的SVM算法进行分布式并行化处理是一种有效的方法。本文对SVM算法的分布式并行化进行探讨。经过分析,CascadeSVM作为一种分布式SVM算法,在保证准确率的情况下,能够有效的减少训练时间。但是,本文发现CascadeSVM算法中存在改进的空间,每次迭代的训练层级固定,不能灵活的适应分布式环境。于是在CascadeSVM的基础上提出了一种新型分布式SVM算法。考

5、虑到Hadoop平台是目前最流行的分布式并行计算平台,我们将CascadeSVM和新型分布式SVM算法的思想与Hadoop平台技术相结合,得到基于Hadoop平台的算法实现。为了验证分布式SVM算法能否达到优化的目的,我们搭建了小型的分布式集群,使用标准的covtype.binary数据集作为实验数据集,对传统的单机SVM算法、CascadeSVM及新型分布式SVM算法,主要从训练时间及预测准确率上进行比较。结果表明对于大规模数据,在保证一定的预测准确率的前提下,分布式SVM算法训练效率要明显优于单机SVM,而在分布

6、式算法中,新型分布式SVM算法要略优于CascadeSVM。关键字:支持向量机CascadeSVM机器学习分布式计算Hadoop万方数据万方数据AbstractAbstractWiththerapiddevelopmentofInternettechnologyandMobileInternet,thedataonthenetworkgrewexponentially,andhowtomakegooduseofthesedatahasbecomethefocus,soastopromotetherapiddevelo

7、pmentofdatamining.Inthefieldofdatamining,SupportVectorMachineisanefficientandreliabledataclassificationalgorithm.Withsomeadvantages,suchas,happeningover-fittingrarely,havingnotobviousdimensiondisastereffect,etc,itiswidelyappliced.However,traditionalSVMcouldnotp

8、rocessmassivedatawell,forwhenprocessinghugeamountsofdata,spaceandtimecomplexityofthealgorithmisrelativelyhigh.Thismadethetrainingparticularlyslow,andthecostofgettingthetrain

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。