基于hadoop云平台的分布式支持向量机研究

基于hadoop云平台的分布式支持向量机研究

ID:33781694

大小:1.36 MB

页数:62页

时间:2019-03-01

基于hadoop云平台的分布式支持向量机研究_第1页
基于hadoop云平台的分布式支持向量机研究_第2页
基于hadoop云平台的分布式支持向量机研究_第3页
基于hadoop云平台的分布式支持向量机研究_第4页
基于hadoop云平台的分布式支持向量机研究_第5页
资源描述:

《基于hadoop云平台的分布式支持向量机研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:无UDC:单位代码:10118山西师范大学研究生硕士学位论文基于Hadoop云平台的分布式支持向量机研究牛科指导教师贾郭军副教授山西师范大学数学与计算机科学学院申请学位级别理学硕士专业名称计算机应用技术论文提交日期2014年3月31日论文答辩日期2014年5月16日学位授予单位山西师范大学学位授予日期2014年月日答辩委员会主席杨威教授评阅人张永奎李德玉教授2014年3月31日独创性声明本人郑重声明:所呈交的学位论文是本人在山西师范大学攻读学位期间,在导师指导下独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人

2、已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在论文中以明确方式注明并表示谢意。本声明的法律后果将完全由本人承担。学位论文作者签名:日期:学位论文使用授权书本人在山西师范大学攻读学位期间,在导师指导下完成的学位论文归山西师范大学所有,其内容不得以其他单位的名义发表。本人完全了解山西师范大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权山西师范大学可以采用影印、缩印或其他复制手段保存论文,本人同意《中国博士学位论文全文数据库》、《中国优秀硕士学位论文全文数据

3、库》出版章程的内容,愿意将本人的学位论文委托研究生院向中国学术期刊(光盘版)电子杂志社投稿,希望《中国博士学位论文全文数据库》、《中国优秀硕士学位论文全文数据库》给予出版,并同意在CNKI系列数据库中使用,同意按章程规定享受相关权益。(保密的学位论文在解密后适用本授权书)学位论文作者签名:指导教师签名:日期:日期:学位论文作者毕业后去向:工作单位:电话:通讯地址:邮编:摘要论文题目:基于Hadoop云平台的分布式支持向量机研究专业:计算机应用技术硕士生:牛科签名:指导教师:贾郭军签名:摘要支持向量机(SupportVectorMachine,SV

4、M)是Vapnik等人提出的一种基于统计学理论的机器学习算法。该算法在建立在统计学习理论的VC维理论和最小化结构风险原理的基础上,在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能。因此,这种新型的机器学习方法越来越受到各个领域的专家和学者们的青睐,日益成为数据挖掘技术中解决分类和回归问题的一个强有力的工具。然而,随着数据集规模的逐渐增大,SVM算法在训练过程中寻找全局最优支持向量的过程变的十分缓慢,并且占用大量的计算机软硬件资源,甚至无法在有效的时间和实际环境允许的条件下得到训练模型。云计算的提出为海量数据挖掘技术的发展带来了曙光。

5、凭借云平台分布式文件系统强大的存储能力,同时将传统的数据挖掘算法进行分布式并行化处理,给海量数据挖掘技术的发展提供了良好的契机。本文从Hadoop云平台的分布式文件系统(HadoopDistributedFileSystem,HDFS)和分布式编程框架MapReduce两个方面对当前最流行的开源云计算平台Hadoop进行了阐述,同时,对MapReduce计算框架的内部运行机制进行了深入剖析,并在Linux环境下基于Hadoop-1.0.0版本搭建了完全分布式的Hadoop云平台。Hadoop云平台依靠HDFS实现了对大规模数据集的分块存储。本文通

6、过读取hdfs-site.xml配置文件中的dfs.block.size属性,将数据集按照容量大小进行了划分,然后,对分配在datanode节点上的每个block采用基于MapReduce编程框架的并行SVM算法进行并行化训练。传统的支持向量机算法在训练过程中的参数设置主要依赖于经验值的选取。本文在并行SVM算法训练过程中,采用了遗传算法对支持向量机的核函数类型、惩罚因子以及核函数参数进行了组合优化。实验结果分析表明,与依赖于经验值进行参数设置的传统SVM算法相比,采用遗传算法进行参数组合优化的SVM算法的预测精度得到了比较显著的提高。在UCI标

7、准数据集上从训练时间、预测精度等方面对本文所提出的算法的可行性以及表现性能I山西师范大学学位论文进行了的一系列实验分析,结果表明,并行化的SVM算法与传统的SVM算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低。同时,本文使用加速比分析了并行算法所需的训练时间与Hadoop集群中计算节点数目之间的关系。实验结果分析表明,随着集群中计算节点数目的不断增加,加速比呈现出较快的上升趋势。【关键词】Hadoop云平台海量数据挖掘遗传算法支持向量机【论文类型】应用IIAbstractTitle:Researchofdistribu

8、tedsupportvectormachine(SVM)basedonHadoopcloudplatformMajor:Computer

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。