hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文

hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文

ID:252132

大小:5.26 MB

页数:70页

时间:2017-07-14

hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文_第1页
hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文_第2页
hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文_第3页
hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文_第4页
hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文_第5页
资源描述:

《hadoop平台下基于SVM主动学习的分类算法研究硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文Hadoop平台下基于SVM主动学习的分类算法研究ResearchonClassificationAlgorithmBasedonActiveLearningSVMinHadoopPlatformADissertationSubmittedfortheDegreeofMasterCandidate:PanXingjiangSupervisor:Prof.WenGuihuaSouthChinaUniversityofTechnologyGuangzhou,China学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所

2、取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权    大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名

3、:日期:年月日导师签名:日期:年月日华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子

4、版,允许学位论文被查阅(除在保密期内的保密论文外);学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于:□保密,在年解密后适用本授权书。□不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览。(请在以上相应方框内打“√”)作者签名:日期:指导教师签名:日期:摘要实际分类过程中,在解决某些分类问题时,需要进行训练样本集的构建,以为分类模型的产生提供训练样本,但提供的原始样本只有属性,并没有给出类别信息,这样就需要花费大量的时间进行评价、标注每

5、一个样本。为了解决这个问题,则需要研究一种方法能够在减少训练样本的同时,提升分类器的分类性能。于是,主动学习作为解决这类问题的一种方法被提出来,该算法能够从未标注样本集中选择信息量最大的样本交由用户进行标注,在减少所需评价的样本数量的同时,不断完善自身的识别效果。SVM基于结构风险最小化原理,避免了局部最优问题,用核函数在输入空间计算特征空间的向量点积,避免了维数灾难问题,最优分界面使得SVM在小训练样本条件下也具有高的泛化能力。而主动学习算法具有需要训练样例较少,受不平衡训练样例干扰较小等特点,与SVM组合能降低构建高性能分类器的代价,获得较高的分类

6、性能。因此,本文采用主动学习与支持向量机相结合的分类算法,并针对传统SVM主动学习算法对不均衡数据集学习能力较差导致SVM主动学习在选择过程中选择效率较低的问题引入了一种均衡采样的SVM主动学习算法(BC-SVM)。同时,由于初始样本集会影响SVM主动学习的收敛,本文在BC-SVM的基础上采用模糊聚类构建初始样本集,并改进模糊选择算法模型,提出了一种模糊聚类的均衡采样SVM主动学习算法(FBC-SVM),使得初始样本的选取更具代表性和信息量,加速SVM主动学习算法的收敛。同时,本文还分析了SVM主动学习询问机制的算法复杂度,在对Hadoop平台的研究基

7、础上,利用Hadoop对SVM主动学习询问机制进行Map/Reduce化,使Hadoop对SVM主动学习询问机制能并行地运行在Hadoop平台之上。在有效地利用了多台计算机的运算能力后,通过实验证明了Hadoop平台下的SVM主动学习询问机制能有效地调度每台计算机的计算资源,减少高维数据分类的运行时间。关键词:主动学习;SVM;hadoop平台;分类IIIAbstractIntheactualclassificationprocess,inordertosolvesomeoftheclassificationproblem,itneedstoconst

8、ructthetrainingsamplesetfortheclassificationmod

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。