欢迎来到天天文库
浏览记录
ID:35065318
大小:2.68 MB
页数:70页
时间:2019-03-17
《基于支持向量机的海量文本分类并行化技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于支持向量机的海量文本分类并行化技术研究任倚天2016年1月中图分类号:TP391UDC分类号:004.6基于支持向量机的海量文本分类并行化技术研究作者姓名任倚天学院名称计算机学院指导教师闫波答辩委员会主席蔡继红研究员申请学位级别工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2016年01月MassiveTextClassificationParallelizationTechnologyBasedonSupportVectorMachineCandidateName:YitianRenSchoolorDepartment:ComputerS
2、cienceandTechnologyFacultyMentor:BoYanChair,ThesisCommittee:Prof.JihongCaiDegreeApplied:MasterofScienceMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2016研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发
3、表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要随着互联网的发展,网络中的信息数据以前所未有的速度快速增加着。文本作为网络数据的主要表现形式之一,蕴含着丰富的信息。文本分类技术是自然语言处理的重要部分,通过文本分类能挖掘到文本数据很多潜在的价值。互联网上的数据挖掘技术往往伴随着海量规模的数据集。计算速度是这类问题重点优化的因素之一。通过算法并行化可以提高计算速度。使用计算机集群或图形处理
4、器等硬件环境则可以提高算法的并行计算能力。本论文目的是提高海量文本分类的精度与速度,分析了文本分类技术与并行化技术。介绍了中文文本处理的分词、去停用词、文本向量表示、特征选择、权重计算过程,对比了不同分类算法的特点,并介绍了人工智能优化算法。本文选择了GPU、Hadoop以及Spark的并行计算平台进行介绍与分析。对文本分类精度的提高,本文提出了文本特征空间迭代优化算法。算法针对每次生成的特征空间存在的如类别混淆等不足进行修正,以生成新的特征空间提高分类精度。此外,引入粒子群优化算法用于径向基核函数支持向量机的参数调优,以找到具有更高精度的径向基核参数。对分类速度的
5、提高,是通过算法并行化达到的。本文对文本的预处理、线性核与径向基核函数的支持向量机均进行了并行实现,通过将算法中迭代部分进行高并发计算、将算法中适合拆分的部分使用Map/Reduce进行计算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了计算速度,扩展了算法处理的数据规模。在实验的设计与实施上,本文进行了新闻文本分类与微博情感分类两组实验。两组数据集具有各自的特点,分别代表了两种文本分类的实际应用。文本特征空间迭代优化算法对新闻分类效果显著,妥善处理了类别之间的混淆情况。微博正文附加评论的方法扩展了文本内容,加上粒子群调优的径向基核支持向量机
6、,微博情感分类也有较高的精度。数据集的规模从小到大,使用串行算法耗费很长时间的数据集,通过并行实现能够达到生产环境中可以接受的较短时间。关键字:文本分类;支持向量机;并行计算;特征空间I北京理工大学硕士学位论文ABSTRACTWiththedevelopmentoftheInternet,thedatainthenetworkincreasesrapidlyatanunprecedentedpace.Asoneofthemainformsofdata,textcontainsrichinformation.Textclassificationisanimportan
7、tpartofnaturelanguageprocessing(NLP).Alotofpotentialvaluecanbeminedintextdatawithtextclassification.Dataminingtechnologyisalwaysdealingwithmassivedata.Executionspeedisamainfactorofthiskindofproblem.Parallelalgorithmscanimprovetheexecutionspeed.Graphicprocessingunitsorcomputerclusters
此文档下载收益归作者所有