欢迎来到天天文库
浏览记录
ID:33502022
大小:2.33 MB
页数:60页
时间:2019-02-26
《基于hadoop的web文本挖掘的关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浙江理工大学学位论文原创性声明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:际钤落日期:加/2年够月衫日学位论文作者签名:酚、於旋日期:力,2年吗月杉日指导教师签名:夕日期:锄·衫}弓月6日,与此同时,如峻的考验,基于分布式文件系统模型实现并行计大型数据集
2、,因现这一技术的关的研究成果,但理论基础,研究了文本预处理算法并对其进行改进,支持向量机算法并对其改进以及并行支持向量机算法的实现。论文主要研究内容及成果如下:l、Hadoop分布式平台及Web挖掘理论。本文对Hadoop两大核心技术即HDFS和MapReduce编程框架进行了深入的研究,并详细介绍了Web挖掘的相关理论及挖掘算法。2、Web文本预处理。本文从文本预处理的流程出发,研究了预处理过程的具体步骤及其相关算法。由于在传统的特征项表示模型中,没有充分考虑权值较小特征项的影响,因此,本文提出了改进的特征项表示
3、模型。在该模型中,首先求得所有特征向量的平均值,再对其进行标准化,使得所有的特征项在同一起点上对文本分类起作用。最后通过实验验证了改进特征项表示模型的优越性。3、改进的支持向量机算法及其并行实现。在该部分,首先详细研究了支持向量机算法,并针对现有算法存在的问题,提出了改进的支持向量机算法,即通过改变核函数,从而提高算法的学习泛化能力,使得分类器分类效果更好,同时,考虑到分类器的分类时间问题,本文利用相应的并行策略实现支持向量机的并行算法,并将其部署到Hadoop分布式平台,最后通过实验验证了改进支持向量机算法的优越
4、性和并行支持向量机算法的有效性。4、搭建了Hadoop集群环境,使用java语言实现了支持向量机分类器的构建,并通过分类器评价指标对分类器进行评价。关键词:云计算;文本挖掘;SVM;Hadoop;并行计算storedinthehadoopdistributedfilesystem,andMapReduceprogrammingframeworkisusedtorealizeparallelcomputing.Becauseitisconvenientandfasttorealizecomputerclusteran
5、dhandlelargedataset,itismeaningfultotransplantthetraditionaldataminingmethodstothehadoopplatform,andthekeytothetechnologyistheparallelismrealizationoftraditionaldatamining.Sofar,thedataminingresearchbasedonhadoophasmadesomeresearchresultsinsomefields,butfurthe
6、rpromotionisstillneededinthefieldofresearch.Baseonthetheoryofcloudcomputinganddatamining,thispapermainlystudiesthetextpretreatmentalgorithmanditsimprovement,thesupportvectormachines(SVM)anditsimprovementandtherealizationoftheparallelSVMalgorithm.Themaincontent
7、sandresearchresultsareasfollows:1.TheresearchofHadoopdistributedplatformandWebminingtheory.Inthispart,thein—depthresearchofHDFSandMapReduceprogrammingframeworkismade,andthenwebminingtheoryandalgorithmisintroducedindetail.2.Pretreatmentofthewebtext.Fromtheangle
8、ofwebtextpretreatment,theconcretestepsandrelatedalgorithmofpretreatmentprocessareresearched.Inthetraditionalfeaturemodel,theinfluenceofcharacteristicvectorwhoseweightsissmallisnotf
此文档下载收益归作者所有