基于hadoopweb文本挖掘关键技术的研究

基于hadoopweb文本挖掘关键技术的研究

ID:32749328

大小:3.67 MB

页数:55页

时间:2019-02-15

基于hadoopweb文本挖掘关键技术的研究_第1页
基于hadoopweb文本挖掘关键技术的研究_第2页
基于hadoopweb文本挖掘关键技术的研究_第3页
基于hadoopweb文本挖掘关键技术的研究_第4页
基于hadoopweb文本挖掘关键技术的研究_第5页
资源描述:

《基于hadoopweb文本挖掘关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江理t大学硕士学位论文摘要随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段,与此同时,如何从海量的数据中提取潜在的有用信息,给传统的数据挖掘技术带来了严峻的考验,基于云计算的数据挖掘的方法也应运而生。Hadoop是云计算技术的一个开源平台,其核心技术主要是Hadoop分布式文件系统(HDFS)和MapReduce编程模型,其中,HDFS存储文件,MapReduce编程模型实现并行计算。由于利用Hadoop框架可以方便、快速地实现计算机集群,能够处理大型数据集,因此,将传统的数据挖掘方

2、法部署到Hadoop平台具有实际的研究意义,实现这一技术的关键就是要对传统数据挖掘技术的并行化。目前为止,基于Hadoop的数据挖掘技术在某些方面已经取得了一定的研究成果,但是该领域的研究还有待进一步推广。本文以云计算技术及数据挖掘技术为理论基础,研究了文本预处理算法并对其进行改进,支持向量机算法并对其改进以及并行支持向量机算法的实现。论文主要研究内容及成果如下:l、Hadoop分布式平台及Web挖掘理论。本文对Hadoop两大核心技术即HDFS和MapReduce编程框架进行了深入的研究,并详细

3、介绍了Web挖掘的相关理论及挖掘算法。2、Web文本预处理。本文从文本预处理的流程出发,研究了预处理过程的具体步骤及其相关算法。由于在传统的特征项表示模型中,没有充分考虑权值较小特征项的影响,因此,本文提出了改进的特征项表示模型。在该模型中,首先求得所有特征向量的平均值,再对其进行标准化,使得所有的特征项在同一起点上对文本分类起作用。最后通过实验验证了改进特征项表示模型的优越性。3、改进的支持向量机算法及其并行实现。在该部分,首先详细研究了支持向量机算法,并针对现有算法存在的问题,提出了改进的支持

4、向量机算法,即通过改变核函数,从而提高算法的学习泛化能力,使得分类器分类效果更好,同时,考虑到分类器的分类时间问题,本文利用相应的并行策略实现支持向量机的并行算法,并将其部署到Hadoop分布式平台,最后通过实验验证了改进支持向量机算法的优越性和并行支持向量机算法的有效性。4、搭建了Hadoop集群环境,使用java语言实现了支持向量机分类器的构建,并通过分类器评价指标对分类器进行评价。关键词:云计算;文本挖掘;SVM;Hadoop:并行计算TheKeyTechnologiesResearchof

5、WebTextMiningBasedonHadoopABSTRACTWiththerapiddevelopmentofinformationtechnology,theproduceandstorageofdatareachesanunprecedentedprosperitystage.Atthesalnetime,howtoextractvaluableandpotentialusefulinformationfromhugedataisabigchallengetothetraditiona

6、ldataminingtechnology,andthedataminingmethodbasedoncloudcomputingarisesattherightmoment.HadoopisanopensourceplatformofcloudcomputingtechnologyanditscoretechnologyishadoopdistributedfilesystemandMapReduceprogrammingmodel.Inthisplatform,filesarestoredin

7、thehadoopdistributedfilesystem,andMapReduceprogrammingframeworkisusedtorealizeparallelcomputing.Becauseitisconvenientandfasttorealizecomputerclusterandhandlelargedataset,itismeaningfultotransplantthetraditionaldataminingmethodstothehadoopplatform,andt

8、hekeytothetechnologyistheparallelismrealizationoftraditionaldatamining.Sofar,thedataminingresearchbasedonhadoophasmadesomeresearchresultsinsomefields,butfurtherpromotionisstillneededinthefieldofresearch.Baseonthetheoryofcloudcomputinganddatami

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。