欢迎来到天天文库
浏览记录
ID:37335657
大小:451.63 KB
页数:32页
时间:2019-05-22
《基于Spark的Web文本挖掘系统的研究与实现-beta2 - 副本》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、计算机信息工程学院毕业设计说明书基于Spark的Web文本挖掘系统的研究与实现摘要通信技术与电子技术的高速发展带动了互联网网页的爆发式增长。各类网站由雨后春笋大量出现,数百亿网页散布在整个互联网中。同时各类网页有着自身不同的结构,因此急需一种高效的处理手段来帮助人们快速地从庞大的互联网文本数据集中提取出有价值的信息,用以取代传统的人工数据处理。近年来,以Hadoop框架和并行处理框架Spark为代表的大数据技术开始兴起,为海量数据的存储和处理提供了新的思路和技术支持。尤其是新一代计算框架Spark,由于其底层采用了基于内存的计算,相比Hadoop具备更高的
2、处理效率,同时还提供了对实时计算和交互式数据访问的支持。克服了Hadoop在这些应用中的不足。因此,本系统选择了并行计算框架Spark作为文本挖掘过程的实现工具,以此为基础构建了针对新浪微博舆情热点的Web文本挖掘系统。主要工作可以概括为以下几个部分:1.在系统开发的知识准备和技术了解部分,对Web文本挖掘的基本概念和通用流程进行了研究和介绍;随后按照整个系统的处理流程,对各个部分设计的技术进行了分别介绍,包括网络爬虫、挖掘工具以及数据可视化。其中选取HDFS与并行计算框架Spark框架做了着重介绍。2.在系统的算法研究部分,选取了经典特征提取算法TF-I
3、DF算法进行了深入研究。从算法的原理,优势、不足和改进几个方面分别进行了阐述。着重介绍了算法的原理和内容,同时也提供了关于优化算法的思路。3.在系统的设计部分,将系统按照功能划分分成了三个主要模块:数据采集模块、文本挖掘模块以及数据可视化模块。分模块对每个模块的功能、架构设计进行了介绍,同时确定了各个模块实现的计算选型和执行流程。4.在系统的实现部分,首先介绍了HDFS与Spark框架环境的详细搭建部署过程。随后根据系统设计的编排顺序,对系统三大模块的具体实现做了详细的介绍,包括功能实现和交互实现两个部分。最后对系统进行了运行测试,抓取了约100万微博消息
4、数据进行了初步测试,证实了系统具有良好的可用性。关键词:Web文本挖掘,Spark,大数据,TF-IDF算法,网络舆情V计算机信息工程学院毕业设计说明书ResearchandImplementationofWebTextMiningSystemBasedonSparkAbstractTherapiddevelopmentofcommunicationtechnologyandelectronictechnologyhasledtotheexplosivegrowthofInternetpages.Varioustypesofsiteshaveemerged
5、fromthemushroom,tensofbillionsofpagesscatteredthroughouttheInternet.Atthesametimeallkindsofpageshavetheirowndifferentstructure,soanurgentneedforanefficientmeanstohelppeoplequicklyfromthehugeInternettextdatasettoextractvaluableinformationtoreplacethetraditionalmanualdataprocessing.
6、Inrecentyears,HadoopframeworkandparallelprocessingframeworkSparkastherepresentativeofthelargedatatechnologybegantorise,forthemassdatastorageandprocessingprovidesanewwayofthinkingandtechnicalsupport.Inparticular,thenewgenerationofcomputingframeworkSpark,becauseofitsunderlyinguseofm
7、emory-basedcomputing,comparedtoHadoopwithhigherprocessingefficiency,butalsoprovidesreal-timecomputingandinteractivedataaccesssupport.OvercomingtheshortcomingsofHadoopintheseapplications.Therefore,thesystemchoosestheparallelcomputingframeworkSparkastherealizationtoolofthetextmining
8、process,andbuildstheWebtextmining
此文档下载收益归作者所有