基于spark的web文本挖掘系统的研究与实现

基于spark的web文本挖掘系统的研究与实现

ID:35058672

大小:3.89 MB

页数:62页

时间:2019-03-17

基于spark的web文本挖掘系统的研究与实现_第1页
基于spark的web文本挖掘系统的研究与实现_第2页
基于spark的web文本挖掘系统的研究与实现_第3页
基于spark的web文本挖掘系统的研究与实现_第4页
基于spark的web文本挖掘系统的研究与实现_第5页
资源描述:

《基于spark的web文本挖掘系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类I号:TP391单位代码:10183研究生学号:2013544115密级:公开吉林大学硕士学位论文(专业学位)基于Spark的Web文本挖掘系统的研究与实现AStudyandImplementationofWebTextMiningSystembasedonSpark作者姓名:张馨允类别:工程硕士领域(方向):软件工程吉指导教师:周斌教授培养单位:软件学院2016年5月基于Spark的Web文本挖掘系统的研究与实现AStudyandImplementationofWebTextMiningS

2、ystembasedonSpark作者姓名:张馨允领域(方向):软件工程指导教师:周斌教授类别:工程硕士答辩日期:2016年5月28日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人均不得对本论文,的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则应承担侵权的法律责任。,吉林大学硕±学位论文原创性声明本人郑重声明:所呈交的硕±学位论文,是本人在指导教师的指导下,独立进行

3、研究工作所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名;长J日期;2016年4月8日摘要基于Spark的Web文本挖掘系统的研究与实现社交网络、在线媒体/社区、电子商务等网站的飞速发展,催生了互联网上数以亿计的Web文本数据。与传统的文本信息相比,Web文本具有规模性和异构性的特点,对其进行整合及分

4、析的过程更为复杂。因此,如何通过有效手段,从纷繁复杂的Web文本数据中快速获取、整合有价值的信息和知识是近年来文本挖掘领域的热点问题。而进入21世纪,随着云计算、分布式存储以及数据挖掘等信息处理技术的日渐成熟,以HadoopMapReduce和Spark为代表的大数据并行计算框架应运而生。其中,Spark基于内存计算,具有高效的数据处理能力,并提供对实时、交互式的数据访问支持,克服了MapReduce在需要大量迭代计算的数据挖掘和机器学习算法中的明显不足,更适用于构建低延迟的大数据处理应用。鉴于

5、此,本文基于新一代大数据并行运算框架Spark,进行了Web文本挖掘系统的研究与实现,主要工作包含以下四部分:1.在Web文本挖掘系统的基础知识准备部分,首先对Web文本挖掘的概念和具体流程进行了深入研究;然后,对大数据分析引擎的重点技术进行了详细介绍,包括并行计算框架Spark和分布式文件系统HDFS;最后,对Web文本挖掘系统所涉及的其他概念和技术,包括机器学习、网络爬虫以及文本信息可视化做出了简要概括。2.在Web文本挖掘系统的算法准备部分,首先对文本特征提取算法TF-IDF进行研究改进,

6、并且在Spark并行计算的环境下对其进行了应用研究和讨论;然后,对LDA主题模型及其改进模型Labeled-LDA的原理进行了深入研究。3.在Web文本挖掘系统的总体设计部分,以IT社区/在线新闻、技术博客等更新速度快、信息量大、知识涵盖面广且原始文档分类信息较完善的中文计算机技术类网站内容为分析对象,以帮助用户快速识别、整合海量文本数据中的热点内容和热门主题为应用目标,进行了Web文本挖掘系统的功能需求分析、I总体架构以及模块划分等工作。4.在Web文本挖掘系统的详细设计和编码实现部分,首先进

7、行了大数据运行架构的环境搭建及部署;然后根据总体设计的结果编码实现了系统的三个主要功能模块,包括信息采集模块、文本分析模块以及文本信息可视化模块;最后将系统应用于若干技术类网站的文本挖掘中,通过运行速率及挖掘结果证实了系统的可行性和实用性。关键词:Web文本挖掘,Spark,TF-IDF,LDA主题模型IIAbstractAStudyandImplementationofWebTextMiningSystembasedonSparkTherapiddevelopmentofsocialnetwo

8、rks,onlinemedia/communityande-commercewebsitesgavebirthtohundredsofmillionsofWebtextdataontheInternet.Comparedwithtraditionaltextmessages,Webtexthasthecharacteristicsofscaleandheterogeneitywhichmaketheitsintegrationandanalysismorecomplicated.Thus,how

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。