欢迎来到天天文库
浏览记录
ID:26757425
大小:2.19 MB
页数:75页
时间:2018-11-29
《基于大数据的网络舆情分析系统模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于大数据的网络舆情分析系统模型研究作者姓名马梅导师姓名、职称刘东苏教授一级学科图书情报与档案管理二级学科情报学申请学位类别管理学硕士提交毕业论文日期2014年12月107011025121799学号学校代码分类号G350密级公开西安电子科技大学硕士学位论文基于大数据的网络舆情分析系统模型研究作者姓名:马梅一级学科:图书情报与档案管理二级学科:情报学学位类别:管理学硕士指导教师姓名、职称:刘东苏教授提交日期:2014年12月ResearchontheNetworkPublicOpinionAnalysisS
2、ystemModelBasedonBigDataAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinInformationScienceByMaMeiSupervisor:Prof.LiuDongsuDecember2014西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。
3、尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允
4、许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,获得学位后结合学位论文研究成果撰写的文章,署名单位为西安电子科技大学。保密的学位论文在___年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要互联网的快速普及,使网络成为社会舆论发布和传播的主要渠道之一。同时,由于各类网络服务的使用和发展,舆情信息的载体和内容形式也呈现出多样化的特点,不仅包括传统的电子邮件、门户网站、博客、贴吧、论坛还有新兴产生的微博、微信等,舆情的内容也不仅仅承载于新闻
5、、评论、意见转发等,还包括各种多媒体舆情,表现出极大的不可控性。作为政府机关和相关研究机构了解民情民意的直接平台和政府必须坚守的舆论阵地,如果网络舆论被图谋不轨者引导和控制,则很有可能会危及社会的安全和稳定。然而在大数据时代,互联网产生的各种数据每天以PB规模增加,对舆情信息的挖掘和分析提出了新的挑战,因此,如何高效的从大数据时代的海量数据中挖掘和辨别出舆情信息,有很大的现实意义。本文针对这一问题,通过分析舆情分析系统的整体流程,结合大数据技术,构建了大数据环境下网络舆情分析系统模型,并对系统组成模块的工作
6、流程和实现方式做了详细设计。主要工作及研究成果如下:1.研究了网络舆情分析的关键技术,深入分析了信息采集、信息预处理、文本聚类的各个步骤以及其涉及的关键技术和解决方法,分析了Hadoop的两大核心组成部分,HDFS分布式文件系统和MapReduce分布式并行计算模型的架构和工作流程。2.完成了大数据环境下网络舆情分析系统模型的整体设计,设计模型图,详细分析舆情信息采集、舆情信息预处理、舆情信息分析、舆情报告四个组成模块在大数据环境下的具体功能和实现流程。3.分析了信息采集、信息预处理、文本聚类三个阶段的可并
7、行性,将上述过程进行优化。使用HDFS将文本分块存储在集群的不同节点上,利用MapReduce分布式并行计算模型和TFIDF权重计算方法和K-means聚类方法将处理过程分成map和reduce两个步骤进行分布式并行计算,提高了处理大批量数据的效率。4.利用普通PC机构造Hadoop集群,搭建实验所需的软硬件环境,对各项实验参数进行设置,对设计的基于MapReduce的分布式并行信息采集、文本预处理、特征选择、文本向量化、文本聚类过程进行实验验证,通过与常用处理方式对比,证明优化后系统的可扩展性和高效性。关
8、键词:大数据,网络舆情,Hadoop,分布式,MapReduce论文类型:基础研究类I西安电子科技大学硕士学位论文IIABSTRACTABSTRACTWithrapidpopularizationofInternet,Internetbecomesoneofthesignificantchannelsofnetworkpublicopinionbroadcasting.Atthesametime,astheres
此文档下载收益归作者所有