欢迎来到天天文库
浏览记录
ID:35058692
大小:6.57 MB
页数:67页
时间:2019-03-17
《基于spark的舆情分析架构研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代号:U8分类号:45UDC::21:密级学号11305057广东工业大学硕±学位论文(工程硕±)基于Spark的舆情分析架构研究谭造乐、校内导师姓名职称:郝志峰教授校外导师姓名、职称:卢宇高级工程师学科:计算机巧术(专业)或领域名称学生所属学院:计算机学院二〇—论文答辩日期:六年五月ADissertationSubmited化GuangdongUniversityofTechnologyfortheDegreeofMa
2、sterMasterofEnineerin(gg)ResearchonSparkBasedPublicOpinionAnalysisArchitectu巧Candidate:TanZaoleSuervisor:Prof.HaoZhifenpgMay2016SchoolofComputerScienceandTechnologyGuangdongUnive巧巧yofTechnologyGuanzhouGuandonP.R.
3、China510006g,,,gg摘要摘要舆情分析通过对互联网海量信息进行自动抓取、自动分类聚类等技术,形成简报、,图表等分析结果为客户全面掌捏群众思想动态,做出正确舆论引导提供分析依据。、随着移动互联网,互联网用户呈、电子商务社交网络等甘联网新兴巧术普及和应用现爆炸性增长。因此,高效海量数据处理架构对舆情分析具有重要研巧意义。本文结合新浪微博,基于大数据处理技术,探讨了构建基于Spark的舆情分析架构的可行性:1、,。论文主要做了W下几方面工作设计整体架构搭建
4、Hadoop分布式平台对海量数据进行存储和处理,通过分布式列式数据库HBase和Lucene相结合,在满足海量数据存储的基础上,提高了数据检索和读写性能。2、在数据采集模块,针对一当今广泛使用的模拟登陆和基于AP,I采集方案的缺陷设计个高效稳定的数据采集方案,具体包括通过内存数据库Redis来控制待爬队列、更新队列和己爬集合,在避免重复采集的同时能及时对数据进行更新,,;针对巧限制问题提出流动性的代理池机制通过池中代理不断调度更新,使得池中代理能针对不同网页而发挥其最大功效,同时
5、保证数据抓取的高效性和稳定性,提高采集效率3、adoo。为从本质上突破Hp在文本-聚类上的瓶颈,本文在文本聚类模块中使用基于却ark的改进Kmeans算法实现。具体包括在预处理阶段,针对微博持征项比较少的缺点,使用word2vec工具对特征项进-means算法行扩展K值选择和簇必初始化问题上优化K,Sark;在并将p框架应用于-优化的Kmeans算法,对文本数据进巧并行处理使得架构在文本聚类上更加离效快捷,,从而提高整个架构的性能一。4、针对架构提出种基于资源信息増益的瓶颈检测方
6、法。该方法通过监控集群的响应满意度(ResonseSatisfactionRS,p,)来发现瓶颈的出现然后通过资源使用率和响应满意度样本计算各类资源的信息增益,W确定具体的瓶颈资源。一舆情分析作为愈发强大的社会建设力量,网络舆情己经成为股不容忽视的社会力量。故对网络舆情的分析对社会发展具有重要意义其在应用和研究上都有着巨大的前景,故对舆情分析架构研究势在必行,。实验结果表明本文构建的舆情分析架构能很好的适应对海量数据的舆情分析,能达到较为理想的数据采集和数据处理效果,对处
7、理大规模数据的舆情分析具有可行性。:舆情分析ark关键字;数据采集;Sp;文本聚类;瓶颈检测IAbracsttAbstractPublicoinionanalsiseneratesbriefreortschartsandotheranalsisresultsthrouhpygp,ygautomaticallycapturingclassificationandclusterinthemassiveinformationintheInterne
8、t.,gTheanalysisresultsrovideanalticalsuorttodecisionmakerswhocanhavecomletepyppp,ucontrolofthepeoplesideologicaltrends,andmakethecorrectidanceofublicoinions.gppoandabdIt-Withtheularitlica
此文档下载收益归作者所有