基于spark的舆情分析架构研究

ID：35058692

大小：6.57 MB

页数：67页

时间：2019-03-17

资源描述：

《基于spark的舆情分析架构研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、学校代号：Ｕ８分类号：４５ＵＤＣ：：２１：密级学号１１３０５０５７广东工业大学硕±学位论文（工程硕±）基于Ｓｐａｒｋ的舆情分析架构研究谭造乐、校内导师姓名职称：郝志峰教授校外导师姓名、职称：卢宇高级工程师学科：计算机巧术（专业）或领域名称学生所属学院：计算机学院二〇—论文答辩日期：六年五月ＡＤｉｓｓｅｒｔａｔｉｏｎＳｕｂｍｉｔｅｄ化ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙｆｏｒｔｈｅＤｅｇｒｅｅｏｆＭａ

2、ｓｔｅｒＭａｓｔｅｒｏｆＥｎｉｎｅｅｒｉｎ（ｇｇ）ＲｅｓｅａｒｃｈｏｎＳｐａｒｋＢａｓｅｄＰｕｂｌｉｃＯｐｉｎｉｏｎＡｎａｌｙｓｉｓＡｒｃｈｉｔｅｃｔｕ巧Ｃａｎｄｉｄａｔｅ：ＴａｎＺａｏｌｅＳｕｅｒｖｉｓｏｒ：Ｐｒｏｆ．ＨａｏＺｈｉｆｅｎｐｇＭａｙ２０１６ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＧｕａｎｇｄｏｎｇＵｎｉｖｅ巧巧ｙｏｆＴｅｃｈｎｏｌｏｇｙＧｕａｎｚｈｏｕＧｕａｎｄｏｎＰ．Ｒ．

3、Ｃｈｉｎａ５１０００６ｇ，，，ｇｇ摘要摘要舆情分析通过对互联网海量信息进行自动抓取、自动分类聚类等技术，形成简报、，图表等分析结果为客户全面掌捏群众思想动态，做出正确舆论引导提供分析依据。、随着移动互联网，互联网用户呈、电子商务社交网络等甘联网新兴巧术普及和应用现爆炸性增长。因此，高效海量数据处理架构对舆情分析具有重要研巧意义。本文结合新浪微博，基于大数据处理技术，探讨了构建基于Ｓｐａｒｋ的舆情分析架构的可行性：１、，。论文主要做了Ｗ下几方面工作设计整体架构搭建

4、Ｈａｄｏｏｐ分布式平台对海量数据进行存储和处理，通过分布式列式数据库ＨＢａｓｅ和Ｌｕｃｅｎｅ相结合，在满足海量数据存储的基础上，提高了数据检索和读写性能。２、在数据采集模块，针对一当今广泛使用的模拟登陆和基于ＡＰ，Ｉ采集方案的缺陷设计个高效稳定的数据采集方案，具体包括通过内存数据库Ｒｅｄｉｓ来控制待爬队列、更新队列和己爬集合，在避免重复采集的同时能及时对数据进行更新，，；针对巧限制问题提出流动性的代理池机制通过池中代理不断调度更新，使得池中代理能针对不同网页而发挥其最大功效，同时

5、保证数据抓取的高效性和稳定性，提高采集效率３、ａｄｏｏ。为从本质上突破Ｈｐ在文本－聚类上的瓶颈，本文在文本聚类模块中使用基于却ａｒｋ的改进Ｋｍｅａｎｓ算法实现。具体包括在预处理阶段，针对微博持征项比较少的缺点，使用ｗｏｒｄ２ｖｅｃ工具对特征项进－ｍｅａｎｓ算法行扩展Ｋ值选择和簇必初始化问题上优化Ｋ，Ｓａｒｋ；在并将ｐ框架应用于－优化的Ｋｍｅａｎｓ算法，对文本数据进巧并行处理使得架构在文本聚类上更加离效快捷，，从而提高整个架构的性能一。４、针对架构提出种基于资源信息増益的瓶颈检测方

6、法。该方法通过监控集群的响应满意度（ＲｅｓｏｎｓｅＳａｔｉｓｆａｃｔｉｏｎＲＳ，ｐ，）来发现瓶颈的出现然后通过资源使用率和响应满意度样本计算各类资源的信息增益，Ｗ确定具体的瓶颈资源。一舆情分析作为愈发强大的社会建设力量，网络舆情己经成为股不容忽视的社会力量。故对网络舆情的分析对社会发展具有重要意义其在应用和研究上都有着巨大的前景，故对舆情分析架构研究势在必行，。实验结果表明本文构建的舆情分析架构能很好的适应对海量数据的舆情分析，能达到较为理想的数据采集和数据处理效果，对处

7、理大规模数据的舆情分析具有可行性。：舆情分析ａｒｋ关键字；数据采集；Ｓｐ；文本聚类；瓶颈检测ＩＡｂｒａｃｓｔｔＡｂｓｔｒａｃｔＰｕｂｌｉｃｏｉｎｉｏｎａｎａｌｓｉｓｅｎｅｒａｔｅｓｂｒｉｅｆｒｅｏｒｔｓｃｈａｒｔｓａｎｄｏｔｈｅｒａｎａｌｓｉｓｒｅｓｕｌｔｓｔｈｒｏｕｈｐｙｇｐ，ｙｇａｕｔｏｍａｔｉｃａｌｌｙｃａｐｔｕｒｉｎｇｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｃｌｕｓｔｅｒｉｎｔｈｅｍａｓｓｉｖｅｉｎｆｏｒｍａｔｉｏｎｉｎｔｈｅＩｎｔｅｒｎｅ

8、ｔ．，ｇＴｈｅａｎａｌｙｓｉｓｒｅｓｕｌｔｓｒｏｖｉｄｅａｎａｌｔｉｃａｌｓｕｏｒｔｔｏｄｅｃｉｓｉｏｎｍａｋｅｒｓｗｈｏｃａｎｈａｖｅｃｏｍｌｅｔｅｐｙｐｐｐ，ｕｃｏｎｔｒｏｌｏｆｔｈｅｐｅｏｐｌｅｓｉｄｅｏｌｏｇｉｃａｌｔｒｅｎｄｓ，ａｎｄｍａｋｅｔｈｅｃｏｒｒｅｃｔｉｄａｎｃｅｏｆｕｂｌｉｃｏｉｎｉｏｎｓ．ｇｐｐｏａｎｄａｂｄＩｔ－Ｗｉｔｈｔｈｅｕｌａｒｉｔｌｉｃａ

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 67



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于spark的舆情分析架构研究

基于spark的舆情分析架构研究

相关文章

相关标签