一种分布式的舆情分析系统架构

一种分布式的舆情分析系统架构

ID:37288107

大小:863.89 KB

页数:7页

时间:2019-05-20

一种分布式的舆情分析系统架构_第1页
一种分布式的舆情分析系统架构_第2页
一种分布式的舆情分析系统架构_第3页
一种分布式的舆情分析系统架构_第4页
一种分布式的舆情分析系统架构_第5页
资源描述:

《一种分布式的舆情分析系统架构》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据万方数据万方数据万方数据web浏览器图4系统架构JavaScdpt、HTML、CSS等,数据存储使用了HDFs、Hbase、MySQL、Redis等,开发环境是Linll】【+Hadoop+MyEclipse+Tomcal。3.1Hadoop分布式集群Had00p是一个开源的分布式系统基础架构,由Apache基金会开发。对于该框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的高速运算和存储功能【9】。与其他分布式计算的不同主要体现在以下几点【10】:·方便.运行在由一般商用机构成的大型集群上;·顽健.致力于在一般商用硬件

2、上运行,其架构假设硬件会频繁地出现失效,可以从容地处理大多数此类故障;·可扩展,通过增加集群节点,可以线性地扩展以处理更大的数据集:·简单.允许用户快速编写出高效的并行代码。基于Had00p的分布式文件系统(HDFS)和分布式数据库(Hbase)为海量数据的存储提供了很好的解决方案。HDFs有着高容错性的特点,并且用来部署在低廉的硬件上,提供高吞吐量来访问应用程序的数据,适合有着超大数据集的应用程序:Hb鹊e是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC服务器上搭建起大规模结构化存储集群。Hadoop的核心部分M印

3、Reduce提供一种可用于数据处理的编程模型,能够很好地和HDFS、Hbase结合编写处理大量数据的并行处理程序。基于Hadoop的以上优点,系统使用Hadoop集群作为分布式平台进行数据的存储、检索以及复杂任务的计算。在系统的实现上.Hbase用于爬取数据的存储,包括用户的信息和微博的信息,并向系统提供检索服务。基于Hadoop使用Lucene搭建搜索引擎,编写MapReduce程序创建索引,并将索引表写到HDFs上。对于实时爬取的微博,能够及时地创建索引,提供实时的检索。在大量微博中对热点词和敏感词的分析,也基于MapReduce的并行功能实现。集群

4、由5台机器组成,其中一台为主用机器,配置为CPU双核、内存4GB、硬盘looGB,另外4台配置均为CPU双核、内存4GB、硬盘100GB。3.2爬虫模块爬虫模块使用新浪微博提供的Ⅲ获取数据,由于新浪微博对每个IP地址的访问在时间和次数上都做了限制。这样,对于一台机器来说,每个小时获取到的数据量是比较少的。基于架构的设计,采用多台机器并行爬取的策万方数据略可以解决个问题。对于新浪微博来说,爬取的数据包括博主信息(如ID、昵称、好友、粉丝、微博数等)和微博信息(如ID、内容、转发数、评论数等)。爬取过程为:使用微博账号登录.+授权_÷获取分配的任务-+开始获

5、取数据_数据格式转换_写入数据库。爬取过程中可能会出现重复爬取博主信息和微博信息,系统采用Redis内存数据库进行控制.把已经爬取过的博主ID和微博ID存到Redis中.如果爬取到博主或微博已在Redis中,则丢弃该条信息。对于爬取的数据,以ison格式存在,进行相应的转化后以对象形式(二进制编码)存到Hbase上,Hbase表的结构设计见表l。另外,爬虫模块还提供对特定微博或博主信息的爬取,以实时监控某条微博或者博主的动态。表1Hbase表的结构设计3.3Web模块Web模块采用B/S模式开发,前端使用HTML、Javascript和CSS等技术,后台

6、基于Scmls2+Sprin93框架搭建。前端使用图形的方式对微博的转发关系、用户的好友关系、传播趋势等进行可视化展示:后台通过StJlJcs2的action响应浏览器的请求,然后通过调用Spring提供服务,最后把结果返回到浏览器。S【nlts2是一个使用MVC的开发模式框架。使得业务逻辑层与表现层之间的功能变得更加明确,从而也更加容易维护。使用S州ng框架实现数据的持久化,并提供相应的服务接口,同时也与Hadoop分布式集群进行通信。使用Spring的咖otation进行开发,使得代码简洁、可维护性好。对于使用用户的信息以及操作的相关信息,则保存在M

7、ysQL数据库中。Web模块部署到T0mcal服务器上运行.可以对关键词或者博主名进行搜索,对搜索的关键词和博主进行监控。对搜索返回的微博。可以查看该微博的转发关系、来源分布、区域分布、随时间变化的转发次数趋势,也可以关注博主的信息,包括博主的情感倾向、所发微博中频繁出现的词以及社区关系等。对于用户关注的关键词和博主,在每次登录系统时,如果出现与关注信息相关的微博,系统会自动产生预警。页面还对微博中近段时间(60rIlin,30min,15min)出现的热点词进行敏感词统计分析,以及时发现微博中出现的热点信息。系统还允许用户设定任务.用户可以设定相关的条

8、件,当系统检测到条件满足时,自动执行用户的任务。3.4lhr.fl通信thrif

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。