欢迎来到天天文库
浏览记录
ID:22961823
大小:697.50 KB
页数:28页
时间:2018-11-02
《舆情卫士监测平台技术设计方案》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、舆情卫士监测系统技术方案中国移动通信集团安徽省有限公司安庆分公司2017年5月目录1总体需求31.1建设目标31.2功能需求31.2.1互联网海量信息采集子系统41.2.2海量信息存储子系统41.2.3海量信息检索子系统51.2.4互联网云数据分析处理子系统51.3性能需求61.4其他需求62技术方案72.1翼腾云计算概述72.2总体设计概述92.3系统架构图112.4业务流程图132.5数据中心简介142.6.1海量互联网信息采集子系统162.6.1.1通用采集技术162.6.1.2互联网信息采集182.6.2海量信息检索子系统192.6.3大
2、数据分析处理子系统212.6.3.1信息及数据处理222.6.3.2舆情及敏感信息分析242.6.4用户权限管理262.6.5安全子系统272.6.6手机舆情281总体需求1.1建设目标建设****舆情监测系统,其实质在于利用信息化技术,建立专业的网络信息监测与管理平台,及时、全面、准确收集、分析互联网上一切与教育领域所相关的信息,进而做好研判和处置工作,健全制度、完善机制,及时了解把握情况,准确判断舆情发展趋势,掌握工作的主动权。建设****舆网络舆情监测系统,以达到舆情监测与分析应对工作全面覆盖、有序管理、多方联动的效果。提高师范大学网络舆情
3、突发事件的应急处置水平,明确网络舆情突发事件预防、预警、应对的程序,使得可及时、准确发布有关信息,澄清事实,引导舆论,妥善处理。1.2功能需求大数据时代,面对海量的互联网数据,要充分挖掘并分析出有用的舆情信息,单纯靠小规模的舆情系统软件已不足以满足要求。必须要能够利用大数据技术,建立起海量数据中心级别的舆情数据中心,才可以支撑越来越庞大的舆情管理与应用。数据中心建设应广泛采用集群应用、分布式数据存储、分布式计算等云技术。可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现。1.1.1互联网海
4、量信息采集子系统网络媒体形式全,可以对各类网络媒体进行监测:1)门户网站:系统可采集以媒体发布为主的新闻网站的信息;2)论坛:各种形式的BBS、贴吧、论坛、社区;3)博客:各博客网站的博客信息;4)微博:各微博网站信息监测;5)电子报:各类报纸的电子报的信息监测;6)问答:对问答类网站的采集;7)视频:对视频网站文字信息的采集;8)WAP:对WAP网站信息的采集;9)搜索引擎:对搜索引擎信息的聚合;10)微信公众账号采集。1.1.2海量信息存储子系统实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营
5、的高可用性问题。1)可存贮至少三个月的历史数据;2)可通过统一的系统界面监测所有服务器的运行状况,及时发现并处理出现的任何状况;1)具有完整的容灾备份方案。1.1.1海量信息检索子系统采用分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。1.1.2互联网云数据分析处理子系统信息及数据处理主要是针对采集入库后的数据进行整理、处理。主要技术和功能包括:(1)漏斗式过滤技术:采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和
6、热点资讯。(2)中文分词:采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。(3)要素分析对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。(4)数据挖掘:关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:1)分析出舆情高发网站及频道;2)分析出舆情高发人群;3)推荐网民关注度高的舆情;4)筛选新词、热门话题;5)关联性分析:采用智能关联技术将与一条新闻相关
7、的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。1.1性能需求1)常规监测信息源数量3万个以上;2)日均采集信息量300万条以上;3)信息采集效率在30分钟以内;4)数据中心数据可提供PC端、移动端等不同方式的信息检索,检索效率在5秒钟以内;1.2其他需求1)可针对客户要求给出详细的硬件配置方案;2)基于数据中心的监测平台系统架构图;并详细描述所采用的技术及方法等。3)系统部署的拓扑图;4)可以统一管理各服务器的运行并监测其运行状况;1技术方案1.1翼
8、腾云计算概述“云计算”是一个很时尚的概念,它既不是一种技术,也不是一种理论,而是一种商业模式的体现方式。“计算与数据”跷跷板的平衡已发生
此文档下载收益归作者所有