欢迎来到天天文库
浏览记录
ID:11308365
大小:29.50 KB
页数:8页
时间:2018-07-11
《基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究* 引言 高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校也逐渐重视了网络舆情突发事件的应对机制研究。同时,随着公安部对网络信息安全工作的逐步加强,高校利用自身技术优势,自主构建舆情监测系统并建立一套完善的应对机制正逐渐成为高校网络信息安全工作的重点。因此,在新形势下,遭遇突发事件,高校如何能以
2、最快的速度收集网络上相关信息,跟踪事态发展,及时向有关部门通报,防范网络不良舆情的快速扩散和演化,并建立相应的响应机制,实现对网络舆情的有效管理与控制,使健康的网络舆情成为维护高校稳定,推动社会文明发展的动力,已经成为当前亟需解决的重要课题。 高校的网络舆情信息主要来自两部分,一是内部独立的校园网络,二是外部开放的互联网络。随着高校校园信息化建设的深入发展,校园网中网站、论坛、博客等平台上信息资源数量呈指数级增长,仅依靠人工检索和信息发布审核的方式无法有效实现对网络舆情信息的监测,急需利用技术手段实现对海量网络信息的挖掘与分析,快速汇总成舆情信息;互联网上信息量十分巨大,通过垂
3、直搜索引擎方式所获取的与高校相关的信息往往存在查全率不高的缺陷。高校网络舆情的监测,既要考虑信息采集的深度和广度,又要提高系统的精度与准度;同时对于发现的舆情信息,要能够做到快速定位,有效控制。本系统针对上述高校网络舆情监测工作的不足,并结合网络舆情传播特点,提出了构建高校网络舆情监测系统的整体方案,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。 1系统体系结构 高校网络舆情监测系统主要包括三个功能模块,分别是:校园网舆情信息采集模块、互联网舆情信息采集模块、网络舆情分析与预警模块,体系结构如图1所示。 图1高校网络舆情检测系统
4、体系结构 由于高校对校园网络具有较大的控制权限,一部分信息数据可利用各种信息发布系统的管理平台与数据库的访问权限来获取;另一部分可利用网络爬虫从网页数据中获取,系统基于Nutch搜索引擎技术对校园网内数据进行信息采集,采集的深度与广度都达到了较好的效果。对于互联网上的海量网络信息,如果采用垂直搜联盟索引擎进行数据采集,所获取的数据质量不高,为此系统采用元搜索引擎技术来获取互联网信息,既提高了信息采集的针对性又扩大了采集范围。此外,对于某些特定的互联网网站,可以采取以上两种方式相结合的监测方式,同时采用网络爬虫与元搜索引擎技术,来提高系统的监测精度。 网络舆情分析与预警模块采用
5、关键词特征库匹配方式和机器学习算法自动进行网络舆情监测,实现对舆情信息及时准确的发现,并与短信预警等系统接口实现对接,实现舆情信息的实时发送。 系统主要功能模块 Nutch搜索引擎与校园网信息检索 Nutch是一个开源的Java实现的Web搜索引擎,其在Lucene基础上添加了网页数据抓取功能,提供了构建搜索引擎所需的基本工具模块,包括网络爬虫、文本分析、分词工具、建立索引、搜索功能和结果过滤等。Lucene是一个高性能、可伸缩的信息搜索库,可为Nutch提供了文本索引和搜索的API,也可为应用程序添加索引和搜索功能,通过Lucene的数据库接口直接从数据库中取出数据,用A
6、PI建立索引并提供搜索接口。利用Nutch搜索引擎作为校园网舆情信息采集工具,不但可以缩短开发周期,提高开发效率,而且通过其内部的接口和插件机制可以实现对校园网数据的高质量采集。网络爬虫模块用来实现对校园网内网页文件的信息采集;Lucene接口实现与各种异构数据库的连接;利用Nutch的插件机制,采用POI插件和PDFBox插件来实现对Word、Excel、PDF等文档的读取。通过上述三种方式可以实现对校园网内多种异构数据源的信息采集。 2.元搜索引擎与互联网信息采集 元搜索引擎是建立在独立搜索引擎之上的搜索引擎。元搜索引擎没有自己的爬虫系统和索引系统,数据全部来自于不同的成
7、员搜索引擎,元搜索引擎将用户的搜索请求转发给多个成员搜索引擎,对成员搜索引擎的查询结果进行筛选与去重操作后返回给用户。将元搜索引擎应用于系统可有效提高互联网范围内舆情信息采集的广度、精度和速度。各独立搜索引擎查询接口的格式和编码并不相同,首先要将元搜索引擎中的检索条件转换为各独立成员搜索引擎能够接受的格式,并通过各自的查询接口提交,然后对获得的HTML源文件格式的检索结果进行分析、处理,如百度搜索引擎返回结果中所包含的em、href标签,通过对上述标签信息的解析与提取,可以获得与
此文档下载收益归作者所有