基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-

基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-

ID:26808996

大小:53.00 KB

页数:6页

时间:2018-11-29

基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第1页
基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第2页
基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第3页
基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第4页
基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-_第5页
资源描述:

《基于nutch与元搜索引擎技术的高校网络舆情监测系统研究-》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*引言  高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校也逐渐重视了网络舆情突发事件的应对机制研究。同时,随着公安部对网络信息安全工作的逐步加强,高校利用自身技术优势,自主构建舆情监测系统并建立一套完善的应对

2、机制正逐渐成为高校网络信息安全工作的重点。因此,在新形势下,遭遇突发事件,高校如何能以最快的速度收集网络上相关信息,跟踪事态发展,及时向有关部门通报,防范网络不良舆情的快速扩散和演化,并建立相应的响应机制,实现对网络舆情的有效管理与控制,使健康的网络舆情成为维护高校稳定,推动社会文明发展的动力,已经成为当前亟需解决的重要课题。  高校的网络舆情信息主要来自两部分,一是内部独立的校园网络,二是外部开放的互联网络。随着高校校园信息化建设的深入发展,校园网中网站、论坛、博客等平台上信息资源数量呈指数级增长,仅依靠人工检索和信息发布审核的方式无法有效实现对

3、网络舆情信息的监测,急需利用技术手段实现对海量网络信息的挖掘与分析,快速汇总成舆情信息;互联网上信息量十分巨大,通过垂直搜索引擎方式所获取的与高校相关的信息往往存在查全率不高的缺陷。高校网络舆情的监测,既要考虑信息采集的深度和广度,又要提高系统的精度与准度;同时对于发现的舆情信息,要能够做到快速定位,有效控制。本系统针对上述高校网络舆情监测工作的不足,并结合网络舆情传播特点,提出了构建高校网络舆情监测系统的整体方案,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。  1系统体系结构  高校网络舆情监测系统主要

4、包括三个功能模块,分别是:校园网舆情信息采集模块、互联网舆情信息采集模块、网络舆情分析与预警模块,体系结构如图1所示。  <e:\方正创艺5.1\fit201411\图\ny图1.tif>  图1高校网络舆情检测系统体系结构  由于高校对校园网络具有较大的控制权限,一部分信息数据可利用各种信息发布系统的管理平台与数据库的访问权限来获取;另一部分可利用网络爬虫从网页数据中获取,系统基于Nutch搜索引擎技术对校园网内数据进行信息采集,采集的深度与广度都达到了较好的效果。对于互联网上的海量网络信息,如果采用垂直搜本文由.LL源文件格式的检索

5、结果进行分析、处理,如百度搜索引擎返回结果中所包含的em、href标签,通过对上述标签信息的解析与提取,可以获得与之相对应的链接地址、网页标题以及部分说明文字,将上述信息处理为结构化数据后存放到相应的数据库中。再通过对不同独立成员搜索引擎所获取的舆情信息的链接地址和网页标题等信息的对比和有效性检测来实现结果的筛选和去重,然后将最终结果提交给Nutch的文档分析与分词模块,建立索引。  2.3文档分析与中文分词  信息检索的基础是文档分析,而文档分析在很大程度上依赖于分词模块对语言的处理。文档分析是信息采集完成后的首要任务,Nutch中的文本分析模块

6、能够完成对各异构文件中结构化标记语言的处理,得到纯文本文件。Nutch自带的CJK分词模块在中文分词的效率和准确度上不能满足实际需要。为此,在对比了JE分词、Paoding分词和ICTCLAS分词等多款中文分词模块后,Paoding分词由于其开源性和良好的分词效果被本系统采用,并通过Nutch的插件机制集成到系统当中。其原理是Nutch中的抽象类Analyzer类实现了配置和插入中文分词模块的接口,该抽象类中定义了一个公有的抽象方法tokenStream(Stringfieldname,Readerreader)返回的类型是TokenStream。

7、Paoding分词的分词类返回类型也是TokenStream,故只需将参数fieldName和reader作为Paoding分词的输入参数并将其结果返回给Analyzer类即可。  2.4信息索引与检索  系统为校园网和互联网内的多个异构数据源分别建立了各自的索引文件,为有效整合索引文件,并将其作为统一的索引库提供给舆情分析与预警模块,需要对索引文件进行优化。索引优化其实是将多个索引文件合并成单个文件的过程,目的是减少索引文件的数量,并且能在搜索时减少读取索引文件的时间。Nutch中的IndexultiSearcher类可实现对优化后索引的统一检索

8、功能,检索结果会以一种指定的顺序合并起来。针对高校网络舆情信息的特点,综合考虑信息相关度,时效性和访问量等因素后,系统采用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。