网络舆情监控系统中主题网络爬虫的研究与实现.pdf

网络舆情监控系统中主题网络爬虫的研究与实现.pdf

ID:52494347

大小:282.84 KB

页数:4页

时间:2020-03-28

网络舆情监控系统中主题网络爬虫的研究与实现.pdf_第1页
网络舆情监控系统中主题网络爬虫的研究与实现.pdf_第2页
网络舆情监控系统中主题网络爬虫的研究与实现.pdf_第3页
网络舆情监控系统中主题网络爬虫的研究与实现.pdf_第4页
资源描述:

《网络舆情监控系统中主题网络爬虫的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、V01.34No.9104舰船电子工程ShipElectronicEngineering总第243期2014年第9期网络舆情监控系统中主题网络爬虫的研究与实现+方星星鲁磊纪徐洋(陆军军官学院计算中心合肥230031)摘要在分析比较通用网络爬虫和主题网络爬虫的定义和处理流程基础上,结合主题网络爬虫的功能,提出了网络舆情监控系统中主题网络爬虫的设计模块。针对主题爬虫要实现的目标,分别研究了系统所要实现的关键算法。基于主题爬虫的舆情监控系统能满足面向特定领域的信息采集及监测需求,具有较强的实用价值。关键词网络舆情监控系统;主题

2、网络爬虫;信息采集中图分类号TP391DOI:10.3969/j.issnl672—9730.2014.09.028ResearchandDesignonFocusedCrawleroftheNetworkPublicOpinionMonitoringSystemFANGXingxin91LULeiji2XUYangs(TheCenterofComputing,ArmyOfficerAcademy,Hefei230031)AbstractOnthebasisofanalysisandcomparisonofthedefi

3、nitionandprocessofgeneralcrawlerandfocusedcrawler,combinedwiththefunctionoftheFocusedcrawler,thedesignmoduleonFocusedCrawlerofthenetworkpublicopinionmo—nitoringsystemwasputforward.Inviewofthefocusedcrawlergoal。thekeyalgorithmOfsystemimplementationwasstud—ied.Thep

4、ublicopinionmonitoringsystembasedonfocusedcrawlercouldmeettheneedsforspecificareasofinformationcol—lectionandmonitoringwithastrongpracticalvalue.KeyWordspublicopinionmonitoringsystem,focusedcrawler,informationcollectionClassNunllⅪrTP39]1引言网络舆情是是通过互联网传播的公众对现实生活中某些

5、热点、焦点问题所持的有较强影响力、倾向性的言论和观点,是社会舆论的一种表现形式[1]。由于网络舆情传播速度快、影响大,因而有必要建立自动化的网络舆情监控系统以实现对网络舆情信息的及时采集、分析、监控与引导[2]。网络舆情监控系统主要包括信息采集模块、预处理模块、分析模块和预警模块四个部分[3]。采集模块是舆情分析处理工作的基础,其核心是通过一个或多个并行的采集器从互联网上不断收集各种网页数据,这些采集器通常称为网络爬虫或网络蜘蛛。本文首先对通用网络爬虫和主题网络爬虫的处理流程作了简单介绍,分析两者区别,提出了主题网络爬虫

6、的设计模块结构,研究了系统所要实现的关键算法,用以指导一种简单、高效的面向主题的网络舆情信息采集系统的设计及实现,以提供对网络舆情采集和分析工作的支持。2网络爬虫的相关介绍网络爬虫是网络舆情监控采集系统的核心和基础,它对网络舆情采集的覆盖率和查准率都有很大的影响。根据采集内容目标的不同,网络爬虫主要分为通用网络爬虫和主题网络爬虫两种。通用网络爬虫的目标就是尽可能多地采集信息页面,在采集时只关注网页采集的数量和质量,并不考虑网页采集的顺序和被采集页面的相关主题。随着网*收稿日期:2014年3月9日,修回日期:2014年4月

7、27日作者简介:方星星,男,讲师,研究方向:计算机网络、计算机软件技术。鲁磊纪,男,讲师,研究方向:数据库开发。徐洋,男,助教,研究方向:软件开发。2014年第9期舰船电子工程105络信息的指数式增长,通用网络爬虫面临着网页规模、更新速度和个性化需求等多方面的挑战[4]。为改善网络爬虫的效率,使之能满足特定人群深层次的、面向特定领域的信息需求,必须要采用主题网络爬虫。其目标是尽可能多地采集与主题相关的网页,在采集的过程中时刻关注网页内容与主题的相关度。2.1通用网络爬虫简介通用网络爬虫通过网页之间的超链接关系来不断采集网

8、页,首先建立一个初始化的URL集合,它是一个有序的待抽取的URL队列,接着从该队列的某一个URL开始,提取对应页面的HTML内容,并分析提取在该网页上的其它所有超链接,将它们分别加入到URL队列中,更新之前的URL队列,再按照图遍历中广度或深度优先抓取策略来访问下一个URL链接,依次循环,重复以上过程,直至所有的网页

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。