复合规则驱动聚焦爬虫系统的设计与实现

复合规则驱动聚焦爬虫系统的设计与实现

ID:35071841

大小:4.16 MB

页数:77页

时间:2019-03-17

复合规则驱动聚焦爬虫系统的设计与实现_第1页
复合规则驱动聚焦爬虫系统的设计与实现_第2页
复合规则驱动聚焦爬虫系统的设计与实现_第3页
复合规则驱动聚焦爬虫系统的设计与实现_第4页
复合规则驱动聚焦爬虫系统的设计与实现_第5页
资源描述:

《复合规则驱动聚焦爬虫系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文(工程硕士)复合规则驱动聚焦爬虫系统的设计与实现THEDESIGNANDIMPLEMENTATIONOFTHECOMPLEXRULES-DRIVENFOCUSEDCRAWLERSYSTEM刘强哈尔滨工业大学2016年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文复合规则驱动聚焦爬虫系统的设计与实现硕士研究生:刘强导师:郭茂祖教授副导师:罗浩工程师申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIn

2、dex:TP311U.D.C:621.3DissertationfortheMasterDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFTHECOMPLEXRULES-DRIVENFOCUSEDCRAWLERSYSTEMCandidate:LiuQiangSupervisor:Prof.GuoMaoZuAssociateSupervisor:EngineeringLuoHaoAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:Soft

3、wareEngineeringAffiliation:SchoolofSoftwareEngineeringDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要聚焦爬虫,又称主题爬虫,这种爬虫的爬行方向往往带有很强的目的性。它会按照一定的顺序采集网页信息,力求采集到的信息都是与主题相关的信息,并且对相关度大的网页优先采集,相关度小的网页不采集。本项目实现了一个聚焦爬虫系统,这个系统可以对特定范围内

4、的网站进行实时检测。系统采用复合规则来指导爬虫的运行方向。同时对抓取下来的内容可以通过网站的形式展现给用户查看,用户可以对网页内容标记和对系统运行参数配置。系统整体上分为两个模块,网页内容获取模块和显示查询模块。网页内容获取模块的功能是从网络上获取用户需要的网页信息并且对其进行分析和记录。其中主要包括提取正文、网页去重、链接分析、内容分析、存储入库和抓取调度等主要操作。系统通过这些模块间的协调工作,从互联网上抓取网页信息并进行分析、处理,实现对主题内容网页的聚焦抓取。显示查询模块主要负责将获取到的页面内容展示出来给用户查看。显示查询模块

5、使用网站的形式实现,采用SSH框架,将数据通过图表等方式展现在页面当中。整个项目现已全部完成。项目实现了用户的需求,并且已经稳定在线运行了6个月的时间,抓取到的不同的网页数量为30万个,监测的域名为5000条。关键词:聚焦爬虫;主题相关;复合规则;主题相关度;网页;域名-I-哈尔滨工业大学工程硕士学位论文AbstractFocusedcrawler,alsoknownasthethemecrawlerandthedirectionofthiscrawlerisoftenwithastrongpurpose.Itcancollectweb

6、informationinacertainorder,strivestocapturealltheinformationrelevanttothesubject,anditwillgetthemostrelevantwebpagesatprior,ignorethesmallcorrelationones.Thisprojectimplementsafocused-crawlersystem,thissystemcanbeaspecificrangeofsitesforreal-timedetection.Thesystemadopte

7、dcompoundrulestoguidethedirectionofthecrawler.Atthesametime,thecontentofthegrabwillbepresentedtotheusersthroughthewebsite,theuserscantagthepagecontentandconfiguretheparametersofsystemoperating.Thewholesystemisdividedintotwomodules,webcontentacquisitionmoduleanddisplayque

8、rymodule.Thefunctionofthewebcontentacquisitionmoduleistoobtainthewebpageinformationwhichtheusersneedfro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。