heritrix框架下网络爬虫应用毕业设计

heritrix框架下网络爬虫应用毕业设计

ID:12968601

大小:1.54 MB

页数:51页

时间:2018-07-19

heritrix框架下网络爬虫应用毕业设计_第1页
heritrix框架下网络爬虫应用毕业设计_第2页
heritrix框架下网络爬虫应用毕业设计_第3页
heritrix框架下网络爬虫应用毕业设计_第4页
heritrix框架下网络爬虫应用毕业设计_第5页
资源描述:

《heritrix框架下网络爬虫应用毕业设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、天津科技大学2013届本科生毕业设计Heritrix框架下网络爬虫应用THEWEBCRAWLERAPPLICATIONBASEONHERITRIXFRAMEWORK专业:软件工程姓名:指导教师姓名:申请学位级别:学士论文提交日期:2013年06月20日学位授予单位:天津科技大学天津科技大学2013届本科生毕业设计摘要互联网是一个庞大的非结构化的数据库,目前网络中的资源非常丰富,但通过人工浏览的方法很难做到对信息的安全浏览和整理,很多有用的信息也就白白流失,将数据有效地检索并组织呈现出来有着巨大的应用前景。为满足搜索需求的多样化和进一步提高相关性的要求,以主题搜索为代表

2、的搜索引擎开始成为人们研究的热点。本论文首先介绍了网络爬虫的发展状况,分析了基于递归和归档机制的Heritrix网络爬虫的系统架构和实现技术;本文结合信息网的特征,在对网络爬虫系统结构和工作原理分析的基础上,分析了Heritrix爬虫的抓取搜索策略;同时针对现阶段Web信息抽取技术,通过分析主题搜索页面在Web上的分布特征,研究了Web页面信息抽取和网页解析技术,使网络爬虫能够灵活高效的搜索相关主题信息。其中,本文中网络爬虫部分采用了当前开源的,JAVA编写的Heritrix网络爬虫;网页内容提取采用遍历Html文档树获取相应网页内容;征对主题搜索的网页和Url主题相

3、关性判定,应用了新的Web文档聚类算法以便对Web文档进行挖掘分析,并使用Java实现了一个网络爬虫的程序,对其运行结果做了分析和归纳,实现了网络爬虫灵活高效的搜索相关主题信息的目的。关键词:Heritrix;网络爬虫;主题搜索;Web信息抽取II天津科技大学2013届本科生毕业设计ABSTRACTTheInternetisavastunstructureddatabase,thenetworkisveryrichinresources,butthroughthemethodofartificialbrowsingisverydifficulttoachievethe

4、securityofinformationbrowsingandconsolidation,alotofusefulinformationislost,thedataeffectivelyretrievalandorganizationhasshowngreatapplicationprospects.Tomeetthediverseneedsandtofurtherimprovetherelevanceofsearchrequest,thethemeofsearchenginestartstobecomethehotspotofresearch[5].Thispap

5、erfirstlyintroducesthedevelopmentstatusofwebcrawler,basedontheanalysisofthesystemarchitectureofHeritrixwebcrawlerrecursiveandArchivingMechanismandtherealizationtechnology[3];Combinedwiththecharacteristicsofinformationnetwork,basedonanalysisofthecrawlersystemstructureandworkingprincipleo

6、fthenetwork,analyzestheHeritrixcrawlertograbsearchstrategy;Atthesametime,inviewofthepresentstageWebinformationextractiontechnology,throughthedistributioncharacteristicsoftopicsearchpageanalysis,onthewebpageinformationextractionandwebpageanalysistechnology,itcanmakewebcrawlerflexibleande

7、fficientsearchrelatedthemeinformation[1].Amongthem,thewebcrawlerpartadoptstheopensource,HeritrixwebcrawlerwritteninJAVA;WebpagecontentextractionbytraversingtheHtmldocumenttreeandobtainthecorrespondingwebpagecontent[4].SignwebpageandUrlthemecorrelationonthetopicsearchcriterion,t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。