欢迎来到天天文库
浏览记录
ID:12968601
大小:1.54 MB
页数:51页
时间:2018-07-19
《heritrix框架下网络爬虫应用毕业设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、天津科技大学2013届本科生毕业设计Heritrix框架下网络爬虫应用THEWEBCRAWLERAPPLICATIONBASEONHERITRIXFRAMEWORK专业:软件工程姓名:指导教师姓名:申请学位级别:学士论文提交日期:2013年06月20日学位授予单位:天津科技大学天津科技大学2013届本科生毕业设计摘要互联网是一个庞大的非结构化的数据库,目前网络中的资源非常丰富,但通过人工浏览的方法很难做到对信息的安全浏览和整理,很多有用的信息也就白白流失,将数据有效地检索并组织呈现出来有着巨大的应用前景。为满足搜索需求的多样化和进一步提高相关性的要求,以主题搜索为代表
2、的搜索引擎开始成为人们研究的热点。本论文首先介绍了网络爬虫的发展状况,分析了基于递归和归档机制的Heritrix网络爬虫的系统架构和实现技术;本文结合信息网的特征,在对网络爬虫系统结构和工作原理分析的基础上,分析了Heritrix爬虫的抓取搜索策略;同时针对现阶段Web信息抽取技术,通过分析主题搜索页面在Web上的分布特征,研究了Web页面信息抽取和网页解析技术,使网络爬虫能够灵活高效的搜索相关主题信息。其中,本文中网络爬虫部分采用了当前开源的,JAVA编写的Heritrix网络爬虫;网页内容提取采用遍历Html文档树获取相应网页内容;征对主题搜索的网页和Url主题相
3、关性判定,应用了新的Web文档聚类算法以便对Web文档进行挖掘分析,并使用Java实现了一个网络爬虫的程序,对其运行结果做了分析和归纳,实现了网络爬虫灵活高效的搜索相关主题信息的目的。关键词:Heritrix;网络爬虫;主题搜索;Web信息抽取II天津科技大学2013届本科生毕业设计ABSTRACTTheInternetisavastunstructureddatabase,thenetworkisveryrichinresources,butthroughthemethodofartificialbrowsingisverydifficulttoachievethe
4、securityofinformationbrowsingandconsolidation,alotofusefulinformationislost,thedataeffectivelyretrievalandorganizationhasshowngreatapplicationprospects.Tomeetthediverseneedsandtofurtherimprovetherelevanceofsearchrequest,thethemeofsearchenginestartstobecomethehotspotofresearch[5].Thispap
5、erfirstlyintroducesthedevelopmentstatusofwebcrawler,basedontheanalysisofthesystemarchitectureofHeritrixwebcrawlerrecursiveandArchivingMechanismandtherealizationtechnology[3];Combinedwiththecharacteristicsofinformationnetwork,basedonanalysisofthecrawlersystemstructureandworkingprincipleo
6、fthenetwork,analyzestheHeritrixcrawlertograbsearchstrategy;Atthesametime,inviewofthepresentstageWebinformationextractiontechnology,throughthedistributioncharacteristicsoftopicsearchpageanalysis,onthewebpageinformationextractionandwebpageanalysistechnology,itcanmakewebcrawlerflexibleande
7、fficientsearchrelatedthemeinformation[1].Amongthem,thewebcrawlerpartadoptstheopensource,HeritrixwebcrawlerwritteninJAVA;WebpagecontentextractionbytraversingtheHtmldocumenttreeandobtainthecorrespondingwebpagecontent[4].SignwebpageandUrlthemecorrelationonthetopicsearchcriterion,t
此文档下载收益归作者所有