内容与链接结构相融合的主题爬虫研究

内容与链接结构相融合的主题爬虫研究

ID:35045857

大小:2.48 MB

页数:57页

时间:2019-03-17

内容与链接结构相融合的主题爬虫研究_第1页
内容与链接结构相融合的主题爬虫研究_第2页
内容与链接结构相融合的主题爬虫研究_第3页
内容与链接结构相融合的主题爬虫研究_第4页
内容与链接结构相融合的主题爬虫研究_第5页
资源描述:

《内容与链接结构相融合的主题爬虫研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10385分类号:研究生学号:1300204042密级:内容与链接结构相融合的主题爬虫研究Researchontopiccrawlerofcombiningcontentwithlinkstructure作者姓名:李洪胜指导教师:刘韶涛实践导师:专业学位类别/领域:工程硕士/计算机技术研究方向:信息检索所在学院:计算机科学与技术学院论文提交日期:二零一六年六月三日摘要随着互联网技术的快速发展,信息资源呈现指数型增长,传统的搜索引擎已经难以满足人们的需求,如何快速精准的获取到自身所需要的信息也成为了近年来研究的热点,因此垂直搜索引擎应运而生。作为垂直搜索引

2、擎的核心部分,主题网络爬虫只检索与主题相关的页面,同时忽略无关链接,以其专业、精准、深入的特点满足了不同领域、不同背景用户的检索需求。传统的主题爬虫大多单纯基于网页文字内容来评定候选链接的优先级,忽略了网络中相同主题页面之间的链接结构;此外,在碰到不相关页面时,无法穿越隧道发现更多的相关页面,导致丢弃了很多有潜在价值的链接。本文通过分析主题网络爬虫研究的必要性,着重研究了爬行过程中的搜索策略以及隧道穿越技术,主要的研究工作如下:首先,基于现阶段国内外主题网络爬虫的研究进展,对爬虫的基本原理以及各阶段关键技术进行介绍。其次,重点梳理了不同搜索策略的优缺点,并在此基础

3、上提出了一种新的内容与链接结构相结合的主题搜索策略。这种策略将爬行过程分为爬行初期阶段和爬行阶段。在爬行初期阶段,使用基于内容启发的搜索策略;在爬行阶段,使用基于综合价值的搜索策略,通过结合HITS算法,使得爬虫在评定候选链接优先级的时候,同时考虑了网页文字内容与链接结构,这样所爬取的链接不仅仅是主题相关的,而且在领域内也是有价值的。再次,采用距离度量公式来指导爬虫穿越隧道,与以往对不相关页面一视同仁的做法不同,通过距离度量公式使得相关度越低的页面其距离值收敛的越快,当距离值大于阈值再将此路径彻底舍弃,从而避免了错过主题相关的网页。最后,提出了一种对网页价值度量的

4、评价方法——平均信息量,平均信息量可以对主题相关网页的网页质量进行评估。在实验部分将查准率和平均信息量作为主要评价指标,比较本文所提出主题网络爬虫与其他爬行算法的优劣。实验结果表明,本文所提出的主题爬虫有较高的查准率和平均信息量,在爬行质量方面,效果较好。关键词:主题爬虫HITS算法爬行策略隧道穿越技术IAbstractWiththerapiddevelopmentofInternettechnology,networkresourcesareexponentiallyincreasing.Thetraditionalsearchenginehasbeendiff

5、iculttomeetpeople'sneed.Thenhowtoquicklyandaccuratelygettheinformationofwhatweneed,whichhasbecomeahotspotresearchinrecentyears.Sotheverticalsearchenginearisesatthehistoricmoment.Asthecoreoftheverticalsearchengine,topiccrawleronlyretrievespagesrelatedtothetopic,andignoresirrelevantlink

6、s.ItmeetthedemandofusersindifferentareasandbackgroundwithProfessional,accurate,in-depthcharacteristics.Mostofthetraditionaltopiccrawlersimplyevaluatethepriorityofcandidatelinksbasedonthewebcontent,andignorethelinkstructureofpageswhichhasthesametopicintheweb.Inaddition,whencrawlermeets

7、theirrelevantpages,itcan'tgetthroughthetunneltofindmorerelevantpages,andleadtothrowawayalotoflinkswhichhasthepotentialvalue.Thispaperanalyzesthenecessityofresearchontopiccrawlerandemphasizesthestudyofthesearchstrategyandtechnologyoftunnelcrossingintheprocessofcrawling,andthemainresear

8、chwor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。