欢迎来到天天文库
浏览记录
ID:44040012
大小:71.50 KB
页数:16页
时间:2019-10-18
《主题爬虫的搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、主题爬虫的搜索策略研究第29卷第12期Vol.29No.12计算机工程与设计ComputerEngineeringandDesign2008年6月June2008刘汉兴,刘财兴(华南农业大学信息学院,广东广州510642)摘要:主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容。关键词:主题爬虫;搜索策略;页面评价;搜索
2、引擎;优化中图法分类号:TP391文献标识码:A文章编号:1000-7024(2008)12-3160-03SurveyonsearchingstrategiesoffocusedcrawlerLIUHan-xing,LlUCai-xing(Collegeoflnformatics^outhChinaAgriculturalUniversity,Guangzhou510642,China)Abstract:WhilefocusedCrawlercollectinformation,itneedstoevaluatetherelevan
3、ceofwebpages,andprocessfirstlypageswhichhavehigherrelevance,thusdecidingthesearchpathandefficiencyofcrawler.Webcrawler'ssearchingst「ategiesbasedonthewaytheyevaluatethewebpageiscategorized.Thecharacterofeachclassofsearchingstrategyisdescribedandtheadvantageanddisadva
4、ntageisdiscussed,severalwaystoimprovingtheefficiencyofwebcrawlersaresummedup.Keywords:focusedcrawler;searchingstrategy;pageevaluating;searchengine;optimization链接)出发,下载页面并提取其中的子链接,然后再访问子链接对应的内容,如此不断重复即可实现遍历Web信息。网络爬虫的搜索策略与搜索引擎的性质和任务密切相关[5],为了获得较高的Web覆盖率,通用搜索引擎网络爬虫通常采用图的遍
5、历算法搜索Web,如图1(a)所示,其中白框代表主体无关页面,黑框代表主体相关页面,虚线代表链接,实箭头代表访问顺序)。主题搜索引擎索引的内容只限于特定主题或专门领域,因而在搜索的过程中无须对整个Web进行遍历,如图2(b)所示,它只需选择与主题页面相关的页面进行访问。网络爬虫对网页的抓収策略分为广度优先和最佳优先两种,主题爬虫主要采用后者[1-2]o广度优先能较快找到高质量的网页,同时页面覆盖率较高,但随着爬虫“爬行”的深入,抓取页面的相关度也随之降低。最佳优先策略的基本思想是按照一定的网页评价算法,计算网页与主题的相关性,选取“价
6、值”最高的网页中的链接进行抓取。因此,如何评价页面价值成为研究主题爬虫搜索策略的关键。0引言目前的谷歌、百度等搜索引擎,自动搜集整理互联网上的信息,为一般用户提供检索服务,可以称为通用搜索引擎。但对于专业用户及研究人员来说,他们的查询往往是针对某个领域或曲向特定主题,使用通用搜索引擎进行检索效果不理想,准确率和召回率都很低,因此就出现了主题搜索引擎(topic-specificsearchengine,又称专业搜索引擎)。网络爬虫(Crawler,或Spider程序)是一个自动下载Web网页的程序,是搜索引擎的基础与核心。主题搜索引擎
7、中的主题爬虫,首先需要定义“主题概念”,明确“主题”的范围和内容,即对“主题”进行描述或定义。主题概念可以用主题词集來表示,也可以表示为示例文档(由用户选定的种子样本),也可来源于某一领域概念。主题爬虫在工作时,只抓取与主题相关的网页或内容。为了保证采集到的信息的主题相关性,以何种策略来决定访问Web的搜索路径,是主题爬虫研究的焦点[1-4]o该文根据网页评价算法的不同,对比分析了主题爬虫的几种搜索策略,总结了提高主题爬虫搜索效率的几个方面。2网页评价算法研究Web±的页面分布表面看似杂乱无章,但主题页面的分1主题爬虫的工作原理(种子
8、网络爬虫在采集Web信息时,通常从一个“种子集”布却有一定的规律,可总结为4个特征[3,6,10]:①站点主题特征,收稿日期:2007-06-25E-mail:Iiuhx666@21cn.com基金项目:国家863高技术
此文档下载收益归作者所有