欢迎来到天天文库
浏览记录
ID:11529478
大小:117.00 KB
页数:153页
时间:2018-07-12
《改进的向量空间模型在主题爬虫中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、改进的向量空间模型在主题爬虫中的应用改进的向量空间模型在主题爬虫中的应用**510摘要:主题爬虫是垂直搜索引擎中的关键组成模块,而向量空间模型VSM常被主题爬虫用来判断一个抓取到的网页与搜索主题的相关度。使用传统向量空间计算文档相关度值时不考虑特征项在网页中的位置,致使相关度计算不能达到最优。本文在研究传统向量模型的基础上,提出了一种改进的向量空间模型,将网页文档按位置分块后首先计算搜索表达式与文本块的相关度,然后依据位置权重综合计算出网页文档与搜索表达式的相关度。经实验对比验证,改进后的向量空间模型可以有效的提高爬虫的主题识别能力,并降低爬虫运行负载。关键词:计算机应用;位置分块;向量
2、空间模型;主题爬虫;中图分类号:TP39315ApplicationofImprovedVSMinFocusedCrawlerZengMing,YuJunshengSchoolofElectronicEngineering,BeijingUniversityofPostsandTelecommunications,Beijing1008762025303540Abstract:Focusedcrawlerisakeymodelofverticalsearchengine,andvectorspacemodelVSMiscommonlyusedtocalculatetherelevanceo
3、fafetchedwebpageandthequerytopic.WhenthetraditionalVSMisused,thecalculationcannotgettheoptimalresultbecauseitdoesnotcareaboutthepositionofthefeatureitemsinthepage.BasedontheresearchonthetraditionalVSM,animprovedVSMisraisedinthisarticle.Awebpageiscutintoseveralpiecesbasedonitsstructurefirstandeachpi
4、eceisusedtocalculateitsrelevancewiththequeryexpression.Finallytherelevancebetweenthewebpageandthequerytopiccanbecalculatedusingalltherelevanceofthepiecesanditsweights.ExperimentalcomparisonresultsindicatesthattheimprovedVSMcanhelpthecrawlereffectivelyimproveitsabilityofidentifyingthequerytopicandre
5、duceitsrunningload.Keywords:ComputerApplication;PositionCutting;VSM;FocusedCrawler0引言当前网络媒体发展迅速,其中蕴含的信息每天都是在以爆炸式的速度增长,搜索引擎已经成为人们访问互联网的一个重要的工具。与传统搜索引擎不同,垂直搜索引擎是近些年来发展迅速的一个互联网应用。它为互联网用户提供专业的针对行业的深度查询服务,是传统的搜索引擎技术的延伸[1]。垂直搜索引擎对信息过滤精细,整合某类行业信息而使得搜索结果的查准率、查全率更高,返回给用户的结果集更加专而深,从而深受用户欢迎。一个专业的垂直搜索引擎一般由以下几个
6、主要模型构成:主题爬虫模块、索引模块、检索模块以及用户接口,而主题爬虫无疑是整个引擎中一个核心的模块[2]。主题爬虫基于网页中的超链接不断爬行而抓取所爬到的网页,利用一定的搜索策略对网页进行分析,将不会抓取范围外的网页而只保存指定领域、指定范围内的相关网页信息,以使得抓取结果相对通用搜索引擎更显精而深。主题爬虫的爬虫范围只限定于特定主题或专业领域,因而其在爬行的过程中不需要对整-1-个互联网进行遍历,而只需要选择与主题相关的页面进行访问[3]。依据这个原则,主题爬虫45往往采取最佳优先的爬行策略,此爬行策略的基本思想就是按照一定的模型来计算网页与主题的相关度,进而依据此相关度来确定是否抓
7、取以及抓取的顺序,而向量空间模型即是一个被广泛应用的主题判定模型。1传统向量空间模型501.1传统模型的基本思想Salton等人在70年代提出了向量空间模型的概念,它是一个文档的特征向量表示模型,可将文档表示成为特征向量[4]。这个模型中的基本要素有:(1)文档D,即平常意义上的电子文本,而具体到搜索技术领域中即为一个具体的网页。(2)特征项t,即文本所包含的基本语言单位,如词、短语等,向量空间模型用特征
此文档下载收益归作者所有