资源描述:
《主题信息搜索系统中的搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、主题信息搜索系统中的搜索策略研究摘要:针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基丁内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%0关键词:搜索引擎;搜索策略;遗传算法;空间向量模型中图分类号:TP319文献标识码:A文章编号文章编号:16727
2、800(2014)001008904基金项目基金项目:屮央高校基本科研业务费专项资金项目(ZZQ10011)作者简介作者简介:张小琴(1974),女,中南民族大学图书馆馆员,研究方向为智能移动代理、下一代搜索引擎;王晓辉(1988-),男,中南民族大学电信学院硕士研究生,研究方向为下一代搜索引擎。0引言主题信息搜索系统服务于特定的应用领域,其任务是获取与主题相关的页面,无需遍历全网。在主题信息搜索系统中,搜索策略是影响系统性能的关键。常用的主题搜索策略有:基于网页链接结构的搜索策略和基于索策略,Fish算
3、法[3]和Shark算法[4]是基于内容评价的搜索策略。这些搜索策略存在主题漂移、忽略链接结构信息,以及在预测网页的重要程度方面存在不足等问题。基于此,木文在目前常用的主题爬虫Heritrix[5]框架基础上,将遗传算法与基于内容的空间向量模型相结合改进其搜索策略。通过在搜索的初始阶段引入高质量的种子集合,搜索过程中结合Hub网页对主题的贡献,以及向量空间模型対于网页主题的判断,进行交叉变异操作。这一方面提高了网页的搜索质量,另一方面也扩大了搜索范围。1向量空间模型及相似度计算在主题信息搜索系统中,文本特
4、征表示是关键的一步[6]。在大规模文本处理中,向量空间模型[7]是一种效率较高的文本表示模型,是当前对自然语言处理时采用的主流模型。向量空间模型(VectorSpaceModel:VSP)是把文本的内容简化处理后,生成在向量空间屮的向量运算,并利用在空间屮的某种关系来表达语义上的相似程度。当某一文档被确定为空间向量模型时,通过计算向量的相似度来衡量文档Z间的相似性。向量空间模型的基本要素包括:①文本内容(Document):通常指某个网页中所有文字信息内容;②项(Tenn):指字、词语、词组等基本单位要素
5、;③权重(Weight):对于某个含冇M个项的文本内容X(Tl,T2,T3,…,TM),项被赋予一定的权重,体现项在文木中的重要程度,可表示为D=(Tl,Wl,T2,W2,T3,W3…,TM,WM);④空间模型(VSM):设一文本X(Tl,T2,T3,…,TM),为了方便分析,不考虑那些重复出现且有先后次序的项,把Tl,T2,T3,…,TM看成是一个M维的坐标,Wl,W2,W3…,WM分别对应坐标的值,这样D二(Tl,Wl,T2,W2,T3,W3…,TM,WM)被视为一个M维的向量。权重的计算是基于词频T
6、F,项的词频是指某个单词在文本屮出现的次数,TF的值越高权重就越大。本文对TF作归一化的权重计算,将文本中所有项对应的TF值在[0,1]Z间进行归一化处理。可采用以下几种方法:(1)最大值归一化:Wi二TFiMaxiTFi。(2)加强最大归一化:Wi=0.5+0.5XTFiMaxiTFio(3)余弦归一化:Wi二TFiEiTF2i。文木相似度是反映两个文木之间相关程度的统计量,相似度的数值一般定义为[0,1JZ间,如果文本Z间的相似度为L说明两个文本完全相同,完全不同时为0,可以借助空间向量模型进行评价。
7、在空间向量模型中,相似度的计算方法有内积法、距离函数法、Jaccard系数法、余眩法,本文采用余弦法进行相关度计算。利用文档屮出现的词条对文档建立D=(Tl,Wl,T2,W2,T3,W3…,TM,WM)的空间向量模型。假设Di、Dj是要计算相关度的页面,页面的相关度是计算两个页面向量的余弦值。计算公式如下:Sin(Di,Dj)二cos8二刀Mk二lWi,kXWj,kFMk二lW2i,kEMi二lW2j,k2算法设计结合遗传算法和基于文本内容的空间向量模型,利用遗传算法的全局查优特点保证搜索的整体性,以空间
8、向量模型确定主题相关度。将遗传算法应用到主题信息搜索系统中进行查找链接,在查找过程中不断选择变异优化,对搜索过程进行启发式引导。把待搜索的页面集看作遗传因子,首先初始化种子集合,通过爬虫抓取到第一代的群体网页,根据之前构造的向量空间模型计算出网页之间的相关度值,选择相关度值大于设定阈值T作为下一代群体。交叉的操作是对所有已经抓取到的链接和锚链接,抽取文本之后计算相关度值,选择主题相关度大于设足阈值作为交叉结果。根据预先确定的变