主题信息搜索系统中的搜索策略研究-论文.pdf

主题信息搜索系统中的搜索策略研究-论文.pdf

ID:53909068

大小:298.49 KB

页数:4页

时间:2020-04-27

主题信息搜索系统中的搜索策略研究-论文.pdf_第1页
主题信息搜索系统中的搜索策略研究-论文.pdf_第2页
主题信息搜索系统中的搜索策略研究-论文.pdf_第3页
主题信息搜索系统中的搜索策略研究-论文.pdf_第4页
资源描述:

《主题信息搜索系统中的搜索策略研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第13卷第1期、r01.13No.12014年1月Jan.2014主题信息搜索系统中的搜索策略研究张小琴,王晓辉(1.中南民族大学图书馆;2.中南民族大学电信学院,湖北武汉430074)摘要:针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约3O。关键词:搜索引擎;搜索策略;遗传算

2、法;空间向量模型中图分类号:TP319文献标识码:A文章编号:1672—7800(2014)001—0089—04步]。在大规模文本处理中,向量空间模型_7是一种效率0引言较高的文本表示模型,是当前对自然语言处理时采用的主流模型。向量空间模型(VectorSpaceModel:VSP)是把主题信息搜索系统服务于特定的应用领域,其任务是文本的内容简化处理后,生成在向量空间中的向量运算,获取与主题相关的页面,无需遍历全网。在主题信息搜索并利用在空间中的某种关系来表达语义上的相似程度。系统中,搜索策略是影响系统性能的关键。常用的主题搜当某一文档被确定为空间向量模型时,通过计算向量的

3、相索策略有:基于网页链接结构的搜索策略和基于内容评价似度来衡量文档之间的相似性。的搜索策略。其中,PageRank_1和Hits_2是基于链接结向量空间模型的基本要素包括:①文本内容(Docu—构的搜索策略,Fish算法

4、3和Shark算法是基于内容评ment):通常指某个网页中所有文字信息内容;②项价的搜索策略。这些搜索策略存在主题漂移、忽略链接结(Term):指字、词语、词组等基本单位要素;③权重构信息,以及在预测网页的重要程度方面存在不足等问(Weight):对于某个含有M个项的文本内容X(T,T,题。T。,⋯,T),项被赋予一定的权重,体现项在文本中的基于此,本文在目

5、前常用的主题爬虫Heritrix[5框架重要程度,可表示为D一(T,W,T:,W,T,W。⋯,基础上,将遗传算法与基于内容的空间向量模型相结合改T,W);④空间模型(VSM):设一文本X(T,T,进其搜索策略。通过在搜索的初始阶段引入高质量的种,⋯,T),为了方便分析,不考虑那些重复出现且有子集合,搜索过程中结合Hub网页对主题的贡献,以及向先后次序的项,把T,T,T。,⋯,T看成是一个M维量空间模型对于网页主题的判断,进行交叉变异操作。这的坐标,,w,Ⅳ。⋯,分别对应坐标的值,这样一方面提高了网页的搜索质量,另一方面也扩大了搜索范D=(T,W。,T2,W2,T3,W⋯,,W

6、M)被视为一个围。M维的向量。权重的计算是基于词频TF,项的词频是指某个单词1向量空间模型及相似度计算在文本中出现的次数,TF的值越高权重就越大。本文对TF作归一化的权重计算,将文本中所有项对应的TF值在主题信息搜索系统中,文本特征表示是关键的一在[o,1]之间进行归一化处理。可采用以下几种方法:[3]刘凤七.网络课程的智能答疑系统研究与设计ED].贵阳:贵州师范沈阳理工大学,2008.大学。2009.[6]王丛林.在线自动答疑系统设计与开发的研究[-t)3.长春:东北师范[4]黄杰.基于Lucene的全文检索系统模型的研究[D].济南:暨南大大学,2O1O.学,2007.[

7、-73周龙.基于朴素贝叶斯的分类方法研究[-D3.合肥:安徽大学,2006.[53张琳.基于Lucene的电子公文检索系统的研究与实现[D].沈阳:(责任编辑:孙娟)基金项目:中央高校基本科研业务费专项资金项目(zZQ1O0l1)作者简介:张小琴(1974一),女,中南民族大学图书馆馆员,研究方向为智能移动代理、下一代搜索引擎;王晓辉(1988~),男,中南民族大学电信学院硕士研究生,研究方向为下一代搜索引擎。软件导刊2Ol4年根据设置好的交叉概率P.取排在前N*P的页面作为(1)最大值归一化:W一≥F。交叉结果。在交叉结果中,依然会存在和种子集合中重复存在的网页,所以在生成

8、交叉结果前,对URL采取不重(2)加强最大归一化:W一O.5+O.5×。复策略的判断,确保进入队列的URL的唯一性,避免重复性操作,提高效率。(3)余弦归一化:W一^—/==∑兰T兰F。(3)变异处理。互联网中的网页具有相互的链接性,文本相似度是反映两个文本之间相关程度的统计量,对于一些目录型网页,链接本身没有确定的主题,但是其相似度的数值一般定义为[O,1]之间,如果文本之间的相中的链接可能会与主题相关,为了将这部分网页包含在似度为1,说明两个文本完全相同,完全不同时为0,可以内,扩大搜索范围,需进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。