一种基于词间关联规则挖掘的查询扩展方法

一种基于词间关联规则挖掘的查询扩展方法

ID:26918737

大小:60.62 KB

页数:6页

时间:2018-11-30

一种基于词间关联规则挖掘的查询扩展方法_第1页
一种基于词间关联规则挖掘的查询扩展方法_第2页
一种基于词间关联规则挖掘的查询扩展方法_第3页
一种基于词间关联规则挖掘的查询扩展方法_第4页
一种基于词间关联规则挖掘的查询扩展方法_第5页
资源描述:

《一种基于词间关联规则挖掘的查询扩展方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一种基于词间关联规则挖掘的查询扩展方法[摘要]针对现有信息检索系统中存在的词不匹配问题,提出一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索系统性能,具有很高的应用价值。[关键词]查询扩展关联规则局部反馈信息检索[分类号]TP3911引言查询扩展是提高和改善信息检索性能的核心技术之一,指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词或者词组添加到原查询,得到比原查询更长的新查询,然后再次检索文档,

2、以改善检索系统的查全率和查准率,弥补用户查询信息不足的缺陷。传统的查询扩展技术主要有全局分析的、局部分析的查询扩展。全局分析的查询扩展是对全部文献中的词或词组进行相关分析,计算每对词或词组间的关联程度,将与用户查询关联程度较高的词或者词组加入原查询生成新查询,其主要技术有全局聚类算法、潜在语义索引(LSI)和相似性词典等。基于局部分析的查询扩展主要是利用初检文档中与原查询最相关的n篇文档作为扩展词的来源,主要有局部反馈的、用户相关反馈的和基于局部上下文分析的查询扩展等。本文从数据挖掘的角度研究查询扩展,提出一种基于词间关联规则挖掘的查询扩展算法,该算法自

3、动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索的查全率和查准率,与未进行查询扩展时比较,采用本文查询扩展算法后,平均准确率提高了13.34%,与传统的局部上下文分析查询扩展算法比较,其平均准确率提高了4.87%。2基于词间关联规则的查询扩展算法2.1算法基本思想首先对用户查询采用传统的向量空间模型检索法(即tf*idf算法)对文档集初检,然后,对局部前列初检文档进行词间关联规则挖掘,提取含有原查询项的关联规则构建规则库,从库中提取扩展词添加到原查询中构建新查询,实现

4、查询扩展。2.2面向查询扩展的词间关联挖掘及其剪枝策略在向量空间模型中,将文档视为事务,将语词看作是事物项,即特征项,则可以运用关联规则挖掘算法对基于向量空间模型的文本数据库进行词间关联规则挖掘。查询扩展的核心问题是如何找到与原查询相关的扩展词。针对查询扩展的特点,我们在文献的关联规则挖掘算法基础上给出了面向查询扩展的词间关联规则挖掘的基本思想,即:用文献的挖掘算法对文本数据库只挖掘含有原查询项的词间关联规则,让候选项集减少到最低程度,提高挖掘效率。为此,在原算法的剪枝策略基础上,增加两种剪枝策略:一是将频度为◦的候选项集剪掉,因为频度为0的候选项集不可

5、能成为频繁项集,二是从候选2_项集开始,将剪掉不含原查询项的候选项集,只保留含有原查询项的候选项集。2.3扩展模型和扩展词权重的计算方法本文采用的查询扩展模型为:原查询词4扩展词(sup,conf)。即规则前件是查询项集合,后件是扩展项集合。sup是关联规则支持度,conf是关联规则置信度。在查询扩展中,原查询项永远是最重要的,是最能反映用户查询意图的,应该具有最高的权重。扩展词的重要性不会高于原查询语词。为了体现这种思想,在进行查询扩展时,本文将原查询项语词的权重设置为2(设置为2的原因主要是和文献的算法进行实验比较),扩展词的权重置为0到I之间的值(

6、包括0和1),即扩展词权重计算公式如下:原查询相关的扩展词,计算其权重,实现查询扩展,进行第二次检索,并返回结果。3.3实验结果及其分析将本文查询扩展算法(即BARBTQE算法)和基于局部上下文分析的查询扩展算法(即LCA-BasedQE)进行检索性能比较。两种算法分别对所设计的10个查询在相同的测试文档集中进行检索,统计这10个查询的平均准确率(MAP)。表I表示分别采用BARBTQE和LCA-BasedQE两种扩展方法后的检索性能。其中“NoExpansion”列表示不进行查询扩展时的检索性能(即初始检索结果的检索性能),其他两列表示相应扩展方法的检

7、索性能以及与“NoExpansion”相比时改进的百分从表1中可以看出,与未进行查询扩展时相比,两种查询扩展方法的检索性能都有显著的提高,然而,本文BARBTQE算法的提高幅度最为明显,其平均准确率(MAP)比传统的向量空间模型tf*idf算法(NoExpansion)的提高了13.34%,而比LCA-BasedQE算法的提高了4.87%。实验结果表明,本文算法的检索性能确实获得了明显的提高,比传统的查询扩展效果好。主要原因是本文算法引入了查询扩展机制后,具有明显歧义性的短查询词通过扩展词可以达到消歧作用,同时还能检索到原始短查询中所不能检索到的文档。4

8、结论在信息检索中,查询扩展是改善和提高其检索性能的关键技术之一。本文提出了一种基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。