检索结果聚类算法研究综述

检索结果聚类算法研究综述

ID:10167049

大小:32.00 KB

页数:9页

时间:2018-06-12

检索结果聚类算法研究综述_第1页
检索结果聚类算法研究综述_第2页
检索结果聚类算法研究综述_第3页
检索结果聚类算法研究综述_第4页
检索结果聚类算法研究综述_第5页
资源描述:

《检索结果聚类算法研究综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、检索结果聚类算法研究综述摘要:随着互联网的普及和web上网页数量的迅猛增长,搜索引擎已经成为从网上获取信息的首选工具。然而,目前主流的搜索引擎利用关键词建立索引,根据检索结果和查询词的相关性从高到低排成一个很长的线性列表,而且检索结果中包含了大量的无用信息,因此对检索结果进行重新组织和挖掘成为了研究热点。本文介绍了检索结果聚类的应用背景,然后介绍了检索结果聚类的算法,最后介绍了检索结果聚类质量评测标准。关键词:检索结果,;聚类,;簇,;标签中图分类号:TP3911.引言9目前的搜索引擎的检索器是用关键词建立索引,查询含有关

2、键词的网页的链接。检索器根据检索结果和查询词的相关性从高到低排成一个线性列表。但是一个检索结果往往包含成千上万的网页信息,所以搜索引擎的检索结果的线性列表很长。同时其检索的结果仍然包含了很多与用户无关的信息,其比例高达75%以上[1],用户不得不逐个浏览,这导致要找到自己真正需要的信息很困难。目前有很多算法在改进检索的排序算法,但是光改进算法是不够的。因为很多时候用户在输入的查询词根本就不能完全表达用户的需要,查询的效果就比较差。针对查询结果不能令人满意的情况下,很多研究学者开始在搜索结果的基础上进行了聚类的研究。将文档分

3、成若干个簇(cluster),使同一簇类文档相关度尽可能大,不同簇之间文档相关度尽可能小,而用户在自己感兴趣的簇内查看检索结果,就可以缩小用户浏览的结果,方便用户的查询。对检索结果的网页摘要(Snippet)聚类,实质是根据摘要的主题相似性划分成不同的簇。每一个簇的主题可以看成是查询的子主题,这样整个检索结果集就可以以层次的形式呈现给用户,最顶层为用户查询词,下层为聚类得到的子主题和标签及每个子主题下的对应的网页摘要。检索结果聚类不同于传统的文本聚类和网页聚类,主要体现在[22]:(1)检索结果聚类既要得到高质量的簇,同时

4、还需要确定每个簇的主题描述,或称簇标签,而传统的聚类一般无需得到簇的标签。簇的描述标签非常重要,不仅需要完整的包含一定意义的短语,同时还需要能够对该簇进行主题描述,并且有较强的可读性;(2)检索结果的聚类对象为网页片断,信息有限,而传统的聚类对象为文本或网页的全文,包含了丰富的信息;(3)检索结果聚类属于在线聚类(Online9Clustering),检索对象动态变化,实时性要求高。而传统的聚类对象一般比较稳定,对算法的效率没有实时性要求。根据上述特点传统的聚类不能直接适用于检索结果聚类。2.1检索结果聚类算法从上世纪九十

5、年代中期开始,Pedersen[2,3]等人提出基于结果的聚类算法。目前,很多研究者已经研究并提出了一系列的基于检索结果聚类算法,也出现了几个投入运营的、具有聚类功能的搜索引擎。然而,聚类的效果还远未达到令人满意的程度,聚类质量还有待提高,尤其是簇标签的可读性还有必要进行大的改进。否则,聚类功能不但对用户的帮助有限,而且还会误导用户。但是由于聚类是具有实时性的,所以对采用算法的复杂性也提出了要求。例如,元搜索引擎Metacrawler利用后缀树聚类算法,过滤了由多个搜索引擎返回的不相关的重复的检索结果,然后对返回结果的片段

6、进行聚类,但是它并不支持中文查询词。国内最著名的基于聚类的中文元搜索引擎比比猫www.bbmao.com,遗憾的是它只存在了非常短暂的时间。9目前基于检索结果摘要聚类的算法主要分为两大类[4]。第一类是先对检索结果集进行聚类,然后再针对每个簇提取簇标签,这种方法称为基于文档(Document-based)的聚类方法;第二类是先提取簇的标签,再根据标签在网页片断中的出现情况,利用聚类算法进行聚类,这种方法被称为基于标签(Label-based)的聚类方法。尽管研究者们为了提高检索结果的聚类质量进行了卓有成效的努力,然而,在目

7、前搜索引擎的应用背景下,如果没有好的簇标签,用户仍然难以快速准确地找到自己感兴趣的信息,差的标签甚至对用户具有误导作用。因此,近年来,基于标签的检索结果聚类逐渐成为研究的主流和热点,这类方法更加强调标签的可读性和对簇的概括性,不太注重每个簇的连贯性(Coherence)。21.1基于文档的聚类算法基于文档的聚类算法主要的目标是提高检索结果聚类的质量,在聚类完成以后再提取对应类别的标签。StevenSchockaert[5]提出基于模糊蚁群算法对检索结果进行聚类的基本思想,然后提取簇的标签,其目的主要是为解决传统聚类需要指定

8、簇个数且质量不高的问题,而标签的提取不是重点,重点在于聚类的质量。FatihGelgi[6]为了准确提取文档特征和对特征进行加权,使用关系图表示特征词与查询词之间的关联,再用TermRank进行关联度分析,根据关联度分析结果将特征词划分为区分性词项、歧义性词项和公共词项,并对三种不同类型的词项采用不同的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。