经典信息检索模型的分类比较

经典信息检索模型的分类比较

ID:5386271

大小:2.05 MB

页数:3页

时间:2017-12-08

经典信息检索模型的分类比较_第1页
经典信息检索模型的分类比较_第2页
经典信息检索模型的分类比较_第3页
资源描述:

《经典信息检索模型的分类比较》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、软件2011年第32卷第3期Software国际IT传媒品牌经典信息检索模型的分类比较于 莉(天津市财贸管理干部学院,天津)摘 要:信息检索的模型,主要是用于检索和排序的计算用户查询请求和信息的匹配程度的问题。目前已有的检索模型有布尔模型、向量模型、概率模型以及以上三个经典模型的变形模型。通过对经典模型进行分析比较,以便在设计具体的检索系统时,根据检索对象的特点,采取合适的检索模型,提高检索效率。关键词:信息检索;经典模型;扩展模型中图分类号:TP31文献标识码:Adoi:10.3969/j.iss

2、n.1003-6970.2011.03.008ClassificationofClassicInformationRetrievalModelYULi(JournalofTianjinInstitueofFinancialandCommercialManagement)【Abstract】Informationretrievalmodel,isprimarilyusedtoretrieveandrankofaqueryandinformationthatmatchestheproblem.Atpre

3、senttherearethebooleanmodel,thevectorspacemodel,theprobabilisticmodelanddistortedmodeloftheabovethreeclassicmodels.Byanalysisoftheclassicalmodel,inordertoadoptsuitablemodeltoimprovetheretrievalefficiencywhendesigningspecificretrievalsystem.【Keywords】in

4、formationretrieval;classicinformationretrievalmodel;extendedmodel0 引言检索结果的精确度并不是很高。为了提高检索结果的准确率,就需要预知文档和检索需求的相关度,这就依赖于对检索结果信息检索技术在许多领域中都有相应的应用,例如:Web中的文档进行排序的算法(rankingalgorithm)。不同的计算搜索引擎、图形图像检索、视频检索、构件检索等。在这些领域文档相关度的假设前提就会导致不同的信息检索模型。由图1中,采用的主要检索模型都是

5、以信息检索中的经典模型为主。可以看出,经典信息检索模型主要有三类:布尔模型、向量模型从数学理论角度来看,信息检索模型可以分为集合论模型、代和概率模型。在经典模型中,使用一组关键字(称为索引术语)数论模型和概率论模型。其中,集合论模型以布尔模型为基本来描述每篇文档。一般索引术语是一个名词或名词词组。假设模型,加入集合论理论进行扩展;代数论模型是在向量模型的ki是一个索引术语,dj是集合中的一份文档,则使用wi,j≥0说基础上,添加特殊假设前提构造不同的信息检索模型;概率论明描述文档dj的术语ki的重要

6、程度。用户的信息需求Q也表模型以概率模型为基础,增加推理网或信任网理论。图1显示示成索引术语的集合。不同的检索模型中,相似度函数sim(dj,了从数学理论角度对信息检索模型进行的分类。qi)是不同的。1 布尔模型布尔模型是基于集合论和布尔代数的检索模型。因此,查询请求表示为由not、and和or构成的索引术语的布尔表达式,例如,[q=ka∧(kb∨kc)],它可以转换为析取范式(DNF),并且,索引术语ki与文档dj相关联的权重是二元的,即wi,j∈{0,1}。对于布尔模型,索引术语权重的取值范围为

7、wi,j∈{0,1}。查询请求q是一个传统的布尔表达式,qdnf是查询请求q的析图1 从数学理论角度对信息检索模型进行的分类取范式。此外,假设qcc代表qdnf的任意合取构成因子。文档dj在信息检索中,信息对象和用户的信息需求都是使用一组和查询请求的相似度被定义为:索引术语集合标识的。因此,存在信息丢失或遗失的现象,信息作者简介:于莉(1977-),天津市财贸管理干部学院讲师,硕士学位.· 32 ·软件于莉:经典信息检索模型的分类比较果集的子集。概率模型中,索引术语的权重也都是二元的,即wi;

8、j∈0,1;在布尔模型中,如果sim(dj,q)=1,则表示文档dj和查询wi,q∈{0,1}。查询请求q是一个索引术语的子集。假设R是请求q是相关的;否则,是不相关的。已知的相关的文档的集合,R是R的补集(即不相关的文档的集合)。定义P(R

9、dj)为文档dj和查询请求q相关的概率,2 向量模型P(R

10、dj)为dj和q不相关的概率。则文档dj和查询请求q由于二元权重并不能对检索出来的文档进行相关度排序,的相似度为:因此,需要使用非二元的权重计算文档和查询请求的相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。