email检索系统的设计与实现

email检索系统的设计与实现

ID:32353491

大小:962.34 KB

页数:37页

时间:2019-02-03

email检索系统的设计与实现_第1页
email检索系统的设计与实现_第2页
email检索系统的设计与实现_第3页
email检索系统的设计与实现_第4页
email检索系统的设计与实现_第5页
资源描述:

《email检索系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、复旦大学硕士学位论文第2章Email检索的相关概念和项目2.1信息检索模型目前信息检索主要有两大类的方法,基于语言学和人工智能的方法(即理性主义)以及基于语料库和统计语言模型的新方法(即经验主义)。目前得到广泛应用的是基于语料库和统计语言模型的方法,而基于语言学和人工智能的“理性主义”方法一般结合到“经验主义”方法之中【11]。60年代中期以来,人们提出了大量检索模型。自最初的为一些较小的和较为结构化的文档所设计的特殊模型(如文献记录,包括题目、作者和主题码等),发展到现在具有较强理论基础和能处理多种文档格

2、式的模型。当前的模型能够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反馈进行查询优化等功能,使得系统性能大大提高。常用的信息检索模型主要有三种:①严格匹配模型。它是许多商业信息检索系统的理论基础。②概率模型。把检索看作是文档表示和查询之间匹配程度的概率估计问题。③向量空间模型。把文档和查询看作是多维向量空间中的向量,用距离作为相似度的度量。信息检索模型用被称为索引项的关键词来表示一篇文档。索引项可以是字、词或词组。将一篇文档表示成了一批索引项的集合后,我们就会发现不同的索引项对描述这篇文档所起的

3、作用是不一样的。通常我们认为如果一个词在每篇文档都出现,那么它对描述文档起不到任何作用;如果~个词只在很少的文档中出现,那么这个词就能显著缩小我们需要检索的空间,即它对描述这篇文档能起到很大作用。这就引出了权重的概念。令ki表示一个索引项,aj表示一个文档,Wi,j>0表示索引项ki在文档aj中的权重。权重W{.J量化了项ki对描述文档dj所起到的作用。定义:令t表示文档集里所有不同索引项的数目,ki表示一个索引项。K=fkl,k2,⋯,kt}表示索引项构成的集合。对于文档dj中有的索引项ki,权重w¨>O

4、。对于文档dj中没有的索引项ki,权重wi.=o。这样我们就可以将文档dj表示成一个向量西=(“lj,W2⋯⋯,WlJ)。向量d,的第i维就对应丁二项k.在文档dj中的权重。6复旦大学硕士学位论文第2章Email检索的相关概念和项目2.1.1严格匹配模型严格匹配模型(ExactMatchModel)是给定一个查询,利用匹配函数,将文档集分为两个集合:匹配集和非匹配集。在匹配的文档子集中文档一般不在匹配程度上进行排序。当然可以根据文档日期、字母顺序或其他属性来排序。严格匹配模型中最简单而且具有代表性的便是布尔

5、模型。布尔检索模型是基于集合理论和布尔代数的一种最简单的检索模型。在布尔检索模型中项ki在文档di中的权重wI,i∈{0,1),即权重是二值的。如果项ki出现在文档di中,则wi,f_l;如果ki未出现在文档dj中,则Wi,i_0。在布尔检索模型中查询被表示成了布尔表达式。如用户要检索美国军事预算方面的文档,查询就表示为“美国and军事and预算”。布尔检索模型中文档和查询相似度是二值的,sim(dj,q)∈{O,1},即文档要么是相关的,要么是无关的。布尔检索模型在六、七十年代得到了较大发展,也出现了许多

6、可以应用的商业系统,比如DIALOG,STAIRS,MEDLARS等。其主要优点是定义清晰,使用简单,速度快。缺点是文档是很不精确的,不能反映出特征变量对文档表示的重要程度;相关性判断太单一:要么是0,要么是1,而没有介于0和1之间的值。这样就无法对检出的文档进行排序(因为检出的文档相关度都是1),使更相关的文档排在前面。针对布尔模型的缺点,研究者们提出了各种各样的方法,如根据命中关键词的词频排序、支持部分匹配等等。推广的一个结果是Extended布尔模型以及p-norm模型;推广的另一个结果是向量空间模型

7、。需要指出的是,现今的大部分商业搜索引擎仍然采用了布尔模型的主要思想。。2.1.2概率模型概率检索模型是通过概率的方法将查询和文本联系起来。最经典的概率检索模型是由英国伦敦城市大学的Robertson和剑桥大学的SparckJones提出的二值独立检索模型(BinaryIndependenceRetrieval,BIR)。它主要通过计算查询词中每个标引项和文本的相关概率来计算整个查询和文本的概率。BIR模型的关键问题是对其中各参数的估计,Robertson和SparckJones利用伪相关反馈技术来计算模型

8、的参数,从而最终实现检索。概率模型和向量空间模型在测试中表现出的性能不相上下,很难说哪种模型就比另一种模型优越。另外,概率检索中的相似度计算公式也融入了不少向量空间模型的思想,比如文本长度的引入。最著名的概率检索原型系统是伦敦城市大学的Okapi系统。其他的概率检索模型7复且大学硕士学位论文第2章Email检索的相关概念和项目还包括基于神经网络的概率模型、基于语言学模型的检索模型。后者90年代中期由麻省大学(UM

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。