欢迎来到天天文库
浏览记录
ID:39406131
大小:1.05 MB
页数:99页
时间:2019-07-02
《《信息检索模型》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、信息检索模型哈工大信息检索研究室2007这一部分将讲述布尔模型,向量空间模型,扩展的布尔模型概率模型和基于语言模型的信息检索模型的区别和联系基于本体的信息检索模型和基于隐性语义索引的信息检索模型信息检索模型的概述什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述面对相同的输入,模型的输出应能够无限地逼近现实世界的输出举例:天气的预测模型信息检索模型给出了文档的表示方法,查询的表示方式以及查询与文档的匹配过程信息检索模型信息检索模型是一个四元组[D,Q,F,R(qi,dj)]D:文档集的机内表示Q:用户需求的机内表示F:文档表示、查询表示和它们之间的关系的模型框架(Fram
2、e)R(qi,dj):排序函数,给queryqi和documentdj评分信息检索模型取决于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度模型分类信息检索模型布尔向量空间概率知识模糊集扩展的布尔模型集合论代数扩展的向量空间隐性语义索引神经网络语言模型推理网络信念网络概率基于本体论的模型人工智能布尔模型(BooleanModel)布尔模型最早的IR模型,也是应用最广泛的模型目前仍然应用于商业系统中Lucene是基于布尔(Boolean)模型的布尔模型描述文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键
3、词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来检索策略基于二值判定标准举例Q=病毒AND(计算机OR电脑)ANDNOT医文档:D1:…据报道计算机病毒最近猖獗D2:小王虽然是学医的,但对研究电脑病毒也感兴趣…D3:计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到?优点到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包
4、含排序的功能,即“扩展的布尔模型”问题布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性:“与”意味着全部;“或”意味着任何一个很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?向量空间模型模型的提出GerardSalton在上世纪60年代提出的向量空间模型进行特征表达成功应用于SMART(SystemfortheManipulationandRetrievalo
5、fText)文本检索系统这一系统理论框架到现在仍然是信息检索技术研究的基础模型的描述文档D(Document):泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。索引项t(Term):指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指的检索词,这样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检索字的数量。特征项权重Wk(TermWeight):指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。相似度S(Similarity):指两个文档内容相关程度的大小模型的特点基于关键词(一个文本由一个关键词列表组成)根据关键词的出
6、现频率计算相似度例如:文档的统计特性用户规定一个词项(term)集合,可以给每个词项附加权重未加权的词项:Q=database;text;information加权的词项:Q=database0.5;text0.8;information0.2查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如:Qdatabase;text;information;document模型中的问题怎样确定文档中哪些词是重要的词?(索引项)怎样确定一个词在某个文档中或在整个文档集中的重要程度?(权重)怎样确定一个文档和一个查询式之间的相似度?索引项的
7、选择若干独立的词项被选作索引项(indexterms)or词表vocabulary索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?体系结构总线计算机数据库….XML计算机科学文档集文档集中的索引项索引项的选择这些索引项是不相关的(或者说是正交的),形成一个向量空间vectorspace实际上,这些词项是相互关联的当你在一个文档中看到“计算机”,非常有可能同时看到“科学”当你在一个文档中
此文档下载收益归作者所有