欢迎来到天天文库
浏览记录
ID:52439275
大小:565.12 KB
页数:81页
时间:2020-03-27
《信息检索模型的概述.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、提纲¢信息检索模型的概述¢布尔模型¢向量空间模型(VSM)¢扩展的布尔模型¢潜在语义索引模型(LSI)¢概率模型¢基于统计语言模型的信息检索模型¢基于本体论的信息检索模型信息检索模型的概述什么是模型?¢模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述¢面对相同的输入,模型的输出应能够无限地逼近现实世界的输出¢举例:天气的预测模型¢模型和实现的区别¢一个模型可以用多种方法实现¢例如:布尔模型可以用倒排文档(invertedfile)实现,也可以用B-tree实现信息检索模型¢四元组[D,Q,F,R(q
2、i,dj)]¢D:文档集的机内表示¢Q:用户需求的机内表示¢F:文档表示、查询表示和它们之间的关系的模型框架(Frame)¢R(qi,dj):给queryqi和documentdj评分¢信息检索模型决定于:¢从什么样的视角去看待查询式和文档¢基于什么样的理论去看待查询式和文档的关系¢如何计算查询式和文档之间的相似度模型分类集合论模糊集扩展的布尔模型信息检索模型代数布尔向量空间扩展的向量空间概率隐性语义索引知识神经网络概率人工智能语言模型基于本体论的模型推理网络信念网络布尔模型(BooleanModel)布尔模
3、型¢文档表示¢一个文档被表示为关键词的集合¢查询式表示¢查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括弧指示优先次序¢匹配¢一个文档当且仅当它能够满足布尔查询式时,才将其检索出来¢不同的系统可以使用:¢不同的去除停用词(stopwordremoval)策略和stemming策略¢索引中不同类型的辅助信息¢不同的实现方法强调¢到目前为止,布尔模型是最常用的检索模型,因为:¢由于查询简单,因此容易理解¢通过使用复杂的布尔表达式,可以很方便地控制查询结果¢相当有效的实现方法¢相当于识
4、别包含了一个某个特定term的文档¢经过某种训练的用户可以容易地写出布尔查询式¢布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”问题¢布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回¢非常刚性:“与”意味着全部;“或”意味着任何一个¢如果“我想要n个词中m个词同时出现的文档”,怎么表示?¢不可能企望用户自己规定m值¢系统可以从m=n开始,然后逐渐减少m,但很麻烦¢很难表示用户复杂的需求¢很难控制被检索的文档数量¢原则上讲,所有被匹配的文档都将
5、被返回¢很难对输出进行排序¢不考虑索引词的权重,所有文档都以相同的方式和查询相匹配¢很难进行自动的相关反馈¢如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?向量空间模型统计模型¢基于关键词(一个文本由一个关键词列表组成)¢根据关键词的出现频率计算相似度¢例如:文档的统计特性¢用户规定一个词项(term)集合,可以给每个词项附加权重¢未加权的词项:Q=〈database;text;information〉¢加权的词项:Q=〈database0.5;text0.8;information0.2〉¢
6、查询式中没有布尔条件¢根据相似度对输出结果进行排序¢支持自动的相关反馈¢有用的词项被添加到原始的查询式中¢例如:Q⇒〈database;text;information;document〉统计模型中的问题¢怎样确定文档中哪些词是重要的词?¢怎样确定一个词在某个文档中或在整个文档集中的重要程度?¢怎样确定一个文档和一个查询式之间的相似度?¢在WWW中,什么是文档集(collection),链接、文档结构以及其它形式特征(如字体、颜色等)对统计模型有何影响?向量空间模型¢若干独立的词项被选作索引项(indexte
7、rms)or词表vocabulary¢索引项代表了一个应用中的重要词项¢计算机科学图书馆中的索引项应该是哪些呢?体系结构总线计算机数据库….XML计算机科学文档集文档集中的索引项向量空间模型¢这些索引项是不相关的un-correlated(或者说是正交的orthogonal),形成一个向量空间vectorspace“计算机”“科学”“商务”计算机科学文档集该文档集中的全部重要词项向量空间模型¢实际上,这些词项是相互关联的¢当你在一个文档中看到“计算机”,非常有可能同时看到“科学”¢当你在一个文档中看到“计算机
8、”,有中等的可能性同时看到“商务”¢当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”向量空间模型¢2个索引项构成一个二维空间,一个文档可能包含0,1或2个索引项¢d=〈0,0〉(一个索引项也不包含)i¢d=〈0,0.7〉(包含其中一个索引项)j¢d=〈1,2〉(包含两个索引项)k¢类似的,3个索引项构成一个三维空间,n个索引项构成n维空间¢一个文档或查询式可以表示为n个元素的线性组合图示
此文档下载收益归作者所有