欢迎来到天天文库
浏览记录
ID:38648739
大小:368.50 KB
页数:46页
时间:2019-06-17
《《信息检索模型》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、信息检索信息检索(informationretrieval,IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。发展的几个阶段手工检索(早期,情报检索)穿孔卡片检索(1950s)计算机检索(面向主题,1960s)联机检索(1970s,1980s)Web检索(1990s)Adhocretrieval(特别检索:文档集合保持不变)Collection“FixedSize”Q2Q3Q1Q4Q5IR的两种形式:AdHocandFilteringFiltering(过滤:用户需求不变)DocumentsStreamUser1ProfileUser2ProfileDocsFil
2、teredforUser2DocsforUser1IR的两种形式:AdHocandFiltering相关概念停用词(stopword),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a,it等;在中文中常见的有“是”,“的”,“地”等。索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组.词干提取(英文中)countries=>country,interesting=>interest组合词:北京大学中文分词(wordsegmentation),或称切词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系
3、统实验室”,分词为“网络/与/分布式/系统/实验室/”。信息检索模型信息检索模型的概述信息检索模型信息检索模型(IRmodel),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj)是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值文档逻辑视图D是一个文档集合,通常由文档逻辑视图来表示。文档逻辑视图可以是一组索引词或关键词。也可以用n-gram方式表示。既可以自动提取,也可以是由人主观指定。(从全文到一组标引词)信息检索模
4、型Q是一个查询集合,用户任务的表达,由查询需求的逻辑视图来表示。F是一个框架,用以构建文档,查询以及它们之间关系的模型R(qi,dj)是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值即:IR模型由上述四个要素组成信息检索模型的分类三类:基于内容的信息检索模型,结构化模型,浏览型检索模型.基于内容的信息检索模型有集合论模型:布尔模型、模糊集合模型、扩展布尔模型代数模型:向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型概率模型:经典概率论模型、推理网络模型、置信(信念)网络模型非重叠链表模型邻近结点模型结构化模型检索:特别检索过滤浏览
5、用户任务经典模型布尔模型向量模型概率模型集合论模型模糊集合论模型可扩展布尔模型概率模型推理网络模型信任度网络模型代数模型广义向量模型潜语义标引模型神经网络模型浏览扁平式模型结构导向模型超文本模型信息检索模型的分类经典信息检索模型布尔模型向量空间模型经典概率模型经典信息检索模型经典的信息检索模型有三个:布尔模型、向量模型和概率模型。每篇文档可以用一组有代表性的关键词即索引词集合来描述。索引词是文档中的词,其语义可以帮助理解文档的主题;因此,索引词常用于编制索引和概括文档的内容。索引词通常由名词构成,因为名词本身具有语义,人们能够比较容易地理解它的意思。形容词、副词、连词很少作为索引词,因为它们
6、主要起补充作用,不能单独表示语义。布尔模型(BooleanModel)布尔检索模型一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上。遵循两条基本规则:每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为0或1。查询是由三种布尔逻辑运算符and,or,not连接索引词组成的布尔表达式。根据布尔逻辑的运算规定,提问式q可以被表示成由合取子项(conjunctivecomponent)组成的析取范式(disjunctivenormalform,简称DNF)形式。离散数学相关概念用连词∧把几个公式连接起来而构成的公式叫做合取,而此合取式的每个组成部分叫做合取项。p并且q,记作“p∧
7、q”用连词∨把几个公式连接起来所构成的公式叫做析取,而此析取式的每一组成部分叫做析取项。p或q,记作“p∨q”非p┐p离散数学相关概念析取范式:仅由有限个简单合取式构成的析取式A=(p∧┐q∧r)∨(┐p∧q)∨(q∧┐q)合取范式:仅由有限个简单析取式构成的合取式A=(p∨┐q∨r)∧(┐p∨q)∧(q∨┐q)范式存在定理任一命题公式都存在着与之等值的析取范式和合取范式离散数学相关概念主析取范式极小项在
此文档下载收益归作者所有