欢迎来到天天文库
浏览记录
ID:59588763
大小:978.00 KB
页数:47页
时间:2020-11-14
《信息检索技术.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2021/8/2912021/8/291信息检索技术2021/8/292Outline信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语22021/8/293信息检索综述信息检索(InformationRetrieval)是指将信息按一定的方式组织和储存起来,并根据用户的查询字串,从表示信息非结构化数据,特别是非结构化的文本数据中找到与查询字串相关信息的过程。由于计算机信息检索具有速度快、效率高,数据内容新、信息容量大等特点,已成为人们在日常工作和生活中获取信息的主要手段之一。32021/8/294信息检索中的术语在当前信息检索的研究中,非结构化的数据记录通常特
2、指自然语言文本数据记录,又称(document)。将大量非结构化的数据记录,按照一定的方式组织和存储起来而构成的数据记录的集合称为信息检索中的数据全集(collection)。42021/8/295信息检索中的术语给定一个数据全集,信息检索过程可以描述为根据用户特定的信息需求(informationneed),在数据全集中获取所有和仅有的与用户信息需求相关的文档,并将这些文档按照相关性(relevance)的大小由大到小地排列(rank)。用户特定的信息需求由查询(query)来表达,换句话说,查询是反映用户信息需求的字符串,这个字符串可以是关键字序列,也可以是一个布尔表达式,或者
3、直接用自然语言表达的问句。52021/8/296信息检索系统62021/8/297信息检索系统(1)用户接口模块(2)用户查询文本操作模块停用词(3)文档文本操作模块文档文本操作对文档数据库中的文档进行过滤停用词、词干抽取等处理,并转换为机器内部的文档表示格式供索引构建模块处理。72021/8/298信息检索系统(4)用户查询处理模块(5)索引构建模块(6)数据库管理模块(7)搜索模块(8)相关度排序模块82021/8/299信息检索系统整个信息检索系统可以分为检索子系统和信息存储管理子系统两大部分。9信息检索系统的终极目标是使满足系统用户的信息需求的开销(overhead)达到最
4、小。所谓开销,是指从用户向系统输入了一个查询开始,到他读到了包含他的信息需求的文档为止的全部时间。2021/8/2910信息检索系统的评价一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标。相关性介绍两个最常用的基于相关性的系统评价指标分别是精确度(precision)和召回率(recall)。102021/8/2911信息检索系统的评价112021/8/2912信息检索系统的评价人们经常使用精确度-召回率曲线(precision-recallcurve)来定量分析一个信息检索系统的改进情况或者比较几个信息检索系统的优劣。122021/8/2913信息检索系统的评价例
5、如:设有一特定查询q,在数据全集中所有与该查询相关的文档为信息检索结果按相关度由大到小顺序是(□标志与q相关的文档):132021/8/2914信息检索中的系统的评价精确度-召回率曲线分析142021/8/2915信息检索系统中的评价许多用户对信息检索系统精确度要求较高,他们希望尽快查到相关的文档,而不把时间浪费在无关的文档上。另外一些用户则认为召回率更加重要,他们认为相关文档占检索返回的文档比例越高,系统效果则越好。VanRijsbergen于1979年提出了E(effectiveness)量度将精确度和召回率结合起来,并赋以不同的权重,成为一个统一的系统有效性的量度:15202
6、1/8/2916信息检索简史信息检索技术起源1950年,美国学者CalvinN.Mooers首创了“信息检索”这一术语。1958年,美国学者Luhn提出了统计信息检索的基本理论和方法。1960年,Marson和Kuhns提出了信息检索的概率模型。1965年,美国康奈尔大学的GerardSalton教授及其学生,创立了信息检索向量空间模型162021/8/2917信息检索简史1968年,Rocchio和Salton共同提出了查询扩展的方法。1972年,Lockheed公司推出了DIALOG系统,成为世界首例商用在线信息查询服务系统。80年代沉寂时期90年代爆炸期172021/8/29
7、18Outline信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语182021/8/2919信息检索的统计模型应用于信息检索领域的技术与方法可以粗略地划分为两大类:基于统计的方法和基于语义的方法。基于统计的方法主要根据用户查询与数据全集中的数据的统计量度计算相关性。基于语义的方法则对用户查询和数据全集中的数据进行一定程度的语法语义分析,换句话说,这类方法是在对用户查询和数据全集内容理解的基础上进行两者的相关性计算。192021/8/2920信息检
此文档下载收益归作者所有