第9章根据内容检索ppt课件.ppt

第9章根据内容检索ppt课件.ppt

ID:59490157

大小:1.27 MB

页数:35页

时间:2020-09-13

第9章根据内容检索ppt课件.ppt_第1页
第9章根据内容检索ppt课件.ppt_第2页
第9章根据内容检索ppt课件.ppt_第3页
第9章根据内容检索ppt课件.ppt_第4页
第9章根据内容检索ppt课件.ppt_第5页
资源描述:

《第9章根据内容检索ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第9章根据内容检索本章目标介绍根据内容检索的基本概念。介绍检索系统的评介方法。讨论针对文本数据的根据内容检索问题,集中讨论向量空间表示,以及文档中匹配查询的算法、隐含语义索引和文档分类。介绍用于对个人偏好建模的自动推荐系统。第9章根据内容检索本章目标讨论图像检索算法中表示和检索问题。介绍匹配时间序列和序列的基本概念。9.1简介传统的数据库查询定义为:查询是一种返回精确匹配指定要求的记录集合(或表项集合)的操作。例如,查询“[level=MANAGER]AND[age<30]”,返回的结果是有具有重

2、要职务的年轻雇员的列表。但在数据分析时,所感兴趣的是更一般的但不很精确的查询。例如,假设已知一个患者的人口统计学信息(比如年龄性别等等)、血液和其他常规检查的结果,以及生物医学方面的时间序列、X-光和图像。为了辅助对这个患者进行诊断,医生希望了解医院数据库中是否包含类似的患者,如果有类似的患者,那么他们的诊断、治疗方法和最终结果如何?这个问题的难点在于如何根据不同的数据类型(多元变量、时间序列和图像数据)来判断各个患者间的相似性。这类问题采用精确匹配是行不通的,因为数据库中不可能存在各项指标完全匹

3、配的患者。因此,需要解决的是在数据库找出和指定查询或指定对象最相似的k个对象的各种技术问题。可以把这种形式的检索看是交互式的数据挖掘,因为用户直接参与了探索数据集的过程—指定查询并解决匹配过程得到的结果。如果数据集是根据内容批注的,那么检索问题就简化为标准的数据库索引问题,如果数据库没有被预先索引,我们仅有要寻找目标Q(查询模式)的一个实例,根据这个查询模式Q,我们要推论出数据集中哪些其他对象和它相近。这种检索方法被称为根据内容检索(retrievalbycontent),它的最著名应用是在文本中

4、检索。在文本检索中,查询模式Q通常是很短的(查询词汇列表),然后在很大的文档集合匹配这个模式。这类问题由三个基本部分组成:1.如何定义对象间的相似尺度;2.如何实现高计算效率的搜索算法(对于给定的相似尺度);3.如何在检索过程中融入用户的反馈并进行交互。本章主要讨论第一和第三个问题,第二个问题通常是一种索引问题(一个好的索引可以极大提高效率)。在下面的分析中,我们使用“相似”这个词,又使用“距离”这个词。对应的是相似尺度最大化和距离尺度最小化,其他章节的相似度和相异度。根据内容检索需要解决的几个问

5、题:1.如何客观地评估特定检索算法的性能。2.如何决定用以计算相似尺度的表示。例如,通常用颜色、纹理和相似特征来地、表示图像;用单词的出现次数来表示文本。9.2检索系统的评价一、评价检索性能的困难之处在分类和回归中,总能以一种客观的方式来评判模型的性能。然而,对于根据内容检索来说,评价一个特定算法或技术的性能要复杂和棘手的多。主要的难点是检索系统的最终性能尺度是由检索出的信息对用户的实用性来决定的。检索是一种以人为中心的交互过程,这给评价检索性能带来了很大困难。首先我们假定相对一个特定的查询,可以

6、把对象标记为相关或不相关。换句话来说,对于任一个查询Q,我们假定存在一个二值分类标签的集合,该集合对应数据中的所有对象,指出哪个对象是相关的,哪个是不相关的。最后我们假定已经以某种方式为每个对象附加标签(假定是以一种比较客观并与人类判相一致的方式)。基于这些假定,就可以把检索问题看作一种特殊形式的分类问题—类标签依赖于查询Q,也就是,“对于查询Q相关还是不相关”,然后相对Q来估计数据库中对象的类标签。检索分类的特点:1.分类变量的定义是由用户掌握的(用户定义查询Q),因此每次运行系统时都可能变化。

7、2.主要目标不是分类出数据库的所有对象,而是返回与用户查询最相关的对象。二、查准率对查全率假定我们在一个独立的检验数据集上评价一个指定检索系统相对特定查询Q的性能。检验数据中的对象已经被预先分类为相对于查询Q是相关还是不相关。假定这个检验数据集没有被这个检索算法使用过,我们可以把检索算法想象为就是要对这个数据集中的对象作出分类(按照相对于查询Q的相关性)。如果这个算法是使用距离尺度(数据集中的每个对象相对于Q的距离)来排列对象集合的,那么这个算法通常具有一个阈值参数T。算法将返回KT个对象—和查询

8、对象Q的距离小于T的KT个对象的有序列表。通过改变T来改变检索系统的性能。假定对于有N个对象的检索数据集合,检索系统返回了KT个可能相关的对象,那么可以用表9-1来归纳这个算法的性能。表9-1中,实验中已经标记出了各文档相关还是不相关(相对于查询Q)。列对应于真实情况,行对应于算法对文档的判断。TP,FP,FN,TN分别对应于真的正,假的为正,假的为负和真的为负,其中正负是指算法所给出的分类是否相关。理想的检索算法将产生FP=FN=0的对角矩阵。其中:N=TP+FP+TN+FN(对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。