《信息检索基础理论》PPT课件

《信息检索基础理论》PPT课件

ID:38648693

大小:834.01 KB

页数:106页

时间:2019-06-17

《信息检索基础理论》PPT课件_第1页
《信息检索基础理论》PPT课件_第2页
《信息检索基础理论》PPT课件_第3页
《信息检索基础理论》PPT课件_第4页
《信息检索基础理论》PPT课件_第5页
资源描述:

《《信息检索基础理论》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2信息检索基础理论本章要点信息检索的基本原理查全率查准率信息检索的相关性问题检索系统的评价检索系统/工具的结构及工作原理信息检索的主要数学模型2.1信息检索的基本原理通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。存储是为了检索,检索又必须先进行存储。信息检索的基本原理信息集合匹配与选择特征化表示特征化表示需求集合计算机信息检索原理 示意图2.1.2信息检索的相关性问题定义:检索结果与用户需求一致性

2、程度影响因素:用户信息需求的表达相关度判断的算法用户的主观判断手检相关性、机检相关性“相关性”(relevance),是指信息检索系统针对用户的查询(query)从文档集中检出的文档与查询之间的一种匹配关系。现代信息检索以自然语言文本为对象,从严格意义上讲,文档与查询之间不再是数据库检索中的那种简单的匹配关系。但“匹配”这一术语一直在使用,这里也接受这种说法。手检相关性依赖于用户智能知识结构、项目进展阶段、用户心理、认知行为、认知能力提高手检相关性的方法:分析概念及学科属性;对检索工具的了解调整检索策略机检相关性系统相关性(1)词

3、频方法(2)位置方法(3)引用率方法(4)点击率方法(5)分类或聚类用户相关性(1)基于词频统计的相关性当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面)。早期的搜索引擎结果排序都是基于词频统计的,如Infoseek,Excite,Lycos等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术

4、。(2)位置方法据关键词在文中出现的位置来判定文件的相关性。认为关键词出现得越靠前,文件的相关程度就越高。(3)引用率方法科学引文分析超链分析百度GooglePangRank算法WEB中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术。绝大部分链接分析算法都有共同的出发点:更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。   最著名的链接分析算法是Stanford大学提出并应用到Google搜索引擎中的PageRank算法

5、以及IBM用于CLEVER搜索引擎的HITS算法。HITS是IBMAlmaden研究中心开发的另一种链接分析算法。它认为每个WEB页面都有被指向、作为权威(Authority)和指向其他页面作为资源中心(Hub)的两方面属性,其取值分别用A(p)和H(p)表示。A(p)值为所有指向p的页面q的中心权重H(q)之和,同样,页面p的中心权重H(p)值是所有p所指向的页面q的权威权重A(q)之和,如下式:A(p)=∑H(qi)(其中qi是所有链接到p的页面)H(p)=∑A(qi)(其中qi是所有页面p所链接到的页面)链接分析方法常常和基

6、于内容的检索方法相结合。尽管很多基于较小的数据规模(数十G)网页数据的实验并不能证明链接分析算法能够提高检索的性能。但是,很多人都相信,链接分析方法能够反映WEB社会的一些最自然的属性,应该能够在大规模真实环境下提高检索结果。Google的使用成功也增强了大家的信心砝码。PageRank定义的是在WEB中页面的访问概率。访问概率越大的页面的PageRank值也越大。具体的计算公式是:Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+Pr(t2)/C(t2)+…+Pr(tn)/C(tn))即,每个页面的PageRank(Pr

7、)是无意中直接浏览到的概率和从上一页中继续访问的概率总和。其中,T是节点(页面)总数,C(t)是从页面t指出的超链接总数,d称为阻尼因子(dampingfactor),一般取值为0.85。概率Pr(t)反映了节点t的重要程度。(4)点击率方法“鼠标投票”代表:DirectHit(5)分类和聚类分类:将一篇文章/文本自动的识别出来,按照先验的类别进行匹配,确定。聚类:将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。模糊聚类:没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差

8、等都是不确定因素。相关性判断方法的缺点分析标引停留在字符层次苹果?不能区分同形异义词公车?不能联想自行车单车脚踏车…相关性研究的热点基于内容的理解联想功能及语义处理相关反馈技术提供信息导引功能2.1.3信息检索的效果评价评价指标体系查全率查准率漏检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。