《信息检索的评价》PPT课件

《信息检索的评价》PPT课件

ID:45182318

大小:2.31 MB

页数:47页

时间:2019-11-10

《信息检索的评价》PPT课件_第1页
《信息检索的评价》PPT课件_第2页
《信息检索的评价》PPT课件_第3页
《信息检索的评价》PPT课件_第4页
《信息检索的评价》PPT课件_第5页
资源描述:

《《信息检索的评价》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、现代信息检索MODERNINFORMATIONRETRIEVAL第二章信息检索的评价(IRevaluation)课前思考题为什么要评价?评价什么?如何评价?怎么基于实验结果,给出各项评价指标?2提纲信息检索的评价基本指标:召回率、正确率其他指标:F值、AP、MAPTREC会议概况3提纲信息检索的评价基本指标:召回率、正确率其他指标:F值、AP、MAPTREC会议概况4从竞技体育谈起世界记录vs.世界最好成绩110米栏世界记录:刘翔,中国,12’’88男子马拉松世界最好成绩:保罗·特尔加特,肯尼亚,2小时4分55秒评

2、价要公平!环境要基本一致:天气、风速、跑道等等比赛过程要一样:竞走中的犯规指标要一样:速度、耐力5为什么要评估IR?通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高类比:110米栏各项技术---起跑、途中跑、跨栏、步频、冲刺等等信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。6IR中评价什么?效率(Efficiency)—可以采用通常的评价方法时间开销空间开销响应速度效果(Effectiveness)返回的文档中有多少相关文档所有相关文档中返回了多少返回得靠不靠前其

3、他指标覆盖率(Coverage)访问量数据更新速度7如何评价效果?相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。TheCranfieldExperiments,CyrilW.Cleverdon,1957–1968(上百篇文档集合)SMARTSystem,GeraldSalton,1964-1988(数千篇文档集合)TREC(TextREtrievalConference),DonnaHarman,美国标准技术研究所,1992-(上百万篇文档),信息检索的“奥运会”8评价指标分类对单个查

4、询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标(通常用于对系统的评价)求平均9评价指标(1)10评价指标(2)召回率(Recall):RR/(RR+NR),返回的相关结果数占实际相关结果总数的比率,也称为查全率,R∈[0,1]正确率(Precision):RR/(RR+RN),返回的结果中真正相关结果的比率,也称为查准率,P∈[0,1]两个指标分别度量检索效果的某个方面,忽略任何一个方面都有失偏颇。两个极端情况:返回1篇,P=100%,但R极低;全部返回,R=1,但P极低11召回率和正确率一个计算例

5、子一个例子:查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档Recall=80/100=0.8Precision=80/200=0.4结论:召回率较高,但是正确率较低12关于正确率和召回率的讨论(1)“宁可错杀一千,不可放过一人”偏重召回率,忽视正确率。冤杀太多。判断是否有罪:如果没有证据证明你无罪,那么判定你有罪。→召回率高,有些人受冤枉如果没有证据证明你有罪,那么判定你无罪。→召回率低,有些人逍遥法外13关于正确率和召回率的讨论(2)虽然Precision和Recall都很

6、重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。14关于召回率的计算对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,不可能准确地计算召回率缓冲池(Pooling)方法:对多个检索系统的TopN个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的,在

7、TREC会议中被广泛采用。15正确率和召回率的问题两个指标分别衡量了系统的某个方面,但是为比较带来了难度,究竟哪个系统好?大学最终排名也只有一个指标。解决方法:单一指标,将两个指标融成一个指标两个指标都是基于集合进行计算,并没有考虑序的作用举例:两个系统,对某个查询,返回的相关文档数目一样都是10,但是第一个系统是前10条结果,后一个系统是最后10条结果。显然,第一个系统优。但是根据上面基于集合的计算,显然两者指标一样。解决方法:引入序的作用召回率难以计算解决方法:Pooling方法,或者不考虑召回率评价指标(3)

8、—P和R融合17评价指标(4)-引入序的作用18评价指标(5)—引入序的作用19P-R曲线的例子20P-R曲线21P-R曲线的插值问题22P-R的优缺点优点:简单直观既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣23评价指标(6)—P-R曲线的单一指标24P-R曲线中的BREA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。