信息检索技术 第三章 信息检索评价

信息检索技术 第三章 信息检索评价

ID:5308448

大小:373.40 KB

页数:31页

时间:2017-12-07

信息检索技术 第三章 信息检索评价_第1页
信息检索技术 第三章 信息检索评价_第2页
信息检索技术 第三章 信息检索评价_第3页
信息检索技术 第三章 信息检索评价_第4页
信息检索技术 第三章 信息检索评价_第5页
资源描述:

《信息检索技术 第三章 信息检索评价》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、信息检索的评价11.1概述第二章介绍了各种信息检索模型,怎样才能知道哪些技术在那些应用中有效?信息检索系统的评价测试集,由三部分组成:一个文档集合;一组用于测试的信息需求的集合,信息需求可以表示成查询;一组相关性判定结果,对于每个查询-文档对而言,通常会赋予一个二值判断结果,相关或不相关。21.2测试集文档的人工相关性判定常规的IR系统评价方法是围绕相关和不相关的概念展开的。对于每个用户的信息需求,人工将文档集中的每篇文档给出判定结果:相关或者不相关。这些判定结果称为相关性判定的黄金标准(goldstandar

2、d)standard)或绝对真理(groundtruth)(groundtruth)。在构建测试集时,测试集中的文档及信息需求的数目必须合理。对于每一个给定的信息需求,一般要求最少有50条相关文档。31.3信息需求和查询人工给出文档集中文档的相关性判定结果是基于信息需求而不是查询的。信息需求:Whetherdrinkingredwineismoreeffectiveatreducingyourriskofheartattackseffectiveatreducingyourriskofheartattacksthatd

3、rinkingwhitewine.查询:WineANDredANDwhiteANDheartWineANDredANDwhiteANDheartANDattackANDeffective.一篇满足信息需求的文档是相关的,但这并不是因为它碰巧都包含查询中的这些词。PthPython:宠物蛇或者编程语言Pth?Python?41.4信息检索的评价与系统开发许多信息检索系统都包含许多的权重参数,改变这些参数能调整系统的性能。直接在测试集上调参不可取,这会导致参数过训练的问题。通常将测试集分为两部分,一部分用于参数调整(

4、开发集,dldevelopmentset),一部分用于测试最终的检索性能(测试集,testset)。52.标准测试集TREC文本检索会议(TextRetrievalConferenceTextRetrievalConference,TREC)是信息检索界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)(美国国防部)共同资助,开始于1992年。最著名的测试集:1992-1999年最早的8次,总共由6张CD组成,包括189万篇文档、450个信息需求及相关性判定结果

5、。近年来,GOV2文档集,用于研究的最大规模的Web文档集。由2500万网页组成。6相关性判断在早期的检索实验集合中,相关性判断是全方位的,就是说,由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。由于TREC的文献集合如此庞大,全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。7“pooling”方法两个假设假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的“pooling”技术的具体操作方法是:针对

6、某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K100K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool”由检索评价专家进行人工判断,最终评判出每一文档的相关性82.标准测试集NTCIRNTCIR(NIITestCollectionforIRSystems)NTCIR(NIITestCollectionforIRSystems)始于1998年,是由日本国立信息学研究所(NationalInstituteofInformaticsInstituteofInformat

7、ics,简称NII)主办的搜索引擎评价型国际会议。关注于东亚语言和跨语言检索任务。跨语言检索:查询是一种语言,而待检索的文档是由另一种或者多种语言所构成。92.标准测试集CLEF(CrossLanguageEvaluationForum)CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展,CLEF的目标只在于跨语言信息检索以及多语言信息检索方面103.无序检测结果的评价在给定测试集的情况下,如何度量系统的效果?

8、两个基本的指标:正确率P:返回的结果中相关文档所占的比例。返回结果中相关文档的数目Precision返回结果的数目召回率R:返回的相关文档占所有相关文档的比例。返回结果中相关文档的数目Recall所有相关文档的数目11举例假设查询q为一给定的查询式,而包含q的相关文档集R为下面的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。