欢迎来到天天文库
浏览记录
ID:32355504
大小:455.48 KB
页数:6页
时间:2019-02-03
《中文信息学报年度86信息检索评测方法研究和实施》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、中文信息学报第20卷增刊JOURNALOFCHINESEINFORMATIONPROCESSINGVol.20SUPPLEMENT文章编号:1003一0077(2006)增刊一0019一062005年度863信息检索评测方法研究和实施张俊林,,刘洋2,孙乐‘,刘群2(I.中国科学院软件研究所,北京100080;2.中国科学院计算技术研究所,北京100080)摘要:本次863中文信息检索评测的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组综合考虑了目前信息检索面临的难点以及中文信息检索具有的特点设计了本次信息检索评测,本文详细描述了本次评测的组
2、织过程,包括查询条件设计,语料库情况,标准答案查找方法以及评价指标和评测软件的介绍,通过对参评队伍的结果数据进行分析并结合查询条件的类型,本文还讨论了现有检索技术的优点以及存在的不足。关键词:863;中文信息检索;评测中图分类号二TP391文献标识码:AResearchonthe863ChineseInformationRetrievalEvaluation(2005)MANGJun-lin',LIUYang2,SUNLe',LIUQun2(1.InstituteofSoftware,ChineseAcademyofScience,Beijing100080,China;2.Institu
3、teofComputation,ChineseAcademyofScience,Beijing100080,China)Abstract;Theobjectiveof863ChineseinformationretrievalevaluationistoinvestigatethecurrentresearchstatusandthesystemvalidityofChineseIRsystemunderthecircumstanceofmassdataofWEB.TheorganizersconsiderboththedifficultiestheIRtechnologyisfacing
4、andthecharacteristicofChineseIRtodesigntheevaluation.Inthispaper,wedescribethefollowingmainproceduresoftheevaluation;querydesigning,corpuscomposition,relevantdocumentsetfindingandtheevaluationtools.WealsodiscusstheadvantagesanddisadvantagesthecurrentIRtechnologyshowsinthetest勿analyzingtheperforman
5、ceofallthesubmittedruns.Keywords;863;Chineseinformationretrieval;evaluation1引言为了进一步了解国内外在中文信息处理和智能人机接口技术领域的现状,检查863计划信息领域计算机软硬件技术主题中相关课题的进展情况,促进交流和提高,推动技术进步和成果的应用与产业化,并为863计划课题验收和下一轮课题评选打下基础,计算机主题专家组举行了2005年度863计划中文信息处理与智能人机接口技术评测—信息检索评测。本次检索的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组对参加信息检索评
6、测的六个单位的信息检索系统进行了测试,其中一个单位因为某些原因没有提交结果,所以本次评测有效参加队伍为五个。收稿日期:2005一11-05定稿日期:2006-01一13基金项目:国家863计划资助项目(2004AA114010;2003AA111010)作者简介:张俊林(1974-),男,博士,助理研究员,主要研究方向为信息检索,自然语言处理等.19在本次评测,我们针对信息检索面临的难点以及中文信息检索面临的独特问题设计了评测实验,希望能够通过大规模数据评测来评价现有检索技术。本文以下内容分别叙述本次评测的组织过程以及针对评测结果对现存技术的优点和不足作初步的分析。2实验设计研究表明〔‘〕
7、英文信息检索导致效果差的主要原因包括:查询条件词汇权重无法正确设定;词汇的歧义以及查询条件和文章选择表达某一主题词汇不同导致的不匹配等,另外对于中文来说,由于相对英文一般在索引或者查询条件分析阶段增加了分词过程,所以中文分词中存在的一些问题比如命名体识别,新词语,缩略语等也会影响检索的准确性。中文与接口技术评测组针对信息检索面临的难点以及中文信息检索面临的独特问题设计了评测实验,期望能够通过大规模数据评测来推动中文信息检
此文档下载收益归作者所有