构建汉语问答系统评测平台

构建汉语问答系统评测平台

ID:8151388

大小:137.00 KB

页数:9页

时间:2018-03-07

构建汉语问答系统评测平台_第1页
构建汉语问答系统评测平台_第2页
构建汉语问答系统评测平台_第3页
构建汉语问答系统评测平台_第4页
构建汉语问答系统评测平台_第5页
资源描述:

《构建汉语问答系统评测平台》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一届全国信息检索与内容安全学术会议基金资助:本课题得到国家自然科学基金(60372016)和教育部归国留学人员科研基金资助。作者简介:吴友政,安徽,博士生,email:yzwu@nlpr.ia.ac.cn;赵军,山西,副研究员,博士,email:jzhao@nlpr.ia.ac.cn;段湘煜,河南,博士生,email:xyduan@nlpr.ia.ac.cn;徐波,浙江,研究员,博士,email:xubo@hitic.ia.ac.cn构建汉语问答系统评测平台吴友政,赵军,段湘煜,徐波(中国科学院自动化研究所模式识别国家重点实验室,北京100080)摘要:TREC、

2、NICIR和CLEF等评测的成功已经证明:系统化、大规模的定量评测对问答系统的研发有巨大的推动作用。然而,缺乏汉语问答系统评测机制已经成为制约汉语问答技术发展的主要障碍。本研究小组在吸收英文、日文等问答系统评测的成功经验基础上,推出面向汉语的问答系统评测平台(EvaluationPlatformforChineseQuestionAnswering,简称EPCQA),并规划了汉语问答系统评测的几个阶段。除此之外,本文还对EPCQA语料库(1.8GB互联网网页)、测试集(从多种不同的途径收集了4250个基于的事实用户提问)、打分标准(MRR、准确率、召回率和F值)等构

3、建过程进行了详细的介绍。关键词:汉语问答系统;评测BuildinganEvaluationPlatformforChineseQuestionAnsweringSystemsYouzhengWuJunZhaoXiangyuDuanBoXu(NationalLaboratoryofPatternRecognition,InstituteofAutomation,CAS,Beijing100080)Abstract:ThesuccessofTREC,NICIR,CLEFandetchasprovedthatsystematicalandlargescaleevaluat

4、ionwillacceleratetheresearchonQuestionAnswering(QA).Unfortunately,noevaluationmechanismhasbecomethemainhandicaptotheresearchanddevelopmentofChineseQAsystems.Basedontheexperiencesfrompreviousevaluationsystems,webuiltanevaluationplatformandpresentedtheroadmapforChineseQuestionAnswering.T

5、hepaperintroducesindetailtheprocessofbuildingtheevaluationplatform,whichiscomposedofthecorpusastheprimarysourceofanswers(1.8GBfromWeb),thetestquestionset(4250testquestionsviamulti-approaches),andtheevaluationsintermsofMRR,precision,recallandf-measure.keywords:ChineseQuestionAnswering;E

6、valuation9第一届全国信息检索与内容安全学术会议1引言所谓问答系统,是指系统接受用户以自然语言形式描述的提问(例如:世界上最大的宫殿是什么宫殿?),并从大量的异构数据中查找出能回答该提问的准确、简洁的答案(例如:“紫禁城”或者“故宫”)的信息检索系统。因此,问答系统与根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别。它能够向用户提供真正有用、精确的信息,将是下一代搜索引擎的理想选择之一。经过这几年的发展,自然语言问答系统已经成为自然语言处理领域和信息检索领域的重要分支和新兴研究热点。在问答系统的研发进程中,系统评估对于系统的研发和应用有显著的影响

7、。几年来,“通过系统化、大规模的定量评测推动研发向前发展”的研究方法和技术路线受到越来越多的研发人员的重视,例如国际上著名的TREC(TextRetrievalConference),MUC(MessageUnderstandingConference),DUC(DocumentUnderstandingConference),国内的863、973评测等等。这种以评测推动研究发展的思路意在:1)以系统化、大规模测试为基础,推动研究的向前发展;2)经由开放式的论坛,使与会者能交流研究的成果与心得,增进学术界和产业界的交流互通;3)经由对真实环境的模拟与重要改进,加

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。