基于规则的中文阅读理解问题回答技术研究

基于规则的中文阅读理解问题回答技术研究

ID:33489544

大小:399.28 KB

页数:7页

时间:2019-02-26

基于规则的中文阅读理解问题回答技术研究_第1页
基于规则的中文阅读理解问题回答技术研究_第2页
基于规则的中文阅读理解问题回答技术研究_第3页
基于规则的中文阅读理解问题回答技术研究_第4页
基于规则的中文阅读理解问题回答技术研究_第5页
资源描述:

《基于规则的中文阅读理解问题回答技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第23卷第4期中文信息学报V01.23,No.42009年7月JOURNALOFCHINESEINF()RMATl0NPRoCESSINGJul.,2009文章编号:1003—0077(2009)04—0003—07基于规则的中文阅读理解问题回答技术研究李济洪1,杨杏丽2,王瑞波3,张娜2,李国臣3(1.山西大学计算中心,山西太原030006;2.山西大学数学科学学院,山西太原030006;3.山西大学计算机与信息技术学院,山西太原030006)摘要:该文针对中文阅读理解问答中的时间、人物、地点、数值、实体、描述六类问题,制定了各类问题回答的启发式规则集。对规则集中每条规

2、则赋予一个相应权值,利用正交表对各规则所对应的权值进行了调优选取,给出了各候选答案句基于相应规则的得分计算方法。该文方法在山西大学自主开发的中文阅读理解语料库CRCCv1.1上进行了实验,在整个语料库上得到了83.09%的HumSent准确率。为了与文献[10]中的最大熵方法比较,该文在与文献[10]中完全相同的训练集上调优规则的权值,在相同的测试集上测试,最终得到HumSent准确率81.13%,比最大熵的方法高大约1%,且在全部的六类问题上,该文方法的HumSent准确率都不低于最大熵方法。关键词:计算机应用;中文信息处理;阅读理解;问答系统;规则;正交表中图分类号:TP39

3、1文献标识码:AResearchonRuleBasedQuestionAnsweringforChineseReadingComprehensionLIJihon91,YANGXingli2,WANGRuib03,ZHANGNa2,LIGuochen3(1.ComputerCenterofShanmUniversity,Taiyuan,Shanxi030006,China;2.SchoolofMathematics,Shan】【iUniversity,Taiyuan。Shan】【i030006,China;3.SchoolofComputer&InformationTechnol

4、ogy,ShanxiUniversity,Taiyuan,Shan】【i030006,China)Abstract:Thispaperconstructsasetofheuristicrulesforsixtypesofquestionregardingtotime,human,location,number,entityanddescriptioninChineseQARCsystem.Eachruleisfurtherassignedwithaweightoptimizedbytheorthogonalarray.Thenthecalculationofeachcandida

5、teanswersentenceisdescribedovercorrespondingrules.TheexperimentontheCRCCv1.1(Chinesereadingcomprehensioncorpus)builtbyShanxiUniversityproduces83.09%HumSentaccuracy.ComparewiththeresultsofME-basedmethod,theproposedapproachachieves81.13%HumSentaccuracy,whichisabout1%higherthantheME-basedresults

6、onthesametrainingandtestingenvironment.Keywords:computerapplication;Chineseinformationprocessing;readingcomprehension;questionanswering;heuristicrules;orthogonalarray1引言阅读理解问答系统(QARC)是由计算机自动分析一篇给定的自然语言文章,对每个针对本篇文章的问题,自动生成一个相应答案的系统。QARC主要是通过问题回答的形式来测试计算机对一篇文章的理解程度。从形式上看,QARC与外语考试中的阅读理解测试题一样,只不

7、过QARC是让计算机自动给出答案。一般而言,QA是面向大规模的文档集,要求系统有较好的检索技术和答案生成技术;而QARC一般不需要检索,主要是侧重研究各种类收稿日期:2009一01—22定稿日期:2009-03-31基金项目:国家自然科学基金资助项目(60873128);国家社会科学基金青年资助项目(07CYY022)作者简介:李济洪(1964一),男,副教授,主要研究方向为统计自然语言处理;杨杏丽(1986一),女,硕士生,研究方向为统计自然语言处理;王瑞波(1985一),男,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。