基于句法分析和答案分类的中文问答系统

基于句法分析和答案分类的中文问答系统

ID:3905879

大小:635.58 KB

页数:9页

时间:2017-11-25

基于句法分析和答案分类的中文问答系统_第1页
基于句法分析和答案分类的中文问答系统_第2页
基于句法分析和答案分类的中文问答系统_第3页
基于句法分析和答案分类的中文问答系统_第4页
基于句法分析和答案分类的中文问答系统_第5页
资源描述:

《基于句法分析和答案分类的中文问答系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据第5期2006年5月电子学报ACrAⅡECⅡ10NICASINI(AV01.36N0.5M盯2008基于句法分析和答案分类的中文问答系统孙昂1,江铭虎1一,贺一帆1,陈林1,袁保宗2(1.清华大学人文学院计算语言学实验室,北京100084;2.北京交通大学信息科学研究所,北京100044;3.清华大学心理学与认知科学中心,北京100084)摘要:本文根据疑问词和谓语的距离信息对问句进行细致的句型分析,然后对答句进行浅层句法分析,在此基础上,抽取出问题特征集、答句特征集和组合特征集作为分类特征,引入最大熵模型和支持向量机i)ul练答

2、案抽取分类器.基于不同特征组合训练得到的分类器在五类事实性问题上进行了测试,其F值分别达到70.87%和85.75%.关键词:中文问答系统;句法分析;答案抽取;最大熵模型;支持向量机中图分类号:TP391文献标识码:A文章编号:0372.2112(2008)05.0833.07ChineseQuestionAnsweringBasedonSyntaxAnalysisandAnswerClassificationSUNAJl91,JIANGMing_hul,3,HEYi.fanl,CHENLinl,YUANa静zon92(1.1abofCo

3、mputationallinguistics,&hod旷HumanitiesandSocial&赫,孔inghuaUmrersity,&溉100084,China;2.InstituteofInformationScience,BeijingJiaotongUni蜘ity,Beijing100044,China;3.CenterforPsychologyandCog,,iti∞Science,死讯咖mUnhEnity,晟概100084,China)Abstract:Thispaperfirstconduetsrigoroussentenc

4、ep,够emanalysisofquestionsbasedOllthedistancebetweenquestionwordandpredicate,andthenconductshallowparseofanswercandidatesentences.Basedontheanalysis,weextractquestionfeatureset;answersentencefeaturesetandcombinedfeaturesetas伽rfeaturesforanswerclassification.ThenWeapplymaxi

5、mumentropymodelandsuppollvectol;machinetothesefeatm'estotrainallSWCl"classifiers.TheF-Measuresofthetwoclassifiers’experimentconductedonfivekindsoffact-basedquestionsachieve70.87%and85.75%respectively.Keywords:CllJl:lesequestionanswering;syntaxanalysis;answerextraction;max

6、imumentropymodel(MEM);SUppOItvectormachine(删)l引言从海量信息中快速、准确地获得有用的信息,是信息时代人们的迫切需求,这一需求也推动了问答系统成为当前自然语言处理领域的一个研究热点.问答系统和传统信息检索系统的主要区别于两个方面.一是系统的输入,问答系统的输入不再是传统检索方法下的查询关键词,而是更为自然的日常语言的问句;二是系统的输出,传统检索系统的输出是和查询关键词相关的一系列文档,需要用户自己从文档中查找有用信息,而问答系统有能力直接返回针对用户提问的答案.问答系统所关心的就是如何抽取出问

7、题的正确答案.目前,英文问答系统在答案抽取方面的研究已经比收稿日期:2007.10-24;修回13期:2008-01—25基金项目:国家自然科学基金(No.60673109)较深入.最初,研究者们一般采用句模匹配的方法uJ.该方法考虑答案出现的上下文信息,在问题类型确定的前提下,与此类型问题相关的答案抽取模板将被激活用来抽取答案.该方法的弊端是需要精确的问题分类体系和性能良好的问题分类系统.此外,答案抽取模版一般需要人工总结,费时费力..近年来机器学习的方法逐渐成为主流幢'3J.机器学习的答案抽取一般是基于这样一种假设,即包含正确答案的句

8、子与问句的距离应该小于未含有正确答案的句子与问句的距离.研究者们一般把问句和候选答句映射到不同的空间,然后计算问句和候选答句在此空间的距离.IBM[4,s]的系统把问句和候选答句映射到句法树和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。