欢迎来到天天文库
浏览记录
ID:5293541
大小:635.58 KB
页数:9页
时间:2017-12-07
《基于句法分析和答案分类的中文问答系统 (1)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据第5期2006年5月电子学报ACrAⅡECⅡ10NICASINI(AV01.36N0.5M盯2008基于句法分析和答案分类的中文问答系统孙昂1,江铭虎1一,贺一帆1,陈林1,袁保宗2(1.清华大学人文学院计算语言学实验室,北京100084;2.北京交通大学信息科学研究所,北京100044;3.清华大学心理学与认知科学中心,北京100084)摘要:本文根据疑问词和谓语的距离信息对问句进行细致的句型分析,然后对答句进行浅层句法分析,在此基础上,抽取出问题特征集、答句特征集和组合特征集作为分类特征,引入最大熵模型
2、和支持向量机i)ul练答案抽取分类器.基于不同特征组合训练得到的分类器在五类事实性问题上进行了测试,其F值分别达到70.87%和85.75%.关键词:中文问答系统;句法分析;答案抽取;最大熵模型;支持向量机中图分类号:TP391文献标识码:A文章编号:0372.2112(2008)05.0833.07ChineseQuestionAnsweringBasedonSyntaxAnalysisandAnswerClassificationSUNAJl91,JIANGMing_hul,3,HEYi.fanl,CHENLi
3、nl,YUANa静zon92(1.1abofComputationallinguistics,&hod旷HumanitiesandSocial&赫,孔inghuaUmrersity,&溉100084,China;2.InstituteofInformationScience,BeijingJiaotongUni蜘ity,Beijing100044,China;3.CenterforPsychologyandCog,,iti∞Science,死讯咖mUnhEnity,晟概100084,China)Abstract:T
4、hispaperfirstconduetsrigoroussentencep,够emanalysisofquestionsbasedOllthedistancebetweenquestionwordandpredicate,andthenconductshallowparseofanswercandidatesentences.Basedontheanalysis,weextractquestionfeatureset;answersentencefeaturesetandcombinedfeaturesetas伽
5、rfeaturesforanswerclassification.ThenWeapplymaximumentropymodelandsuppollvectol;machinetothesefeatm'estotrainallSWCl"classifiers.TheF-Measuresofthetwoclassifiers’experimentconductedonfivekindsoffact-basedquestionsachieve70.87%and85.75%respectively.Keywords:Cll
6、Jl:lesequestionanswering;syntaxanalysis;answerextraction;maximumentropymodel(MEM);SUppOItvectormachine(删)l引言从海量信息中快速、准确地获得有用的信息,是信息时代人们的迫切需求,这一需求也推动了问答系统成为当前自然语言处理领域的一个研究热点.问答系统和传统信息检索系统的主要区别于两个方面.一是系统的输入,问答系统的输入不再是传统检索方法下的查询关键词,而是更为自然的日常语言的问句;二是系统的输出,传统检索系统的输
7、出是和查询关键词相关的一系列文档,需要用户自己从文档中查找有用信息,而问答系统有能力直接返回针对用户提问的答案.问答系统所关心的就是如何抽取出问题的正确答案.目前,英文问答系统在答案抽取方面的研究已经比收稿日期:2007.10-24;修回13期:2008-01—25基金项目:国家自然科学基金(No.60673109)较深入.最初,研究者们一般采用句模匹配的方法uJ.该方法考虑答案出现的上下文信息,在问题类型确定的前提下,与此类型问题相关的答案抽取模板将被激活用来抽取答案.该方法的弊端是需要精确的问题分类体系和性能良
8、好的问题分类系统.此外,答案抽取模版一般需要人工总结,费时费力..近年来机器学习的方法逐渐成为主流幢'3J.机器学习的答案抽取一般是基于这样一种假设,即包含正确答案的句子与问句的距离应该小于未含有正确答案的句子与问句的距离.研究者们一般把问句和候选答句映射到不同的空间,然后计算问句和候选答句在此空间的距离.IBM[4,s]的系统把问句和候选答句映射到句法树和
此文档下载收益归作者所有