欢迎来到天天文库
浏览记录
ID:44050976
大小:633.24 KB
页数:21页
时间:2019-10-18
《基于双语信息的问题分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于双语信息的问题分类方法研究徐健张栋李寿山王红玲苏州大学计算机科学与技术学院摘要:问题分类是问答系统研究的一项基木任务。先前的研究仅仅是在单语语料上训练得到问题分类模型,存在语料不足和问题文本较短的问题。为了解决这些问题,该文提出了融合双语语料的双通道LSTM问题分类方法。首先,利用翻译语料分别扩充中文和英文语料;其次,将两种语言语料中的样本都分别用问题文本和翻译文本表示;最后,提出了双通道LSTM分类方法用于充分利用这两组特征,构建问题分类器。实验结果表明,该文提出的方法能有效提高问题分类的性能。关键词:问答系统
2、;问题分类;LSTM;作者简介:徐健(1992—),硕士研究生,主要研究领域为自然语言处理。E-mail:jxul017@stu.suda.edu.cn作者简介:李寿山(1980—),通信作者,博士,教授,主要研究领域为自然语言处理。E-mail:lishoushan@suda.edu.cn作者简介:张栋(1991—),硕士研究生,主要研究领域为自然语言处理。E-mail:dzhang@stu.suda・edu.cn收稿日期:2016-09-16基金:国家自然科学基金(61672366)ResearchonQuest
3、ionClassificationviaBilingualInformationXUTianZHANGDongLIShoushanWANGHonglingSchoolofComputerScienceandTechnology,SoochowUniversity;Abstract:Questionclassificationisabasictaskinquestionansweringsystem.Previousstudiesonlyemploythemonolingualcorpustotrainthequest
4、ionclassificationmodel,sufferingfromproblemssuchaslackofcorpusandshort1engthofquestiontext.Tosolvetheseproblems,weproposeanewapproachnameddual-charmclLSTMmodelwithbilingualinformation.Firstly,weextendtheChinesecorpusandEnglishcorpuswiththecorrespondingtranslate
5、dcorpus.Secondly,thesamplesarerepresentedbythequestiontextandtranslationwordvector.Finally,webuiIdanquestionclassifierusingdual-channelLSTMmodel.Theexperimcntairesultdemonstreitcsthatourapproachimprovestheperformanceofquestionclassification.Keyword:Q&Asystem;qu
6、estionclassification;LSTM;Received:2016-09-161引言问答系统主要针对用户提出的问题进行自动化处理,给用户一个简明、准确的答案反馈。现有的问答系统主要包括三个模块:问题分析、信息检索和答案抽取。问答系统为了能够正确冋答用户所提出的问题,首先需要对问题进行分析,理解用户想要获取的信息。问题分类作为问题分析最基础的任务,为整个问答系统提供了重要的技术支持111。问题分类的目标是将某个给定的问题映射到多个类型中的某一个或者儿个类别,以此确定问题的类型。问题分类在问答系统中主要有两个
7、作用。一方面是能有效地减小答案的候选空间。例如,问题“耳鸣的症状表现有哪些?”若将该问题正确分类为“健康”类问题,问答系统就可以从“健康”类的相关答案集合屮检索合适的答案。这样能非常有效地减小候选答案集合,提高检索效率。另一方面是能决定答案的抽取策略,即根据问题的不同类别采用不同的答案选择策略和知识库。例如,针对问题“天蝎座的男牛与哪个星座的女牛最合适?”问题分类方法可以推理出该问题是“感情”类问题,检索这类问题的答案吋利用情感分析技术就能提升问题答案的准确性。值得注意的是,传统的问题分类普遍都是基于单语问题文本的分
8、类方法。然而,己标注的问题资源比较匮乏,而且问题文木一般较短,包含的信息量比较少,传统的问题分类方法往往无法捕捉到有效特征。与以往研究不同的是,本文认为翻译语料对语料的扩充及问题的表示都有较大的帮助。一方面翻译语料扩充了语料,解决了问题资源匮乏的问题"}一方面翻译文本的信息对问题分类提供了更多的信息量,使得基于长短期记忆的循环神经网络算法(LS
此文档下载收益归作者所有