基于常问问题集的中文问答系统研究

基于常问问题集的中文问答系统研究

ID:33413640

大小:143.54 KB

页数:5页

时间:2019-02-25

基于常问问题集的中文问答系统研究_第1页
基于常问问题集的中文问答系统研究_第2页
基于常问问题集的中文问答系统研究_第3页
基于常问问题集的中文问答系统研究_第4页
基于常问问题集的中文问答系统研究_第5页
资源描述:

《基于常问问题集的中文问答系统研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于常问问题集的中文问答系统研究秦兵刘挺王洋郑实福李生(哈尔滨工业大学计算机学院信息检索实验室,哈尔滨150001)E-mail:{qinb,tliu}@ir.hit.edu.cn摘要:首先根据用户的提问建立一个候选问题集,然后通过计算句子语义相似度,在候选问题集中找到相似的问句,并将答案返回给用户。该系统还能够自动地更新和维护FAQ库。实验表明,与基于关键词的句子相似度计算相比,基于语义的句子相似度计算提高了问题匹配的准确率。关键词:问答系统;常问问题集;句子相似度分类号:TP391ResearchofQu

2、estionAnsweringSystemBasedonFrequentlyAskedQuestionsQinbing,Liuting,Wangyang,Zhengshifu,Lisheng(InformationRetrievalLaboratory,HarbinInstituteofTechnology,Harbin150001,China)E-mail:{qinb,tliu}@icm.hit.edu.cnAbstract:Inthispaper,thecandidatequestionsetisbuil

3、taccordingtoquery.Semanticsimilaritiesofsentencesarecomputedbetweentheuserqueryandthecandidatequestions.Inthiswaythecorrespondinganswerwiththemostsimilarwithqueryisreturnedtotheuser.ThissystemcanalsoautomaticallyupdateandmaintainFAQ.Experimentshowsthatthene

4、wcomputingmethodgetsabetterperformancethanthekeywords-basedapproach.Keywords:questionanswering;FAQ;sentencesimilarity基于常问问题集的问答系统是在已有的问题-答案对的集合中找到与用户提问相匹配的问题,并将其对应的答案直接返回给用户。问答系统是目前自然语言处理领域一个研究热点[1],它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案,而不是一些相关的网页。因此,问答系统和传统的

5、依靠关键字匹配的搜索引擎相比,能够更好地满足用户的检索需求,更准确地找出用户所需的答案,具有方便、快捷、高效等特点。目前问答系统的研究大致可以分作三类:基于常问问题集的问答系统,基于百科知识的问答系统以及开放域的问答系统。基于常问问题集的问答系统又可以作为后两种问答系统的一个组成部分,如果用户的提问与以往的记录相符,可直接将对应的答案提交给用户,免去了重新组织答案的过程,可以提高系统的效率。常问问题集(FAQ)可以作为自动问答系统中的一个组成部分。它把用户经常提问的问题和相关答案保存起来。对于用户输入的问题,

6、可以首先在常问问题库中查找答案。如果能够找到相应的问题,就可以直接将问题所对应的答案返回给用户,而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程,提高了效率。国外近年来在该领域作了一些工作[2],国内的这方面研究还很少。本文研究的FAQ(Frequently-AskedQuestion)系统根据用户问题建立候选问题集的基础上,建立常问问题集的倒排索引,提高了系统的检索效率,同时,与传统的基于关键词的方法相比,采用基于语义的方法计算相似度提高了问题的匹配精度。文中描述的句子相似度的计算方法不仅能够用

7、于FAQ的检索,还能够用于自动问答的其它阶段,以及信息检索和基于实例的机器翻译等领域,并且基于常问问题集的问答系统在远程教育等领域有很广泛的应用前景。11系统实现该系统主要包含三个部分:候选问题集的建立,句子相似度计算,FAQ库的更新。1.1候选问题集的建立建立候选问题集的目的是缩小查找范围,使后续的相似度计算等较复杂的处理过程都在候选问题集这个相对较小的范围内进行。本系统选出FAQ中50%的问句作为候选问题集。设用户输入的问句(目标问句)中共有n个词(W、W、…、W),FAQ库中共有12nm个问句,第i(1

8、≤i≤m)个问句含有n个词(Q、Q、…、Q),第i个问句和目标i12ni问句之间重叠的词个数记为Num,即Num={W,W,...,W}I{Q,Q,...,Q},则Numii12n12ni值最大的前50%的FAQ问句就组成候选问题集。计算Num时,如果将FAQ库中的问句一一读出来和目标问句进行比较,效率是比较i低的。对于目标问句中的某个词,为了能够快速地统计FAQ库中究竟有多少问句含有这个词,设计了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。