多特征融合的中文问答系统答案抽取算法

多特征融合的中文问答系统答案抽取算法

ID:5261180

大小:196.59 KB

页数:4页

时间:2017-12-07

多特征融合的中文问答系统答案抽取算法_第1页
多特征融合的中文问答系统答案抽取算法_第2页
多特征融合的中文问答系统答案抽取算法_第3页
多特征融合的中文问答系统答案抽取算法_第4页
资源描述:

《多特征融合的中文问答系统答案抽取算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第28卷第5期贵州大学学报(自然科学版)Vol.28No.52011年10月JournalofGuizhouUniversity(NaturalSciences)Oct.2011文章编号1000-5269(2011)05-0080-04多特征融合的中文问答系统答案抽取算法**唐朝霞(淮阴工学院计算机工程学院,江苏淮安223003)摘要:随着互联网的迅速发展和Web2.0概念的提出,问答系统以直接返回给用户精确的答案而逐渐成为一种新的信息检索技术。由于问句都是自然语言的形式,涉及到对问句的语义理解及相似度的判断

2、。本文提出了一种基于问句的表层和语义相似度计算方法,通过聚类去除冗余信息,再通过熵的特征计算权值,最后融合多种特征计算问句相似度,进行答案抽取。实验证明,这种方法能够有效地提高答案抽取的精度和效率。关键词:问答系统;问句相似度;聚类;答案抽取中图分类号:TP311文献标识码:A问答系统是指不需要用户把问题分解成关键相似度,以抽取答案。词,而直接以自然语言的形式提问,经过系统处理,1问句的表层相似度再从知识库或者互联网上快速搜索出和用户问题1.1词形相似度对应的答案,然后把答案直接返回给用户,而不是词形相似度通

3、过计算两个问句的词形即相同相关的网页。因此问答系统大大降低了用户的使词的个数来比较相似度。设两个问句Q1、Q2,则用难度,它比传统的搜索引擎更加方便和高效,是[3]Q1和Q2的词形相似度为:未来搜索引擎发展的一大方向。Same(Q1,Q2)WordSim(Q1,Q2)=2×国外对于问答系统的研究相对较早,已经开发Len(Q1)+Len(Q2)出一些相对成熟的问答系统,如麻省理工的(1)START系统是第一个基于Web的问答系统、密歇其中:Same(Q1,Q2)为Q1、Q2中所含相同词根州立大学的AnswerB

4、us系统、DavidWarthen和的个数,若一个词在Q1、Q2中出现多次则算一次;[1]GarrettGruener创建的AskJeeves系统等。Len(Q1)为Q1中词的个数;Len(Q2)为Q2中词的国内也有许多科研院所投入到问答系统的研个数。究中,如哈尔滨工业大学秦兵等人开发了基于常问1.2长度相似度问题集的中文问答系统、清华大学黄寅飞等开发的问句长度相似度在一定程度上反映了问句形校园导航系统EasyNav、北京理工大学樊孝忠等开态上的相似性,两问句长度相差越小,相似的可能[2]发的银行领域汉语自动

5、问答系统BAQS等。性越大。问句Q1、Q2的长度相似度为[4]:随着国内外学者的深入研究,目前的问句相似

6、Len(Q1)-Len(Q2)

7、LenSim(Q1,Q2)=1-度计算有基于词形词序匹配的方法、基于语义计算Len(Q1)+Len(Q2)的方法、基于编辑距离的方法等,但答案抽取的准(2)确率不高。本文提出了一种基于多特征融合的方1.3词序相似度法,充分利用问句之间存在的相似信息,在表层和词序相似度从词的顺序来标注问句的相似性,语义两大层次上同时考察问句与候选问句的相似反映两个问句中所含相同词或同义词在位

8、置关系度,对这些特征进行融合,更加准确地衡量问句的上的相似程度,以两个问句中所含相同词或同义词*收稿日期:2011-07-05基金项目:江苏省高校自然科学基金(06KJD520024)作者简介:唐朝霞(1978-),女,江苏洪泽人,讲师,硕士,研究方向:算法与程序设计,Email:zx-tang@163.com.*通讯作者:唐朝霞,Email:zx-tang@163.com.第5期唐朝霞:多特征融合的中文问答系统答案抽取算法·81·的相邻顺序逆向的个数来衡量。问句Q1、Q2的词2.2词语语义聚类[5]序相似度

9、为:由于一些词语可能具有相同或相似的意思,本Rev(Q1,Q2)文选取一个作为特征词语来代替它们,这样可以减OrdSim(Q1,Q2)=1-(3)MaxRev(Q1,Q2)小语义空间的维度,提高计算效率。设问句的词语其中,Rev(Q1,Q2)表示Q1中关键词在Q2中集合为W=(W1,W2,…,Wn),词语语义聚类算法的位置构成的自然数序列的逆序数;MaxRev(Q1,如下:Q2)表示Q1与Q2相同关键词的个数的自然数序Fori=1ton列的最大逆序数。Forj=i+1ton2问句的语义相似度计算Wi和Wj语义

10、相似度Max_ij问句的语义相似度计算需要语义知识资源做IfMax_i<Max_ijthen基础,本文采用HowNet作为语义知识资源,先计Max_i=Max_ij算词语的语义相似度,然后计算用户问句与候选问k=j句的语义相似度。Endif2.1词语相似度计算.Nextj定义1义原之间的语义距离IfMax_i>fthen‘f为阀值在HowNet中,一个词对应n个概念,每个概念合并Wi和Wk作为一代表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。