资源描述:
《基于句法结构特征分析及分类技术的答案提取算法(》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、胡宝顺等:基于句法结构特征分析及分类技术的答案提取算法19基于句法结构特征分析及分类技术的答案提取算法*本课题得到国家自然科学基金(60573090)资助.作者简介:胡宝顺,男,1981年生,硕士研究生,主要研究领域为信息检索技术;王大玲,女,1962年生,博士,教授,主要研究领域为搜索引擎技术;于戈,男,1962年生,博士,博士生导师,主要研究领域为数据库及相关技术;马婷,女,1981年生,硕士研究生,主要研究领域为文本挖掘技术.联系人:王大玲,电话:+86-24-8368-7776,E-mail:dlwang@mail.neu.edu.cn胡宝顺1,王大玲2+,于
2、戈2,马婷21(东北大学软件学院计算机科学与技术专业,辽宁省沈阳市110004)2(东北大学信息科学与工程学院计算机软件与理论研究所,辽宁省沈阳市110004)摘要:由于中文自然语言处理的特点和困难,以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中。为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类。首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法
3、结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案。针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%。关键词:句法依存分析;分类;答案提取;中文问答系统;事实性问题中图法分类号TP3911引言和国内外研究现状随着互联网的普及,搜索引擎已经成为人们快速查找信息和资源的重要手段。但目前的搜索引擎主要采用基于关键字的查询,而关键字的简单组合不能明确表述用户的查询意图,这一问题已成为制约搜索引擎性能提高的瓶颈之一。问答式检索系统(简称问答系统)正是为克服传统搜索引擎的这一弊端应
4、运而生的。与基于关键字的传统搜索引擎不同,问答系统允许用户以自然语言形式提问,并将准确简短的答案、而非大量的相关文本和网页返回给用户。比如:用户提问“第三届亚洲政党国际会议是由哪个政党主办的?”,问答系统就可以将“中国共产党”的答案返回给用户。因此可以说,问答系统是更高效、更人性化的新一代搜索引擎。同时也是集自然语言处理、信息检索、信息抽取、机器学习等多学科技术于一体的复杂系统。一般来说,问答系统主要包括问题分析、信息检索和答案提取三个部分。其中,问题分析的主要工作包括确定问题类型和提取问题中的关键字等;信息检索部分的任务是利用问题关键字生成查询条件,然后利用文档库或
5、提交给Web搜索引擎进行检索,返回相关的文档或段落;答案提取部分的任务则是从候选的文档或段落中提取出正确答案。作为问答系统中一个关键环节,答案提取部分性能的优劣直接影响整个问答系统的性能。DanMoldovan[1]等人关于问答系统错误的分析结果表明,约18.7%的回答错误是由诸如候选答案识别错误、答案排序错误等导致的。因此,答案提取算法的研究对提高问答系统整体性能具有重要的意义。近几年来,国外很多科研院所和著名公司如IBM、Microsoft、ISI、MIT、UniversityOfCambridge等都积极投入到问答技术的研究中,多个问答系统评测平台如TREC、N
6、TCIR、CLEF的成功举办也极大的推动了该领域的快速发展。胡宝顺等:基于句法结构特征分析及分类技术的答案提取算法19目前,国外已经有一些相对成熟的问答系统问世,同时也不乏研究人员提出了很多效果理想的答案提取算法。同时近些年,国内从事问答系统相关研究的机构不断增加,其中中国科学院自动化研究所、哈尔滨工业大学、复旦大学、清华大学和沈阳航空工业学院等都在该领域做了很多研究工作[2,3,4]。但相对而言,中文问答技术的研究尚处于初级阶段,与国外存在较大差距。一方面,由于中文自然语言处理的特点和困难,目前这方面的各种底层技术还不够成熟和完善;另一方面,相应的语言处理基础资源如
7、知识库、语料库等也相对缺乏,这使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中。基于此,本文提出一种应用于中文问答系统的基于句法结构特征分析及分类技术的答案提取算法。本文其余部分的组织结构如下:第二部分简单介绍答案提取算法的相关研究工作;第三部分简要介绍我们提出的算法的总体实现步骤;第四部分论述提取句子句法特征时应用的关键技术:基于句法依存分析的路径相似度计算;第五部分阐述候选答案的特征提取及分类问题;第六部分给出实验的具体步骤和实验结果;第七部分是总结和展望。1相关工作目前中文问答系统的答案提取算法主要包括三类:(1)基于信息检索和信息抽