【硕士论文】基于语义角色标注的中文问答系统研究.pdf

【硕士论文】基于语义角色标注的中文问答系统研究.pdf

ID:32033324

大小:2.30 MB

页数:44页

时间:2019-01-30

【硕士论文】基于语义角色标注的中文问答系统研究.pdf_第1页
【硕士论文】基于语义角色标注的中文问答系统研究.pdf_第2页
【硕士论文】基于语义角色标注的中文问答系统研究.pdf_第3页
【硕士论文】基于语义角色标注的中文问答系统研究.pdf_第4页
【硕士论文】基于语义角色标注的中文问答系统研究.pdf_第5页
资源描述:

《【硕士论文】基于语义角色标注的中文问答系统研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要问答系统是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎。它允许用户以自然语言提问,并能够返回简洁、准确的答案,其研究兴起的主要原因是人们对快速、准确地获取信息的需求。在问答系统中加入语义信息是研究发展的必然趋势。然而,由于目前中文语义角色标注的准确率较低,直接将标注结果用于问答系统,会降低系统的性能。所以,大部分问答系统只采用词、词性、句法关系等信息。但是,仅使用这些信息很难继续提高系统的准确率。为此,本文提出了一种语义搭配验证法,并将它用于中文语义角色自动标注中,提高了语义角色标注的准确率。然后将语义角色信息用于问答系统的答案

2、抽取中,提高了问答系统的精度。问答系统由问题理解、信息检索、答案抽取三个部分组成。本文主要研究了问答系统的问题理解与答案抽取两个部分。问题理解部分主要包括问题分类、关键词提取与扩展。本文采用贝叶斯分类器,提取问句主干以及包含疑问词的分支作为特征进行问题分类。答案抽取是问答系统中最关键的部分,抽取质量直接决定问答系统的性能。它的核心问题是:怎样才能抽取出包含正确答案的候选答案句。本文采用基于语义角色的问句.候选答案句匹配与基于统计的答案分类相结合的方法进行答案抽取,实验结果表明本文提出的方法具有较好的效果。关键词:问答系统;语义角色标注;问题理解;

3、答案抽取问答网http://www.tenideas.com.cn/两北人学硕士学位论文第一章绪论1.1研究背景互联网的迅猛发展和广泛的普及,使人们可以比以往任何时候都可方便地从网络上获取大量的信息,但是人们如何从大量信息中筛选出自己需要的信息,或对自己有用的信息,却一直没有得到很好的解决,据英国莫里(MORI)调查公司的民意调查结果显示,只有18%的用户表示总能在网上搜索到需要的信息,68%的用户说他们对搜索引擎很失望,28%表示还可以,其余5%为不知道。目前的搜索引擎(Google,Yahoo,百度等)虽然取得了很大的成就,但它们都是基于关键

4、字检索的,这样的检索存在以下两方面的不足:(1)检索返回的结果往往是一大堆与答案关系或近或远的文本或网页,其中只有少部分是用户需要的,并且需要用户从中进一步筛选,造成极大地不便。(2)用户不能仅仅通过几个关键字的逻辑组合来清楚地表达自己的检索意图,从而也就没法直接检索出令用户满意的答案。为了解决上述问题,研究人员正尝试探索一种更高效、更人性化的搜索引擎技术。问答系统(QuestionAnsweringSystem,QA)正是在这样的背景下应运而生,它的设计理念、运行机制及其期望结果完全有别于现有的关键字检索,是对关键字检索不足的补充和完善,是新一

5、代搜索引擎的发展方向。1.2问答系统的国内91"$fl关研究1.2.1国外相关研究早在20世纪60年代,研究者就提出让计算机用自然语言来回答问题,这就是问答系统。20世界80年代,问答系统的研究曾风靡一时。但是,由于当时的条件限制,所有的实验都在非常受限的领域,甚至在固定的段落上进行,所以自动问答系统一直被限定在一定的领域内。此后,大规模文本处理技术的兴起,问答系统的研究受到了冷落。最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的愿望也重新促进了自动问答技术的发展,最近有越来越多的公司和科研院所参与了自动问答技术的研究,比如:微

6、软、IBM以及GOOGLE等。同时在每年一度的文本检索会议(TextREtrievalConference,TREC)Ill上,自动问答(QuestionAnsweringTrack)是最受关注的主问答网http://www.tenideas.com.cn/问答网http://www.tenideas.com.cn/第一章绪论题之一,越来越多的大学和科研机构参与了TREC会议的QuestionAnsweringTrack。英文问答系统早在1999年就开始由TREC会议主办进行这类型的比赛;日文的比赛于2003年由日本国立情报学研究所NII的NTC

7、IR会议(NTCIRWorkshop)所主办;欧洲同样于2003年由CLEF(CrossLanguageEvaluationForum)会议主办欧洲语言的比赛。根据2004年的报告,最佳英文问答系统的水平为70%左右的正确率,此系统由LanguageComputerCorporation开发,逻辑推理能力为其致胜关键。在日文问答系统方面,正确率稍微低了些,但也有51%。欧洲方面,QA@CLEF在规模上相当大,参与比赛的语言多达九种,加上跨语言问答的项目,比赛内容最为丰富。其中法文、葡萄牙文等语言系统于2005年都已经达到六成多的J下确率。相较于其

8、他语言,中文虽然是世界上第二大语言,但中文问答系统比赛直到2005年才开始由日本NTCIR会议所主办,根据2007年的报告,最高正确率为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。