欢迎来到天天文库
浏览记录
ID:25329236
大小:1.75 MB
页数:65页
时间:2018-11-19
《基于词义及语义分析的问答技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、哈尔滨工业大学工学硕士学位论文1.2开放域问答系统通用的体系结构Hirschman等[1]对2001年及其以前的基于文档集的问答系统体系结构进行了总结。总体来看,一个问答系统一般包含的模块有:文档预处理,问题分析,候选文档选择,候选文档分析,答案抽取,答案生成。在该体系结构下,系统接受用户的问题并给出反应的一般过程为(如图1-1所示):问题问题分析查询输入文档检索 约束条件相关文档句段检索文档句段答案抽取生成答案图1-1开放域问答系统通用的体系结构Figure1-1Architectureofquestionansweringsystem系统
2、可分为以下几部分:(1)用户问题分析(Questionanalysis):对用户的问题进行分析,以明确问题预期的答案类型以及答案与问题中其它词之间的约束关系。(2)相关文档检索(Documentretrieval):从海量文档集中检索到包含答案的相关文档。(3)相关文档句段检索(Passageretrieval):从相关文档中,提取出包含答案的文档块,以进一步减少答案抽取所需处理的内容。(4)答案抽取和生成(Answerextraction/generation):根据问题分析阶段产生的各种约束条件,如命名实体类型,从文档句段中提取出答案,并
3、对提取出的答案进行处理之后返回。该过程是一个管道式的处理,前一步的处理结果是后一步的处理对象。不同的系统在实现上均有不同,每一步上的处理方法在近几年都有很多研究,但从整体看,体系结构在近几年仍然没有太大变化[3]。这些处理过程中的每一步都可以分成若干个模块。Moldovan等[4]对该流程中每个模块对系统整体性能的影响进行了分析。实验表明,在导致系统最-2-哈尔滨工业大学工学硕士学位论文终出错的原因中,由问题分析中的问题预处理引起的错误占7.1%,问题分析中预期答案类型的识别引起的错误占36.4%,查询输入构造引起的错误占1.2%,文档和句段
4、检索引起的错误占3.2%,而答案的提取和生成引起的错误占18.7%。系统的实现方法不同,不同模块对系统整体的影响程度会有不 同。但Moldovan等[4]的这些分析仍然可以反映影响问答系统整体性能的可能的主要因素。现有开放域问答系统的实现在整体结构上表现出上述的共性时,有些系统也会根据特定的算法而有所变化。如Harabagiu[5]等的FALCON系统就增加了反馈机制,在无法找到合适的答案时,通过调整查询输入来开始新一轮的处理过程,反复迭代,如果找到答案或者查询输入再无法调整,则停止。1.3问题分析问题分析的任务是明确对预期答案的约束条件,包
5、括:(1)预期答案的语义实体类别:确定问题问什么。如“哪国人口最多?”是问国家名,而非数量。(2)答案和问题中其它概念或者实体之间的语法语义关系:提供在海量文档集合中定位答案的上下文信息。后续模块将利用这些约束条件来确定问题的正确答案。确定问题的预期答案语义类别,实际上可看作是对问句按照某个语义类别进行分类。因此,首先需要设计问题的分类体系。从现有的分类体系设计看,一般是从两个方向来考虑:(1)从可以处理的问题出发来设计,使任何问题都能分到某个类别中, 即考虑分类体系对问题的覆盖能力。如XinLi和DanRoth[6]根据TREC问答评 测的
6、问题特点而设计的多层类别体系,EduardHovy等[7]通过分析17,384个问题及其答案而设计的多层类别体系等。这种方法的缺点是,如果问题语义类别不能和抽取算法所能抽取的答案语义类别对应,则会影响答案的正确抽取。(2)从答案抽取模块所能抽取的答案类型出发来设计,使每个答案类型都对应一个问题分类类别,即考虑分类体系对答案类型的覆盖能力。如文献[8]设计的分类体系。这种分类体系的缺点是,如果抽取算法的语义类别变化,则需要重新设计问题分类体系。对问句进行分类可看作是特殊的文本分类。相对于文本,问句一般比-3-哈尔滨工业大学工学硕士学位论文较简短
7、,可采用的特征较少,但更容易进行深层的语法和语义分析,这又增加了分类可利用的特征。问题分类的方法主要有:(1)采用经验规则的方法。Hovy等[9]用276个手写规则来确定问句的类别。文献[10]用15个正则表达式来确定问句类型。在这些规则中,有些是通过对各种问题进行表层分析,从中抽取出的公共分类模式,分类的过程是规则与问句在词汇表层进行模式匹配的过程。有些是对问句进行更深层次的语法与语义分析,在分析的结果中抽取分类的公共模式[9]。应用经验规则模式匹配方法的好处是不需要训练,分类的准确率很高,但缺点是需要编写大量的规则,人工的负担很重。(2)
8、采用统计机器学习的方法。应用NaïveBayes、SVM、SNoW等机器学习算法,在已标注的训练问 题集上学习分类模型。Li和Roth[6]利用SNoW算法,利用问
此文档下载收益归作者所有