欢迎来到天天文库
浏览记录
ID:34371493
大小:227.47 KB
页数:3页
时间:2019-03-05
《自然语言理解技术中的块语法分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2009年9月情报探索第9期(总143期)自然语言理解技术中的块语法分析郭春霞申春艳(滨州学院图书馆山东256603)(阳信县人民法院山东251800)摘要引入了有限状态自动机技术.对组块进行分析,从而简化句法分析并且提高句法分析的性能。关键词组块块语法有限状态自动机有限状态转录机中图分类号:G355文献标识码:A文章编号:1005—8095(2009)09—0099—03块语法(CG.ChunkGrammar)作为一种自然语大组块的情况下.屏蔽小组块。因此组块之间不发生言理解技术中的基础性研究,十分重
2、要。块语法的核重叠。心问题是通过学习语料构建语块识别模型。有限状本文在词性标注基础上使用有限状态自动机态自动机是具有离散输入和输出系统的一种数学模(Finite—StateAutomaton)简化句子的语法分析。构成型。它有有限个内部状态,随着信号的输入,内部状组块的几个词性标注序列构成一条合适的基本组块态不断地转移。在计算科学中,可以找到许多这种有规则,加入到基本组块规则集中去,使用模型规则进穷状态系统的例子。在文本编辑程序和编译程序中,行匹配。根据这个原则,我们由基本组块规则集来构用有限状态来设计各
3、种识别有效字符串(如标识符、造有限状态自动机。如下是基本组块规则集的一个数字等)的处理器。有限状态转录机是有限状态自动子集。机的基本形式.本文试图将层叠式有限状态转录机Subj【NPn=D?n=[N1An=N]】V(T.FiniteStateTransducer)思想应用于块语法分该子集是一个主语组块,是由名词、形容词组块析中。构成,我们定义组块的核心词作为组块的结束,核心1块语法分析系统总体设计词后的从属成分另起一个组块。名词组块时.顺序一句法分析是自然语言理解的基础。针对完整的般为限定词、形容词加名
4、词。其对应的有限自动机流句法分析在分析大规模文本中遇到的困难,我们尝程如图1所示。‘试把一个完整的句法分析问题分解为几个易于处理主语规则集模型转换有限状态机制:“[NP”、^的子问题。降低完整句法分析的难度,提高分析效率。(1)词性标注(Part—Of-Speech)。词性标注的任务就是根据一个词在某个特定句子中的上下文。为这个词标注正确的词性。我们使用基于最大熵模型的英图1有限目动机流程图“n=”文词性标注工具Postagger一1.0,共有1,6个模型,采、“[N1”、“】’'代表输出符号,D、A、
5、N、V代表输入用UpennTreebank的标注集。利用词性标注的结果句子的词性。从①状态扫描组块结果字串:遇到“【,’,这个局部语境信息进行基于规则的词类排歧。将其和组块类型符号共同压栈。遇到“1”时,将栈定(2)组块分析。的“『,’和组块类型符号弹出,“『”和“】”配对,组块类型部分句法分析(PartialParsing),又叫组块分析符号暗示了这类组块能否生成.如果能生成它的核(ChunkParsing),是将句子解释成较小的单元,组块心词,往往需要传给上一级组块进而处理;在不能生是一种结构.是符
6、合一定句法功能的非递归短语。成组块的时候,一般核心词往上传递。组块的原则:例如识别theredball。词性标注结果DTJJNN。①组块的非递归定义。各种组块类型在构成上自动机识别过程为:在Nl规则模型中即⑨状态到⑥都是平等的.任一个组块都严格符合一定的语法规状态将NN、JJ匹配为N1;NP规则模型中即⑩状态则,且不能由其他类型的组块构成。到①状态将DTN1匹配为NP。②组块之间不发生重叠。由于组块的定义都是对输入句子进行分析。分析实质上是一个模式由非终结符(即词性标注)组成,不存在嵌套的现象,匹配过程
7、,在这个过程中,如遇到冲突,则按最大匹并且在发生歧义时遵守最长匹配原则,在能够构成配原则选择合适的模式。如图2。收稿日期:2009—04-01作者简介:郭春霞(1978一):女,助理馆员,情报学硕士;申春艳(1979一),女,情报学硕士。992009年9月情报探索第9期(总143期)432●¨0year、month等。以上规则集构成名词组块nx。2.2多层规则模型介绍组块的流程就是在字串中插入组块边界和组块类型等句法标记。组块流程是根据人工书写的语法规则来进行的。我们组块系统包括多个层级,分析逐层进行。
8、每一层的组块是在上一层组块的结果的基础上进行的。由上分析,共有四图2层叠模型匹配图大类52个组块。每一层包括一类或多类在Lo层是将词性标注结果输入到有限状态自组块,或者说该层只分析这几个的组块。规则集合共动机,在L1自动机寻找给定的匹配模型,也就是规有9个层次。最底层主要是产生较小的组块,最高层则表达式。然后将符合规则模型的词性标注序列组得到一个完整的组块C,是一个句子的分析。在每一层的组块过程中。从左到右分析句子,根据词性或者块。没有符合
此文档下载收益归作者所有