最新基于语义类的汉语句法分析研究幻灯片.ppt

最新基于语义类的汉语句法分析研究幻灯片.ppt

ID:62111040

大小:784.50 KB

页数:43页

时间:2021-04-17

最新基于语义类的汉语句法分析研究幻灯片.ppt_第1页
最新基于语义类的汉语句法分析研究幻灯片.ppt_第2页
最新基于语义类的汉语句法分析研究幻灯片.ppt_第3页
最新基于语义类的汉语句法分析研究幻灯片.ppt_第4页
最新基于语义类的汉语句法分析研究幻灯片.ppt_第5页
资源描述:

《最新基于语义类的汉语句法分析研究幻灯片.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于语义类的汉语句法分析研究句法分析的困难句法分析的最主要的困难有两点:第一个难点是歧义“自然语言区别于人工语言的一个显著特点就是它存在大量的歧义现象”人类可以依靠大量的先验知识有效地消除各种歧义现象,而机器由于在知识表示和知识获取方面的不足还难以像人类那样进行句法分析。第二个难点是搜索空间巨大“同一般的分类问题相比,句法分析是一个更为复杂的问题”因为分类问题只需要在预先指定好的数目确定的若干种类型中做出一个选择就可以了,而在进行句法分析时,不同的句子会有不同的候选分析树“给定一个长度为n个词的句子,其可能的候选句法分析树的个数高达n的指数级”因此在设计句法分析模型

2、时不仅仅要加强模型消除歧义的能力,还必须要控制好模型的复杂度,从而保证解码器能够在可接受的时间内搜索到最优的句法分析树。基于语义类的汉语句法分析一般情况下,训练数据的规模越小,句法分析模型的性能就越低“主要原因有两个:第一个原因是数据稀疏问题,参数估计得不准确;第二个原因是训练数据缺乏容易引起过拟合(overtfinig)现象,使模型的泛化能力降低”针对这两个问题,本章将以最小描述长度原则为基础,探索基于语义类的汉语句法分析模型“在基于词类的汉语句法分析模型中,我们用语义类来代替词汇信息”这种方法。基于语义类模型的输入是一个由词汇,词性和语义类组成的三元组序列:

3、,POS,SC>其中W(w1,,,wn)为词序列,wi表示第i个词;SC=(sc1,,,scn)为语义类序列,sci表示第i个词的语义类;POS=(t1,,,tn)为词性序列,ti表示第i个词的词性。给定,我们仍然是用统计方法来消除句法歧义,认为条件概率最大的句法分析树是最好的,即根据贝叶斯公式并略掉常数项,我们有:为了简化模型,我们假设词序列砰的产生仅仅依赖于SC。我们可以用两个极端方式对语义分类树进行剪枝:第一种剪枝方式是只保留根节点(词性信息),其它节点全部剪掉,这相当于回到了PCFG模型。第二种剪枝方式是不剪枝,保留所有叶子节点(词汇信息

4、),这相当于是词汇化模型。我们知道PCFG模型过于简单,消歧能力差;而词汇化模型使用词汇信息却引起数据稀疏。因此,上述两种方式都是不可取的,比较合理的剪枝应该是介于两个极端方式之间的。本文采用最小描述长度(MniimumDescriPtinoLnegth,MDL)原则,自动地为句法分析模型在两个极端方式之间寻找一个平衡点。对于一棵剪枝后的语义分类树,其描述长度为:其中,lGl为所有候选剪枝方式数目;lSl为样本数,即该分类树下的所有词语出现次数之和;k为剪枝后的语义分类树的自由参数的个数。语义分类树的参数个数为其叶节点数目。每个叶节点对应着一个概率值,由于所有概率之

5、和必须为1,则此约束限定了一个参数。因此自由参数的个数为叶节点数目减一。其中,sc为w所属的语义类,f(sc)是其出现的次数,lscl伪语义类sc中所包含的词语数目。上式的基本思想是把某个语义类sc的概率平均分配给该语义类所包含的词,也就是说语义类sc所包含的词的各种统计量将被融合在一起并在每个词之间平均分配,正是借助这种泛化手段我们才可以从较小的语料库当中获得比较智能化的参数估计。为了搜索到能够使L(M)、L(DlM)两项之和最小的剪枝方式,理论上要穷举所有可能的情况。在实际操作时,我们可以采用动态规划的方法递归地搜索最优的剪枝方式,算法如下:我们看到该算法在对节

6、点N剪枝之前,首先要对其所有子节点调用该算法进行剪枝。我们在实际操作时,只需要把每个词性的语义分类树的根节点作为参数传递给该算法即可。实验与分析实验是在规模较小的第一版宾州中文树库(CTB)上进行的。CTB由325篇文章组成,根据以往研究的惯例,我们把前270篇文章作为训练集,后25篇文章作为调试集,其余的30篇文章作为测试集。训练集和测试集的特性如表5一1所示。实验的目标是在小语料库上利用语义类信息来提高句法分析器的性能。我们设计了如下的3组实验:)(1)基于词汇的句法分析,作为其他方法的比较基准。(2)基于固定层次语义类的句法分析。如前所述,每个词汇都有五层语义

7、类代码,因此分别进行了5个实验来验证语义信息的作用,即所有词汇都分别采用第一层、第二层、第三层、第四层、第五层语义类代码。(3)基于最优层次语义类的句法分析,即应用MDL原则为每一个词汇自动确定采用哪一层语义类代码。基于第三层、第四层、第五层语义类代码的句法分析的性能都超过了基于词汇模型的方法,这在一定程度上说明了语义类在汉语句法分析模型中的重要作用。但是,基于第一层、第二层语义类的方法的性能不如基于词汇的方法好。导致这一结果的原因是语义类的数目过小,例如,第一层语义类只有12种(即把近万个词语聚成12类),而这12个语义类不足以描述众多词语之间在句法语义功能上

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。