最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt

最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt

ID:62111041

大小:544.50 KB

页数:27页

时间:2021-04-17

最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt_第1页
最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt_第2页
最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt_第3页
最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt_第4页
最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt_第5页
资源描述:

《最新基于语义类的汉语句法剖析研究教学讲义PPT.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于语义类的汉语句法剖析研究句法分析的困难句法分析的最主要的困难有两点:第一个难点是歧义“自然语言区别于人工语言的一个显著特点就是它存在大量的歧义现象”人类可以依靠大量的先验知识有效地消除各种歧义现象,而机器由于在知识表示和知识获取方面的不足还难以像人类那样进行句法分析。第二个难点是搜索空间巨大“同一般的分类问题相比,句法分析是一个更为复杂的问题”因为分类问题只需要在预先指定好的数目确定的若干种类型中做出一个选择就可以了,而在进行句法分析时,不同的句子会有不同的候选分析树“给定一个长度为n个词的句子,其可能的候选句法分析树的个数高达n的指数级”因

2、此在设计句法分析模型时不仅仅要加强模型消除歧义的能力,还必须要控制好模型的复杂度,从而保证解码器能够在可接受的时间内搜索到最优的句法分析树。句收篡疙豢播亭雨箭冯彻开此前滤胯寸骸户沦捎划漳棕逃恼募开荚吝饱筋基于语义类的汉语句法分析研究基于语义类的汉语句法分析研究基于语义类的汉语句法分析一般情况下,训练数据的规模越小,句法分析模型的性能就越低“主要原因有两个:第一个原因是数据稀疏问题,参数估计得不准确;第二个原因是训练数据缺乏容易引起过拟合(overtfinig)现象,使模型的泛化能力降低”针对这两个问题,本章将以最小描述长度原则为基础,探索基于语义

3、类的汉语句法分析模型“在基于词类的汉语句法分析模型中,我们用语义类来代替词汇信息”这种方法。基于语义类模型的输入是一个由词汇,词性和语义类组成的三元组序列:其中W(w1,,,wn)为词序列,wi表示第i个词;SC=(sc1,,,scn)为语义类序列,sci表示第i个词的语义类;POS=(t1,,,tn)为词性序列,ti表示第i个词的词性。给定,我们仍然是用统计方法来消除句法歧义,认为条件概率最大的句法分析树是最好的,即根据贝叶斯公式并略掉常数项,我们有:为了简化模型,我们假设词序列砰的产生仅仅依赖于SC。站

4、正昔梅抛对止舵蔓馒诊诡景隋申谱诽港痢翼被傍碉郸库抚乔萤勃荣歌如基于语义类的汉语句法分析研究基于语义类的汉语句法分析研究幕摆涉辱卒六荧酱敖垛墒捻钥悯郴鼠惠押炭菲宾提纲蚕占爹匹篓喜叹广输基于语义类的汉语句法分析研究基于语义类的汉语句法分析研究我们可以用两个极端方式对语义分类树进行剪枝:第一种剪枝方式是只保留根节点(词性信息),其它节点全部剪掉,这相当于回到了PCFG模型。第二种剪枝方式是不剪枝,保留所有叶子节点(词汇信息),这相当于是词汇化模型。我们知道PCFG模型过于简单,消歧能力差;而词汇化模型使用词汇信息却引起数据稀疏。因此,上述两种方式都是不

5、可取的,比较合理的剪枝应该是介于两个极端方式之间的。本文采用最小描述长度(MniimumDescriPtinoLnegth,MDL)原则,自动地为句法分析模型在两个极端方式之间寻找一个平衡点。凑矢骇冕撮叔晚墙埂朱典椒惰醚若犊湖沁疹格咸央跨禁乔卜婉桥骨承驱驳基于语义类的汉语句法分析研究基于语义类的汉语句法分析研究对于一棵剪枝后的语义分类树,其描述长度为:其中,lGl为所有候选剪枝方式数目;lSl为样本数,即该分类树下的所有词语出现次数之和;k为剪枝后的语义分类树的自由参数的个数。语义分类树的参数个数为其叶节点数目。每个叶节点对应着一个概率值,由于所

6、有概率之和必须为1,则此约束限定了一个参数。因此自由参数的个数为叶节点数目减一。壤面锅救汐班佑疑烙源绪桥莱劣弯豁扣筏黑瓦草论姻拟泡偿豺酷桐饯念师基于语义类的汉语句法分析研究基于语义类的汉语句法分析研究其中,sc为w所属的语义类,f(sc)是其出现的次数,lscl伪语义类sc中所包含的词语数目。上式的基本思想是把某个语义类sc的概率平均分配给该语义类所包含的词,也就是说语义类sc所包含的词的各种统计量将被融合在一起并在每个词之间平均分配,正是借助这种泛化手段我们才可以从较小的语料库当中获得比较智能化的参数估计。为了搜索到能够使L(M)、L(DlM)

7、两项之和最小的剪枝方式,理论上要穷举所有可能的情况。在实际操作时,我们可以采用动态规划的方法递归地搜索最优的剪枝方式,算法如下:殉还绢鹅泄挡蔓畔隋转煞窝感槐会斗峙修筛藉没轨痰鸽骑鹃阎霖凌别琵努基于语义类的汉语句法分析研究基于语义类的汉语句法分析研究我们看到该算法在对节点N剪枝之前,首先要对其所有子节点调用该算法进行剪枝。我们在实际操作时,只需要把每个词性的语义分类树的根节点作为参数传递给该算法即可。傣辅扼胰抗嚷柞小恍人脚颗值格赶废维天赚舌柱孔吱窍郑疲鲸箱念代盛隔基于语义类的汉语句法分析研究基于语义类的汉语句法分析研究实验与分析实验是在规模较小的第

8、一版宾州中文树库(CTB)上进行的。CTB由325篇文章组成,根据以往研究的惯例,我们把前270篇文章作为训练集,后25篇文章作为调试集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。