基于统计的分词技术

基于统计的分词技术

ID:34055241

大小:734.80 KB

页数:8页

时间:2019-03-03

基于统计的分词技术_第1页
基于统计的分词技术_第2页
基于统计的分词技术_第3页
基于统计的分词技术_第4页
基于统计的分词技术_第5页
资源描述:

《基于统计的分词技术》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、-1.N元文法模型1.1N元文法介绍基于统计的方法理解一句话,就是要从一句话的每个位置全部候选字中选择一个最可能的句子,我们假定一个字只与前面的N-1个字有关,若没有N-1个音就补以空音。这种N-1阶的马尔可夫模型,在语音理解中又特别地被称为N元文法模型(N-gramModel)。N元统计计算语言模型的思想是:一个单词的出现与其上下文环境中出现的单词序列密切相关,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关。1.2利用N元文法来纠正中文文本错误n-gram是常用的统计语言模型,其中尤以二元文法(Bigram)和三元文法(Trigram)的应用最多。n

2、-gram模型统计各种语言的邻接共现规律,反映句子的局部范围是否符合语言规范,被广泛用于自动校对中的错误查找。在英文的自动校对中使用了词和词的Trigram,把以字、词、词性为共现元素的Bigram应用于了中文自动校对中,取得了较好的效果。由于局部错误在文本的错误中占多数,所以选择合适的查找局部错误的方法对自动校对来说至关重要。我们知道,对正确的语言现象,字词之间的邻接共现概率较高,对一些不符合语法规范的错误,字词之间的邻接共现概率较低。所以,可应用反映字词之间邻接共现规律的n-gram模型,对句子进行局部分析,查找文本中的局部错误。例如:重要课题重要果题方法1:对

3、训练语料先进行自动分词,然后统计二元词邻接共现的规律,相邻的两个词wiwi+1记为一个词单元ui,下一单元ui+1=wi+1wi+2,该方法统计句子中词单元的绝对次数Count(ui),将其作为模型的参数;方法2:使用方法1的训练数据,以相邻三个词wiwi+1wi+2作为一个词单元ui,然后统计三元词邻接共现的绝对次数Count(ui),扩大词共现的邻接范围方法3:由于三元词的共现存在很大程度的数据稀疏,这里,对方法2的统计结果进行平滑处理,采用的是插值平滑方法。1.3利用N元文法来提取中文文本特征基本假设1.组成文本集合的汉字数量不随文本长度的增加而增加。基本假设

4、2.对于每一个汉字,由它组成韵词的数量是有限的。词典无关分词方法的原理是统计文本中各种字序列的出现频率,将出现频率高的字序列判断为词。Canvar的2-gram算法统计文本中依次提取的二字序列的出现次数,并提取出现频率高的2-gram作为词。Jian—YunNie在文献中用实验证明,2-gram算法表现出比基于词库分词更好的效果。Ogawat对2-gram算法进行了改进,使其适用于日语。上述方法大多对多字词关注不够,胥桂仙提出一种基于“最长字共现”原则的分词方法,在。定程度上解决了这一问题,但并未对其算法的正确性进行证明。另外,基于Apriori的算法的分词方法大致

5、过程可描述如F:“合并步”组合频繁的n-gram形成候选(n+1)-gram:“剪枝步”扫描原始文本检查候选(n+1).gram是否频繁;最后,通过逐层出现频度的比较删除所有的sub-gram,即某(n-i)-gram属于n-gram,H该(n-i)-gram与n-gram出现次数相同;如“数据库”中的“据库”。基于Apriori的算法可发现任意长度的中文高频词,但它的不足是在合并频繁的n-gram时,由于某些纽词能力较强的字的影响,合并产生的候选(n+1).gram的数量将达到n-gram数最的平方,严重影响r“剪枝步”效率。这一问题称为“组合爆炸”。本文提出的新

6、算法用ii.gram及其相邻字共同作为判断频繁集是否进行组合的标准,从而克服了“组合爆炸”问题,使特征提取全过程的时间复杂度降为O(CN),C是常数。1.Aprior算法其思想在于统计规则时根据频繁项的性质来简化提取次数。2.Vertbi搜索算法使用Vertbi算法,能够根据一个给定的观察序列和一个模型,在最佳的意义上确定内部状态序列。也就是说,根据可观察的事件序列,来推测不可观察的内部状态序列。1.统计方法1.1统计词频从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反应成词

7、的可信度。这就是词频统计的基本原理,这种技术发展至今已经有许多不同的统计原理。1.2中文词序列的最大概率值《基于统计的中文姓名提取方法》-微软亚洲研究院因为在中文句子的字与字之间没有间隔,所以很难将中文句子切分成有意义的词或短语。汉语通常用最大长度匹配或基于统计的方法来切分。最大长度匹配方法的基础是较长的中文词语比短的词语表达更多的意思的规则,而统计方法试图找到中文词序列的最大概率值。本系统中所用的模型包括二个部分:(1)模型产生Name-class,(2)模型产生Name-class内部的第一个词,(3)模型产生Name-class内部的所有其它词。Pr(NC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。