n—gram语言模型的数据平滑技术

n—gram语言模型的数据平滑技术

ID:15173401

大小:166.74 KB

页数:4页

时间:2018-08-01

n—gram语言模型的数据平滑技术_第1页
n—gram语言模型的数据平滑技术_第2页
n—gram语言模型的数据平滑技术_第3页
n—gram语言模型的数据平滑技术_第4页
资源描述:

《n—gram语言模型的数据平滑技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、维普资讯http://www.cqvip.com@笫7期徐志明等:N-譬ram语言模型的数据平滑技术373HN—gram语言模型的数据平滑技术(哈尔滨工业大学计算机系关毅1(f.弓(哈业大机系150001)摘要本文主要描连了Nam统计语言模型的几种主要的数据平滑技术,并对各种数据平滑方法进萎关键词N·mgram葛卷±墨语言模型{,=:练壶性能!一q1q镬;{练集N.奄晰j茜、:i;u1引言虽然数据平滑技术是语言建模的核心技术,但文统计语言模型已经广泛地应用于语音识别、印刷献中缺乏许多现有的平滑技术

2、之间的明确对比。以往体文字识别、手写体文字识别和文字校对等领域中。的研究ada.%l984:Kate,l987;Church和Gale1991;统计语言模型通过描述语言的句子的概率分布,它反Mackay和Peto,l995)只对在固定规模的语料厍上的极映了句子的出现概率到目前为止,最流行的统计语少的平增方法进l行了比较。困此,目前研究人员很难言模型是Ngmm语言模型。本文将~Bigram为例,介从众多的数据平滑技术中选择适合自己的方法。绍N.gram语言模型的数据平滑方法。首先,假设一个本文对目前

3、的使用最广泛的平滑技术进行了比句子S由一个诃序列组成,W]W2可以表示句子S的较其中包括Jelinek-Merci9s0)的方法I_l,Katz(i987)出现概率为:';1(I13I1).W1.1)的方法【Church-Gale的方法lJ数据平滑技术的性能极大地依赖于训练数据的规模和N.gram的阶数几P(1wlw~】)捌如,在大训练集上的/3igram模型上.Cburch-Gale的在Bigram模型中,假_垃当前词的出现概率仅与前平滑技术具有出众的性能而在小训练集上的Bigram一个词有关,

4、句子的概率可以表示为:模型上,Kntz的平滑技术最好对于模型参数调整问题,通常采用自动搜索技术发现参数最优值.而且该,(兀,(w1ww)兀p(w.t)最优值比次优值对模型的性能上有明显的差异。为了估计l-1),通常采用最大似然规则进行另外,本文介绍了StanleyFChen提出的两种新的平滑技术第一种属于Jelinek-Mercer描述的平滑技估计:f.I)兰生LL(w¨)术第二种是一种简单的插值技术。这些方法在Big'am模型上性能较好,在Tfi~am模型上性能目前最优其中c(w)表示二元对.】

5、在训练语料上出现采用了数据平滑技术的语言模型的质量可以通过次数。计算测试集上的交叉熵(cross-entropv)~评价标准对于n>2~N—gram模型,句子概率的计算通过下式:P(垆兀P()÷至-log2p=()I当表示诃序列1叶我们采用最大似然规则p表示采用第1tl类数据平滑技术的语言模型,且捌试集为T,T由句子序列(f2一组成。测试集词数为。交叉熵有时称作熵。一般来说,具有较低熵由于语言模型的训练语料不可能无限大,许多合的语言模型具有较好的性能。有时用迷惑度(peIplty)理的诃之间的搭配

6、关系在语料库中没有出现,必然出来表示熵。p盯pIcxi,语言模型的迷惑度主要现数据稀琉现象(damspareness)。称之为零概率问题。与测试文本和诃典规模相关。数据平滑技术用于解决该问题。数据平滑技术用来对除了对各种平滑技术的整体性能的评价,本文给采用最大似然规则的概率估计进行调整首先它可以出了更详细的性能分析。通过对比不同算法在N-gram保证模型中任何概率均不为零其次,数据平滑使模上对训练集中的特定出现次数的事件的平滑性能,可型参数概率分布趋向更加均匀低概率(包括零概率)以挂现Katz~C

7、hurch-Gale的平滑技术在N~ram上对训被调高,高概率被调低练集中出现次数大的事件最准。而StanleyFChert的两种方法对训练集中出现次数小的事件的平滑最优最本课题得到国謇B63项目资~(863—306-03—02—1)后,本文讨论了几种混合的观点,包括Chutrch~3ale的收稿日期:1999年1月25日平滑技术和线性插值技术的比较,删除插值技术维普资讯http://www.cqvip.com38计算机应用研究1999益(deletedinterpolation)和扣留插值技术(

8、hdGom果采用删除插值(deicedinterpolation)方法.训练集的interpolation)~"/Lt较。不同部分可以变替地用于计算和p,然后对2主要的数据平滑方法计算结果做平均。本节主要描述儿种主要的N-gram语言模型的数据由于需要计算的参数众多,Jelmek-M~r.H平滑的方法,对相应的数据平滑方法的性能进行了讨建议对参数空间进行划分属于同一类的所有论2.1加法平滑【additive$moothirl曲的设置为相同值这样极大地减少了空间开最简单的数据平滑技术

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。