欢迎来到天天文库
浏览记录
ID:20358725
大小:73.50 KB
页数:6页
时间:2018-10-12
《统计语言模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、统计语言模型主要内容概述数学建模n一.统计语言模型概述n二.现有的主要统计语言模型n三.数据平滑方法概述我们为什么需要统计语言模型?统计语言模型出现的历史:1、从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的第13届国际计算语言学大会(Coling’90)。2、1992年在蒙特利尔召开的第4届机器翻译的理论和方法国际会议(TMI-92)宣布大会的主题是:“机器翻译中的经验主义和理性主义方法”。公开承认,在传统的基于语言学和人工智能方法的自然语言处理技术
2、以外,还有一种基于语料库和统计语言模型的新方法正在迅速崛起。概述首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克(FredJelinek)。当时贾里尼克在IBM公司做学术休假(SabbaticalLeave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。十几年后,李开复用统计语言模型把997词语音识别的问题简化成了一个20词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。概述n历史上曾经先后出现过两个方法迥异的英语词性标注系
3、统:TAGGIT系统拥有3000条上下文相关规则,而CLAWS系统[6]完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果表明,采用概率统计方法的CLAWS系统的标注精度达到96%,比TAGGIT系统提高了近20个百分点。语言建模n从统计角度看,自然语言中的一个句子s可以由任何词串构成。不过P(s)有大有小。如:s1=我刚吃过晚饭s2=刚我过晚饭吃(并不要求语法是完备的,可对任意s给出概率)P(s1)>P(s2)n对于给定的句子s而言,通常P(s)是未知的。n对于一
4、个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。语言建模n根据语言样本估计出的概率分布P就称为语言L的语言模型。n语言建模技术首先在语音识别研究中提出,后来陆续用到OCR、手写体识别、机器翻译、信息检索等领域。n在语音识别中,如果识别结果有多个,则可以根据语言模型计算每个识别结果的可能性,然后挑选一个可能性较大的识别结果。n汉语切分歧义消解?(借助语言模型)一、统计语言模型概述n设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2wi-1,便可以用条件概率P(w
5、iwi-2wi-1)来预测wi出现的概率。这就是统计语言模型的概念。一、统计语言模型概述一、现有的主要统计语言模型1、n-gram1、n-gramn“thelargegreen______.”“mountain”?“tree”?n“Sueswallowedthelargegreen______.”“pill”?“broccoli”?n如果知道“Sueswallowed”会缩小可选择的下一个词的范围。如何选择n?1、n-gramnn较大时提供了更多的语境信息,语境更具区别性但是,参数个数多、计算代价大、
6、训练语料需要多、参数估计不可靠。nn较小时语境信息少,不具区别性但是,参数个数少、计算代价小、训练语料无需太多、参数估计可靠。1、n-gram语言模型n一般来说,如果用变量s代表文本中一个任意的词序列,它由顺序排列的L个词组成,即s=w1w2...wL,则统计语言模型就是该词序列s在文本中出现的概率P(s)n利用概率的乘积公式,P(s)可展开为:n统计语言模型有点像天气预报中使用的概率方法,用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录。而用三元模型来做天气预报,就好比是根据前两天的天
7、气情况来预测今天的天气。天气预报当然不可能百分之百准确,但是我们大概不会因此就全盘否定这种实用的概率方法.n三元模型(或一般的N元模型)只利用了语言的表层信息(或知识),即符号(字、词、词性标记等)序列的同现信息。不能说它是十全十美的。在这一领域中,下一个研究目标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语言理解是了不起的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事实。问题是目前国内外还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此,对于世界各国的语言
8、来说,当前的主流技术仍是语料库方法和统计语言模型。1、n-gram语言模型n计算量:设词表里共有V个不同的词,共有个不同的N-1元组,对于每个分布,又必须估算V个参数,因此共需估算出个参数。若V=10000,N=3,则必须计算出1012个参数。因此N不能取得太大,一般取2或3。1、n-gramnunigram(n=1)p(wi)若语言中有20000个词,则需要估计20000个参数nbigram(n=2)p
此文档下载收益归作者所有