欢迎来到天天文库
浏览记录
ID:37700799
大小:649.51 KB
页数:78页
时间:2019-05-29
《计算语言学讲义(04)词法分析(二)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算语言学第4讲词法分析(二)刘群中国科学院计算技术研究所liuqun@ict.ac.cn中国科学院研究生院2010年春季课程讲义内容提要计算语言学讲义(04)词法分析(二)2内容提要计算语言学讲义(04)词法分析(二)3内容提要计算语言学讲义(04)词法分析(二)4内容提要计算语言学讲义(04)词法分析(二)5什么是统计语言模型•语言模型给出任何一个句子的出现概率:Pr(Sentence=ww…w)12n归一化条件:ΣPr(Sentence)=1Sentence•统计语言模型实际上就是一个概率分布,它给出了一种语言中所有可能的句子的出现概率•在统计语言模型看来,对于
2、一种语言,任何一个句子都是可以接受的,只是接受的可能性(概率)不同•统计语言模型问题是一个典型的序列评估问题计算语言学讲义(04)词法分析(二)6语言模型的类型•理论上,单词串的任何一种概率分布,都是一个语言模型。•实际上,N元语法模型是最简单也是最常见的语言模型。•N元语法模型由于没有考虑任何语言内部的结构信息,显然不是理想的语言模型。•其他语言模型:–隐马尔科夫模型(HMM)(加入词性标记信息)–概率上下文无关语法(PCFG)(加入短语结构信息)–概率链语法(ProbabilisticLinkGrammar)(加入链语法的结构信息)•目前为止,其他形式的语言模型效
3、果都不如N元语法模型•统计机器翻译研究中开始有人尝试基于句法的语言模型计算语言学讲义(04)词法分析(二)7N元语法模型-概念辨析•N元语法模型:N-GramModel。•所谓N-Gram,指的是由N个词组成的串,可以称为“N元组”,或“N元词串”。•基于N-Gram建立的语言模型,称为“N元语法模型(N-GramModel)”。•Gram不是Grammar的简写。在英文中,并没有N-Grammar的说法。•在在汉语中,单独说“N元语法”的时候,有时指“N元组(N-Gram)”,有时指“N元语法模型(N-GramModel)”,请注意根据上下文加以辨别。计算语言学讲义
4、(04)词法分析(二)8N元语法模型-定义•N元语法模型(N-gramModel)nPw=∏pw∣ww...wi12i−1i=1n≈∏pw∣ww...wii−N1i−N2i−1i=1•假设:单词w出现的概率只与其前面的iN-1个单词有关计算语言学讲义(04)词法分析(二)9N元语法模型-举例•N=1时:一元语法模型–相当于词频表,给出所有词出现的频率•N=2时:二元语法模型–相当于一个转移矩阵,给出每一个词后面出现另一个词的概率•N=3时:三元语法模型–相当于一个三维转移矩阵,给出每一个词对儿后面出现另一个词的概率•在自然语言处理中,N元语法模型可以在
5、汉字层面,也可以在单词层面,还可以在概念层面……计算语言学讲义(04)词法分析(二)10二元语法模型-图示P(t-i-p)=p(X=t)p(X=i
6、X=t)p(X=p
7、X=i)12132=1.0×0.3×0.6=0.18计算语言学讲义(04)词法分析(二)11袋子模型BagModel(1)•将一个英语句子中所有的单词放入一个袋子中•用N元语法模型试图将其还原–对于这些单词的任何一种排列顺序根据N元语法模型计算其出现概率–取概率最大的排列方式计算语言学讲义(04)词法分析(二)12袋子模型BagModel(2)•实验:取38个长度小于11个单词的英语句子,实验结果如下:
8、计算语言学讲义(04)词法分析(二)13代码识别问题(1)•给出一段汉语文本,需要识别出其是GB码还是BIG5码code=argmaxPcode∣textcodePtext∣codePcode=argmaxcodePtext=argmaxPtext∣codePcodecode≈argmaxPtext∣codecode假设GB码的文本和BIG码的文本出现概率相同计算语言学讲义(04)词法分析(二)14代码识别问题(2)•为GB码和BIG5码分别建立一元统计语言模型,也就是为两种代码分别建立字频表•将代码text按照GB码和BIG5码分别识别成
9、不同的汉字串,计算其中所有汉字频率的乘积•算法的优点:简单、高效,通过很短的一段文本就可以识别出其代码类型计算语言学讲义(04)词法分析(二)15音字转换(1)•给出一段拼音,要求转换成汉字pinyin=woaini汉字=我爱你、窝爱霓、我挨你……text=argmaxPtext∣pinyintextPpinyin∣textPtext=argmaxtextPpinyin=argmaxPpinyin∣textPtexttext≈argmaxPtexttext不考虑同音字,即认为P(pinyin
10、text)为常量计算语言学讲义
此文档下载收益归作者所有