欢迎来到天天文库
浏览记录
ID:44978691
大小:621.02 KB
页数:78页
时间:2019-11-06
《第五章n-gram语言模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、关毅guanyi@hit.edu.cn研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室第五章n-gram语言模型1、n-gram语言模型附录1、语言模型构造实例附录2、最大熵模型的理论基础研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室本章主要内容噪声信道模型噪声信道模型目
2、标:通过有噪声的输出信号试图恢复输入信号研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的应用噪声信道模型是一种普适性的模型,通过修改噪声信道的定义,可以将如下应用纳入到这一模型的框架之中研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的应用-语音识
3、别一个声学信号对应于一个语句,一个语音识别器需找到其对应的可能性最大的语言文本根据贝叶斯公式研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的应用-语音识别信息源对应于以概率生成语句文本,噪声信道对应于以概率分布将语句文本转换成声音信号。语音识别的目的就是由通过噪声信道而输出的声音信号恢复其原始的语句文本。研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.A
4、llRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的其他应用信源以概率生成语句文本,信道为,语音/图像/翻译文本/字音转换模型手写体汉字识别文本-〉书写(或者打印、扫描)-〉图像文本校错文本-〉输入编辑-〉带有错误的文本机器翻译目标语言的文本-〉翻译-〉源语言文本音字转换文本-〉字音转换-〉汉字(拼音)编码研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合
5、实验室噪声信道模型的其他应用信源以概率生成词性标注序列,信道为词性标注序列转为词序列的转换模型词性标注词性标注序列-〉词性词串转换-〉词串研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室香农游戏(ShannonGame)ClaudeE.Shannon.“PredictionandEntropyofPrintedEnglish”,BellSystemTechnicalJournal30:50-64.195
6、1.给定前n-1个词(或者字母),预测下一个词(字母)从训练语料库中确定不同词序列概率研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室语言模型P(T):语言模型,如何计算P(T)?根据链规则问题:1、参数空间过大,无法实用!2、数据稀疏问题研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎
7、中国联合实验室基本思想“马尔科夫假设”-下一个词的出现仅仅依赖于它前面的一个词或者几个词.假设下一个词的出现依赖于它前面的一个词:bigram假设下一下一个词的出现依赖于它前面的两个词:trigram……研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室N-gram语言模型最大相似度估计(MaximumLikelihoodEstimate)“n-gram”=n个词构成的序列unigrambigramtri
8、gramfour-gram(quadgram4-gram)……研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联
此文档下载收益归作者所有