词性标注与隐马尔可夫模型.ppt

词性标注与隐马尔可夫模型.ppt

ID:52183780

大小:312.50 KB

页数:40页

时间:2020-04-02

词性标注与隐马尔可夫模型.ppt_第1页
词性标注与隐马尔可夫模型.ppt_第2页
词性标注与隐马尔可夫模型.ppt_第3页
词性标注与隐马尔可夫模型.ppt_第4页
词性标注与隐马尔可夫模型.ppt_第5页
资源描述:

《词性标注与隐马尔可夫模型.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、词性标注与隐马尔可夫模型戴新宇2006-11-171概要词性标注HMM模型HMM模型用于词性标注相关问题讨论2词性标注定义及任务描述词性标注的问题-标注歧义(兼类词)词性标注之重要性词性标注方法3词性标注任务描述什么叫词性?词性又称词类,是指词的语法分类,或者说是按照其各自的语法功能的不同而分出来的类别划分词类的依据词的形态、词的语法意义、词的语法功能汉语的词类划分词性标注:给某种语言的词标注上其所属的词类Theleadpaintisunsafe.The/Detlead/Npaint/Nis/Vunsafe/Adj

2、.他有较强的领导才能。他/代词有/动词较/副词强/形容词的/助词领导/名词才能/名词。4词性标注问题 -词性标注歧义(兼类词)一个词具有两个或者两个以上的词性英文的Brown语料库中,10.4%的词是兼类词ThebackdoorOnmybackPromisetobackthebill汉语兼类词把门锁上,买了一把锁他研究与自然语言处理相关的研究工作汉语词类确定的特殊难点对兼类词消歧-词性标注的任务5词性标注的应用及重要性机器翻译Text–Speech词法句法规则-词性组合句法分析的预处理统计自然语言处理的基础6词性标

3、注常见方法规则方法:词典提供候选词性人工整理标注规则统计方法寻找概率最大的标注序列如何建立统计模型P(tag,word)HMM方法(Garsideetal.1987,Church1988)决策树方法(Schmid1994)最大墒方法(Ratnaparkhi1996)基于错误驱动的方法错误驱动学习规则利用规则重新标注词性7词性标注的性能指标性能指标:标注准确率当前方法正确率可以达到97%正确率基线(Baseline)可以达到90%基线的做法:给每个词标上它最常见的词性所有的未登录词标上名词词性8决定一个词词性的因素从

4、语言学角度:由词的用法以及在句中的语法功能决定统计学角度:和上下文的词性(前后词的标注)相关和上下文单词(前后词)相关9隐马尔可夫模型 -概要背景马尔可夫模型隐马尔可夫模型模型评估解码模型参数学习10背景俄国统计学家AndreiMarkov(1856-1922)提出StudiedtemporalprobabilitymodelsReal-worldObservedoutput(signals)SignalModels–stimulatethesignalssourceandlearnasmuchaspossible

5、throughsimulations11马尔可夫模型举例说明马尔可夫模型马尔可夫假设12马尔可夫模型示例-天气预报状态:雨、多云、晴给定不同天气之间的转换概率,预测未来数天的天气通过如右图所示的矩阵描述状态之间的转移概率13马尔可夫模型示例-天气预报通过有限状态自动机描述状态转移概率14预测 -计算未来天气(序列的概率)晴-晴-雨-雨-晴-多云-晴,未来七天天气是这种情况的概率15马尔可夫假设假设1有限视野P(Ot+1=Sk

6、O1,…Ot)=P(Ot+1=Sk

7、Ot-(n-1),…Ot)(n-1)th阶马尔可夫链→

8、n元语言模型假设2时间独立性P(Ot+1=Sk

9、Ot)=P(O2=Sk

10、O1)16隐马尔可夫模型 -HiddenMarkovModel(HMM)介绍定义隐马模型应用于词性标注17HMM模型的简单介绍“隐”在何处?状态(序列)是不可见的(隐藏的)HMM是一阶马尔可夫模型的扩展观察值与状态之间存在概率关系隐藏的状态序列满足一阶马尔可夫模型相对于markov模型的又一假设:输出独立性18HMM的定义定义:一个HMM模型λ=(A,B,π)S是状态集,S=(S1,S2,…SN)V是观察集,V=(V1,V2,…VM)状态序列Q

11、=q1q2…qT(隐藏),观察序列O=o1o2…oT(可见)A是状态转移概率分布A=[aij],aij=P(qt=sj

12、qt-1=si)(满足假设1.)B是观察值生成概率分布B=[bj(vk)],bj(vk)=P(ot=vk

13、qt=si)(满足假设2、3)初始观察值概率分布Π=[πi],πi=P(q1=si)19词性标注的HMM模型定义HMM:SVABπS:预先定义的词性标注集V:文本中的词汇A:词性之间的转移概率B:某个词性生成某个词的概率例,P(我

14、“代词”)π:初始概率基于构建的HMM,利用某些算法,寻找一个

15、最合适的词性标注序列,即为一个词串上的每个词标注上词性。注:可见的观察序列为w1w2…wT20PostaggingusingHMM模型解码(Decoding)给定模型和一个观测序列,寻求一个产生这个观测序列的可能性最大的状态序列给定词序列w1w2…wT(可见的观察序列),寻求产生这个词序列的最可能的词性标注序列Pos1Pos2…PosT(隐藏的状态序列)如何

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。