南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究

南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究

ID:40246461

大小:287.01 KB

页数:15页

时间:2019-07-29

南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究_第1页
南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究_第2页
南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究_第3页
南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究_第4页
南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究_第5页
资源描述:

《南大版ppt隐马尔可夫模型(hmm)在中文词性标注中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、隐马尔可夫模型(HMM)在中文词性标注中的应用研究答辩人:指导老师:7/20/20211词性标注概述隐马尔可夫模型概述实验介绍实验结果和分析总结提纲7/20/20212词性标注概述词性标注的目标和过程目标:为句子中的每个词都标上一个合适的词性过程:原文:这件事情在理论界、经济界引起了很大反响。分词后:这件事情在理论界、经济界引起了很大反响。词性标注:这/r件/q事情/n在/p理论界/n、/w经济界/n引起/v了/u很/d大/a反响/n。/w词性标注中的信息源邻接词的词性信息词本身提供的信息7/20/20213词性标注概述(cont.)词性标注的主要方法基于规则的方法(Rul

2、e-based)基于统计的方法(Statistics-based)基于转换的方法(Transformation-based)词性标注准确率训练数据量标注集合语料库差别未登录词7/20/20214隐马尔可夫模型(HMM)概述HMM的两个假设:有限视野假设P(Ot+1=Sk

3、O1,…Ot)=P(Ot+1=Sk

4、Ot)时间不变性假设P(Ot+1=Sk

5、Ot)=P(O2=Sk

6、O1)7/20/20215隐马尔可夫模型概述(cont.)HMM模型:λ=(A,B,π)S是状态集:S=(S1,S2,…SN)V是观察集:V=(V1,V2,…VM)状态序列:Q=q1q2…qT(隐藏),观察序

7、列:O=o1o2…oT(可见)A是状态转移概率分布:A=[aij],aij=P(qt=sj

8、qt-1=si)(满足假设1)B是观察值生成概率分布:B=[bj(vk)],bj(vk)=P(ot=vk

9、qt=si)(满足假设2)初始观察值概率分布:π=[πi],πi=P(q1=si)7/20/20216隐马尔可夫模型概述(cont..)隐马尔可夫模型的基本问题给定一个模型λ=(A,B,π),怎样有效的计算某个观测序列发生的概率,即P(O

10、λ)。(模型拟合程度)给定观测序列O和模型λ,怎样选择一个状态序列q1q2…qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注

11、过程)给定观测序列O,以及通过改变模型λ=(A,B,π)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程)7/20/20217隐马尔可夫模型概述(cont...)Viterbi算法:s1s2sisNs1s2sisNs1s2sjsNs1s2sisNa1ja2jaijaNj7/20/20218实验介绍实验语料库简介人民日报标注语料库199801~199806共含有标注42个,单词130274个实验建模S:预先定义的词性标注集(42个标注)V:文本中的词汇(130274个词)A:词性之间的转移概率B:某个词性生成某个词的概率例,P(我

12、“代词”

13、)π:初始概率7/20/20219实验介绍(cont.)模型训练最大似然估计法实验相关问题数据稀疏问题稀疏矩阵未登录词和概率平滑留出相应的概率空间7/20/202110实验结果和分析整体实验用199801~199805作为训练语料库,标注199806的结果如下:待标注总数:1,244,415正确标注数:1,167,314错误标注数:77,101标注正确率:0.938042未登录词数:17,071部分标注的结果:标注正确数错误数标注准确率b85686750.92697c2753017830.93917d5174430480.944377/20/202111实验结果和分析(co

14、nt.)Ag2461580.60891an222211420.66052Dg50520.49020e1880.69231结论:训练库中标注出现次数对结果有很大影响小样本实验然而/c,/w由于/c历史/n的/u原因/n,/w其/r在/p机制/n方面/n的/u种种/q弊端/n日益/d显露/v,/w已/d越来越/d不/d适应/v社会主义/n市场经济/n的/u要求/n。/w7/20/202112实验结果和分析(cont..)错误:“由于”的介词词性p错误标成了连词词性c。分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“

15、由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下:w:-11.3986w->p:-2.5839w->c:-2.8842w->d:-2.6353p->由于:-5.3571c->由于:-4.6158d->由于:-11.7821p:-19.3397c:-18.8987d:-25.8160结论:遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。7/20/202113总结总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。