用隐马尔可夫模型实现词性标注.ppt

用隐马尔可夫模型实现词性标注.ppt

ID:56384811

大小:180.00 KB

页数:32页

时间:2020-06-14

用隐马尔可夫模型实现词性标注.ppt_第1页
用隐马尔可夫模型实现词性标注.ppt_第2页
用隐马尔可夫模型实现词性标注.ppt_第3页
用隐马尔可夫模型实现词性标注.ppt_第4页
用隐马尔可夫模型实现词性标注.ppt_第5页
资源描述:

《用隐马尔可夫模型实现词性标注.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、目录隐马尔可夫模型词性标注编码实现1目录隐马尔可夫模型词性标注编码实现2显马尔可夫模型(VMM)显马尔可夫模型的性质有限视野时间不变性3隐马尔可夫模型(HMM)隐马尔可夫模型可以由一个五元组(S,K,∏,A,B)表示状态集合输出字母表初始状态概率状态转移概率符号发射概率4HMM的例子某朋友在纽约,我在国内。通过电话,我知道他每天的活动:远足、散步、打扫房间通过HMM,我可以估计出纽约每天的天气情况5HMM图示o1=kmo2o3……X1=s1……P(o1=km

2、X1=s1,X2=s1)=b11m观察序列隐

3、藏的状态序列X1=s2……b21mX2=s2……P(X2=s1

4、X1=s1)=a11a21X3=s1Xt=s1X2=s1X1=sNXt+1=s1……Xt+1=sNot=knb11n……6HMM的三个基本问题给出一个模型,怎样有效计算某个观测序列发生的概率,即?给出观测序列和模型,怎样选择一个状态序列,以便能够最好的解释观测序列?给定观测序列,以及通过改变模型的参数而得到的模型空间,怎样找到一个最好的解释这个观测序列的模型?7计算观测序列的概率给定观测序列,和模型对于任意状态序列次乘法8计算观测序列的概率

5、(续)利用格路算法,降低算法的复杂度………………………………s1s2s3sn123T+1……T……9计算观测序列的概率(续)前向过程前向变量表示t时刻以状态si结束时总的概率,可通过对格路节点的所有入弧的概率进行求和计算得到1.初始化2.推导3.求和次乘法10确定最佳状态序列Viterbi算法在前向过程中,前向变量表示t时刻以状态si结束时总的概率。在Viterbi算法中,格路中每个节点变量存储了到这个节点的最可能路径的概率,存储了导致这条最可能路径的入弧节点。关键在于,从节点Node(si,t)往后找

6、路径时,我们只需知道,到这个节点的最可能路径以及该路径的概率,而并不需要关心该路径外其他节点。11确定最佳状态序列(续)1.初始化2.推导存储回溯路径3.终止以及路径读出12HMM的参数估计目前没有已知的解析方法来选择,使得最大,但我们可以通过迭代爬山算法使得它局部最大化。这种算法被称为Baum-Welch或前向后向算法。工作方式如下:使用某个模型(也许是随机选取的)算出观测序列的概率查看计算过程,即可发现哪个状态转移或符号发射可能出现的次数最多通过增加它们的概率,就可以选择一个修改后的模型,使得它可以

7、为观测序列给出更高的概率13目录隐马尔可夫模型词性标注编码实现14怎样确定文本中一个词的词性?词本身提供的信息词语的不同词性的使用分布极不均匀,比如,flour可以被用作动词,但更多是作为名词出现。Charniaketal.设计了一个dumb标注器,简单的把最常用的标注分配给每个词,准确率达到90%。观察该词上下文中其他词的标注很多词性序列是常见的,比如ATJJNN,相应的词序列可以是agoodstudent等。15以HMM作为词性标注的概率模型将句子的词形序列对应为观察序列将句子的词性序列对应为隐藏状

8、态序列有限视野假设一个词语的标记只依赖于前面的标记时间不变性假设词性转换概率与其在句子中的位置无关16参数估计状态转移概率符号发射概率17为句子寻找最佳标记序列词语互相独立词语的出现只依赖于它本身的标注有限视野并引入P(t1

9、t0)=118使用Viterbi算法降低算法的复杂度19目录隐马尔可夫模型词性标注编码实现20总体流程训练以GATE标注过的文本作为训练数据在训练数据上进行各种统计,得到状态转移概率和符号发射概率标注先用GATE分词、分句对每个句子,根据Viterbi算法,计算这个句子最可能的词性

10、标注序列评估对于测试数据,以GATE的标注作为金标准输出程序标注结果输出统计结果,包括准确率、未登录词准确率等(程序以Java语言编写)21训练状态转移概率状态(词性)以int表示状态计数矩阵,以int[]存储状态转移计数矩阵,以int[][]存储状态转移概率矩阵,以double[][]存储在右上角公式中,如果分母为零,则分子肯定为零在右上角公式中,如果分子为零,则给状态转移概率赋予一个很小的值(怎样确定?)22训练(续)符号发射概率符号,即为词形,取小写,保留词缀,以String表示一般来说,一个词只

11、有有限的几个词性,有的词只有一个词性,如“the”符号发射计数表和符号发射概率表的图示:HashMaptheArrayListDT,108bankArrayListNN,23VB,10……HashMaptheArrayListDT,0.6bankArrayListNN,0.8VB,0.2……23标注初始概率假设句子的前面是一个句点,取句点的词性到当前词性的转移概率即可(句点只有一种词性)24标注(续)“简化”的Viterbi算法对于已登录词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。