基于隐马尔科夫的词性标注讲稿_by于江德

基于隐马尔科夫的词性标注讲稿_by于江德

ID:36260433

大小:735.55 KB

页数:28页

时间:2019-05-07

基于隐马尔科夫的词性标注讲稿_by于江德_第1页
基于隐马尔科夫的词性标注讲稿_by于江德_第2页
基于隐马尔科夫的词性标注讲稿_by于江德_第3页
基于隐马尔科夫的词性标注讲稿_by于江德_第4页
基于隐马尔科夫的词性标注讲稿_by于江德_第5页
资源描述:

《基于隐马尔科夫的词性标注讲稿_by于江德》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于隐马尔科夫模型的词性标注于江德安阳师范学院自然语言处理小组2009年4月7日内容提要词性标注基于HMM的词性标注基于规则的词性标注后面经常用到的公式二元一元词性标注的任务自然语言中一词多类的现象把这篇报道编辑一下把/q-p-v-n这/r篇/q报道/v-n编辑/v-n一/m-c下/f-q-vTimeflieslikeanarrowTime/n-vflies/v-nlike/p-van/Detarrow/n所谓词性标注就是用计算机来自动地给文本中的词标注词类(如:名词、动词)。意义为更高层次的自然语言文本加工提供素材为语言学的研究,提供翔实的资料从加

2、工过的文本中获取词类及频度的词性标注知识词性标注的实质:寻找最优路径4×1×1×2×2×2×3=96种可能性,哪种可能性最大?隐马尔可夫模型简要回顾隐马尔可夫模型是在马尔可夫链的基础之上发展起来的。由于实际问题比马尔可夫模型所描述的更为复杂,观察到的事件并不是与状态一一对应,而是通过一组概率分布相联系,这样的模型就称为隐马尔可夫模型(HMM)。HMM是一个双重随机过程,其中之一是马尔可夫链,这是基本随机过程,它描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系。这样,站在观察者的角度,只能看到观察值,不像马尔可夫链模型中的观察值和状态一

3、一对应,因此不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性。因而称之为“隐”马尔可夫模型。HMM的形式描述对于一个随机事件,有一个观察值序列:O1,...,OT该事件隐含着一个状态序列:X1,...,XT一个隐马尔可夫模型(HMM)是一个五元组:(ΩX,ΩO,A,B,π)其中:ΩX={q1,...qN}:状态的有限集合ΩO={v1,...,vM}:观察值的有限集合A={aij},aij=p(Xt+1=qj

4、Xt=qi):转移概率B={bik},bik=p(Ot=vk

5、Xt=qi):输出概率π={πi},πi=p(X1=qi):初始状态

6、分布(初始概率)HMM的三个基本问题令λ={A,B,π}为给定HMM的参数,令σ=O1,...,OT为观察值序列,隐马尔可夫模型(HMM)的三个基本问题:评估问题:对于给定模型,求某个观察值序列的概率p(σ

7、λ);解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;(对应词性标注问题)学习问题:对于给定的一个观察值序列,调整参数λ,使得观察值出现的概率p(σ

8、λ)最大。词性标注和HMM如何建模?单词序列、词性序列?三个概率如何得到?两个随机过程?问题的实质?基于HMM进行词性标注(1)两个随机过程1、选择罐子:上帝按照一定的转移概率随机地选择

9、罐子2、选择彩球:上帝按照一定的概率随机地从一个罐子中选择一个彩球输出人只能看到彩球序列(词序列,记作W=w1w2…wn),需要去猜测罐子序列(隐藏在幕后的词性标注序列,记作T=t1t2…tn)已知词序列W(观测序列)和模型λ的情况下,求使得条件概率p(T

10、W,λ)值最大的那个T’,一般记作:T′=argmaxP(T

11、W,λ)基于HMM进行词性标注(2)首先,构造如下的统计计算模型:令W=w1w2…wn为一多词类词串,C=c1c2…cn为可能的词类标注结果串。P(C

12、W)为给定W条件下C出现的概率。如果不考虑更大的上下文,我们可以认为使得P(C

13、W)

14、的值取得最大时的C出现的可能性最大。这样就把词类标注问题转化为寻找一组标记串C′,使得:C′=argmaxP(C

15、W)(1)基于HMM进行词性标注(3)根据贝叶斯定律,可以得到:(2)其中P(W)为常量,不需要考虑,关键在于对P(C)和P(W

16、C)的计算。由于两者的参数估计极为复杂,在实际应用中,往往需进行简化。对于P(C),我们使用了二元语法Bigram近似,得到:(3)基于HMM进行词性标注(4)而对P(W

17、C),只考虑每个词依赖于它本身的词类的情况,可以得到:(4)综合(1),(2),(3),(4),最终得到:(5)其中此模型的两组参数可以从对

18、正确标注词类的语料的参数训练中得到基于HMM进行词性标注(5)其中最简单的参数估计法为最大似然估计MLE(MaximumLikelihoodEstimation),即令:(6)(7)其中f(ci,cj)是语料库中ci和cj相邻出现的频度,f(w,c)是语料库中词w取词类c的频度,f(c)为语料库中词类标记c出现的次数,N为语料库词总数。基于HMM进行词性标注(6)词性之间的转移概率可以从语料库中统计得到:已知词性标注下输出词义的概率可以从语料库中统计得到:计算所分词系统基本思想InstituteofComputingTech.,ChineseLexi

19、calAnalysisSystem.(ICTCLAS)中科院计算所词语分析系统特点:此分词系统实现了分词和词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。