资源描述:
《隐马尔科夫模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、隐马尔科夫模型一、引入二、定义三、隐马尔科夫模型的计算(1)估值问题(2)解码问题(3)训练问题四、隐马尔科夫各种结构HMM的由来o1870年,俄国有机化学家VladimirV.Markovnikov第一次提出马尔科夫模型o马尔可夫模型和马尔可夫链o隐式马尔可夫模型(HMM)马尔可夫性o如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程oX(t+1)=f(X(t))马尔可夫链o时间和状态都离散的马尔科夫过程称为马尔科夫链。设在时刻t的随机变量用表示,其观察值用表示,则如果当,,
2、……,的前提下,的概率是如下式所示,则称为n阶Markov过程。(1)这里表示,,……,,表示,,……,,表示,,……,。特别的当如下式成立时,则称其为1阶Markov过程,又叫单纯马尔可夫过程。(2)即:系统在任一时刻所处的状态只与此时刻的前一时刻所处的状态有关。而且,为了处理问题方便,考虑式(2)右边的概率与时间无关的情况,即:(3)同时满足:(4)(5)这里是当时刻t从状态i到时刻t+1时的状态j的转移概率,当这个转移概率是与时间无关的常数时,又叫,,……是具有常数转移概率的Markov过程。隐式马尔可夫模型(HMM)HM
3、M类似于一阶Markov过程。不同点是HMM是一个双内嵌式随机过程,即HMM是由两个随机过程组成,一个是状态转移序列,它对应着一个单纯Markov过程;另一个是每次转移时输出的符号组成的符号序列。这两个随机过程,其中状态转移随机过程是不可观测的,只能通过另一个随机过程的输出观察序列观测。设状态转移序列为S=,输出的符号序列为O=,。由于模型本身是看不见的,即模型的状态不为外界所见,只能根据观察序列推导出来,所以称为隐马尔可夫模型。Markov链(p,A)随机过程(B)状态序列观察值序列S1,S2,..,STo1,o2,...,o
4、T图1HMM的组成示意图离散HMM中的元素对于语音识别使用的HMM可以用下面六个模型参数来定义,即:S:模型中状态的有限集合,即模型由哪几个状态组成。设有N个状态,S={
5、i=1,2,……,N}。记t时刻模型所处状态为,。O:输出的观察值符号的集合,即每个状态对应的可能的观察值数目。记M个观察值为,……,,记t时刻观察到的观察值为其中。A:状态转移概率的集合。所有转移概率可以构成一个转移概率矩阵,即:其中是从状态到状态的转移概率,,且有,。B:输出观测值概率的集合。。其中,其中根据B可将HMM分为连续型和离散型HMM等。(离散型
6、HMM)(连续型HMM):系统初始状态概率的集合,,表示初始状态是的概率,即:(6)F:系统终了状态的集合。Markov模型没有终了状态的概念,只是在语音识别里用的Markov模型要设定终了状态。这样,可以记一个HMM为M={S,O,A,B,,F},为了便于表示,常用下面的形式表示一个HMM,即简写为M={A,B,}。HMM可以分为两部分,一个是Markov链,由,A描述,产生的输出为状态序列。另一个随机过程,由B描述,产生的输出为观察符号序列。HMM:示例图2两个状态的HMMHMM的三个基本问题HMM核心理论是解决三个基本问题
7、:1.已知观测序列O={,……}和模型,如何有效计算在给定模型的条件下产生观测序列O的条件概率最大。2.已知观测序列O={,……}和模型,如何选择相应的在某种意义上最佳的(能最好解释观测序列的)状态序列S。3.如何调整模型参数以使条件概率最大。第一个问题是评估问题,实际就是一个识别的问题,即已知模型和一个观测序列O,如何计算由该模型产生出该观测序列的概率,问题1的求解能选择出与给定观测序列最匹配的模型。第二个问题目的是找出模型中隐藏的部分,即找出正确的状态序列(,这是一个典型的估计问题。第三个问题是模型的参数最优化,通过训练自适
8、应调整模型参数使之适应于训练序列并最优化,从而得到实际应用中最好的模型,这是一个参数训练问题。三个问题对应算法分别为:前后向算法,Viterbi算法和Baum-Welch算法。隐马尔可夫模型的计算以孤立词识别为例,设有W个单词要识别,我们可预先得到这W个词的标准样本,第一步就是为每一个词建立一个N个状态的HMM模型。这就要用到问题3(给定观察下求模型参数)。为了理解模型状态的物理意义,可利用问题二将每一个单词的状态序列分割为一些状态,再研究导致与每一状态响应的观察结果的那些特征。最后,识别单词就要利用问题1,即对给定观察结果找出
9、一个最合适的模型,使得最大。第一个问题的求解给定观察序列O={,……}和模型,求解,最直接的方法就是通过穷举所有的长度为状态序列。共有个状态序列,考虑其中一个:,是初始状态。给定S,观察序列O出现的概率为(7)因为各观察量假设是统计独立的,因此得到:(8)上面的