隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用

ID:38207650

大小:248.48 KB

页数:5页

时间:2019-05-26

隐马尔可夫模型在语音识别中的应用_第1页
隐马尔可夫模型在语音识别中的应用_第2页
隐马尔可夫模型在语音识别中的应用_第3页
隐马尔可夫模型在语音识别中的应用_第4页
隐马尔可夫模型在语音识别中的应用_第5页
资源描述:

《隐马尔可夫模型在语音识别中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第18卷第6期工 科 数 学Vol.18,№.62002年12月JOURNALOFMATHEMATICSFORTECHNOLOGYDec.2002隐马尔可夫模型在语音识别中的应用段红梅, 汪 军, 马良河, 徐 冉(徐州空军后勤学院,江苏徐州221000)[摘 要]隐马尔可夫模型(HMM)的基本技术是语音识别中较为成功的算法.主要是它具有较强的对时间序列结构的建模能力.本文首先深入浅出地介绍了HMM的基本技术和一个基于HMM的孤立词语音识别系统的构成方法,其次,基于HMM尚存有一些缺陷,造成语音识别能力较弱,为此本文又进一步阐述了语音识别应用中的几种改进的HMM系统

2、及目前的热点方法——HMM与ANN构成的混合网络.[关键词]随机过程;隐马尔可夫模型;语音识别;神经网络[中图分类号]O211162;TN912134[文献标识码]C[文章编号]100724120(2002)06200162051 引  言目前应用最为成功的语音识别系统大多是基于隐马尔可夫模型(HiddenMarkovModel)构造的.如CMU的Kai2Fulee等研制的SPHINX连续语音识别系统,对997个词在有ö无文法限制的条件下,识别率分别为96%和82%.IBM构造的Tangora2000词语音识别系统得到95%的识别率.用HMM进[6]行汉语声母、韵母

3、、单音节及连续语音识别,都得到了很好的性能.HMM之所以在语音识别中应用较为成功,主要是它具有较强的对时间序列结构的建模能力.隐马尔可夫模型用概率或统计范畴的理论成功地解决了:怎样辨识具有不同参数的短时平稳的信号段,怎样跟踪它们之间的转化等问题.由于语音的信息结构是多层次的,除了语音特性之外,它还牵涉到:音调、能量等超音段信息,以及语法、句法等高层次语言结构的信息.HMM的特长还在于:它既可描述瞬态的(随机过程),又可描述动态的(随机过程[1-3]的转移)特性,所以它能利用这些超音段的和语音结构的信息.尽管如此,HMM技术也存在一些缺点,影响了语音识别的能力,所以H

4、MM的改进算法及近年来HMM与ANN构成混合网进行语音识别的研究成为热点,成果引人注目.本文深入浅出地介绍了1)HMM模型技术;2)基于HMM的一个孤立词语音识别系统;3)HMM的缺陷及改进.2HMM模型技术211 隐马尔可夫模型(HMM)定义HMM是一种用参数表示的用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的.所以它基于参数模型的统计识别方法.它是一个双重随机过程——具有一定状态数的隐式马尔可夫链和显示随机函数集.每个函数都与链中一个状态相关联.隐式过程通过显示过程所产生的观察符号序列来表示。一个有N个状态(S1,S2,⋯,SN)的HMM可用三元组

5、参数K={P,A,B}表示.其中初始分布矢量P=[P1,P2,⋯,PN]:用于描述给定的观察序列O=o1o2⋯oT在t=1时刻状态q1属于[收稿日期]2001207219©1995-2004TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第6期         段红梅等:隐马尔可夫模型在语音识别中的应用17N模型中各状态的概率分布,即:P1=P(q1=Si),i=1,2,⋯,N,它满足:∑Pi=1.i=1状态转移概率矩阵A:A={aij}N×N={aijûi,j=1,2,⋯,N},这里aij=P(qj,t+1

6、时刻ûqi,t时刻),是N从状态i转移到j的状态转移的概率分布;(i=1,2,⋯,i,⋯,j,⋯,N)它满足∑aij=1.j=1状态符号观察概率B:B为观察序列O中任一观察(它是随机变量或随机矢量在各状态的观察概率空间中的分布).这个分布有离散型和连续型两类,分别相应于离散HMM和连续HMM.对于离散模型B={bjk}N×N是对应一矢量量化器码矢的概率矩阵;对于连续模型B=bi(x)是描述状态É特征矢量分布的概率密度函数.在此,N为HMM中状态数,M为矢量量化器码书的大小.以上就是隐马尔可夫模型的完整的定义及说明.从定义看出,HMM与有限状态的一阶马尔可夫链一样地用

7、初始分布、状态转移概率矩阵来描述有限长随机序列的统计特性,但他不同于马尔可夫链由每一观察即可确知当前所处状态,而是由每一观察仅能估算出当前处于各种状态的概率.这就是说,它具[2]有双重随机性,是一种双重随机过程.212HMM的三个基本问题[2,3,6]用HMM构成语音识别系统或说话人识别系统,必须解决三个基本问题:对于给定的一个观察序列O=o1o2⋯oT和一个HMM参数组K={P,A,B},则一、识别问题.对于给定O,求概率P(OöK)的计算:设有一语音O=o1o2⋯oT,T为语音长度(帧数),2模型K产生O的概率可采用前后向算法(ForwardBackward

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。