大词汇连续汉语语音的mlp声学特征的研究

大词汇连续汉语语音的mlp声学特征的研究

ID:12319389

大小:30.50 KB

页数:4页

时间:2018-07-16

大词汇连续汉语语音的mlp声学特征的研究_第1页
大词汇连续汉语语音的mlp声学特征的研究_第2页
大词汇连续汉语语音的mlp声学特征的研究_第3页
大词汇连续汉语语音的mlp声学特征的研究_第4页
资源描述:

《大词汇连续汉语语音的mlp声学特征的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、每次上传我都带着喜悦分享而无私大词汇连续汉语语音的MLP声学特征的研究  摘要:短时声学特征参数如MFCC,PLP作为输入向量的高斯混合模型(GMM)的隐马尔可夫模型(HMM)的经典模型在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果。但针对短时声学特征区分性差的特点,本文提出采用神经网络多层感知器(MLP)产生的两种类型差异特征HATs与TANDEM代替短时特征,分别训练GMM参数模型。实验结果表明,差异特征的GMHMM的LVCSR系统优于传统的短时特征的系统;为了更进一步提高系统识别率,该文又将

2、两种类型差异特征HATs与TANDEM进行复合,构成MLPs特征流重建GMHMM,系统的错字率(CER)有2%~3.8%的明显改善。  关键词:多层感知器;差异特征;隐马尔可夫;高斯混合模型  对语音信号特征参数的研究是建立良好的语音识别系统的基础与关键。在过去的研究中,语音识别系统的特征提取成分主要包括频谱包络预测,特别是经过某些简单变化后的特征,目前前端大部分是基于短时轨迹(约10ms)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧

3、之间的相关特性,区分性差等方面的不足。近年来,国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络ANN,其中由Berkeley国际计算机学院(ICSI)提出用基于MLPs的特征取代传统特征,系统的识别率得到了明显改善[1-3]。基于MLPs特征的差异性的优势和GMM/HMM模型的成熟性,本文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量,重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性,LVCSR的识别率得到了明显的改善。  1基于MLP的差异声学特征  为弥

4、补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络ANN的MLP,以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDEM两种。  1.1千里只为一次分享我的泪水你的喜悦每次上传我都带着喜悦分享而无私长时HATs特征参数  HATs特征基于人对不同频带的感觉不同,HATs特征提取将由两级MLP实现[4-5],第一级由15个MLP即将关键频带数分为15个,第二级由1个MLP构成。HATs的基本实现步骤:  1)依关键频带,分别计算每个短时

5、窗(10ms)对应的关键频带的能量的log值(即为短时频段能量参数)。  2)分别将各频带短时能量参数串联为0.5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联(25+25+1=51),作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为某个音素的后验概率P(Pj/Xt)。因此,在语音识别系统中,每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验,所产生的特征

6、为语音识别提供了音素差别性能力。  3)采用softmax函数将每一个MLP的概率输出汇总为1,实现归一化。  xij是来自隐藏单元i的输入;wij是隐藏单元i与输出单元j的权值;zj是作为音素后验的MLP的输出。隐藏单元应用sigmoid函数限止其输出值在0-1之间。  因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的实验表明,针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入

7、。因为第一级softmax使所有的输出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hiddenactivationTRAPS(HATS)。第二级的输入单元的数目为15×h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素[10],所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图1所示。 1.2TANDEM特征  本文采用的另一个

8、MLP特征是中期特征TANDEM[6]。其MLP的网络结构如图2所示。  由于本文采用MFCC作为常规HMM的输入特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以42×9(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。