大词汇连续汉语语音的mlp声学特征的研究论文

大词汇连续汉语语音的mlp声学特征的研究论文

ID:25743420

大小:51.00 KB

页数:5页

时间:2018-11-22

大词汇连续汉语语音的mlp声学特征的研究论文_第1页
大词汇连续汉语语音的mlp声学特征的研究论文_第2页
大词汇连续汉语语音的mlp声学特征的研究论文_第3页
大词汇连续汉语语音的mlp声学特征的研究论文_第4页
大词汇连续汉语语音的mlp声学特征的研究论文_第5页
资源描述:

《大词汇连续汉语语音的mlp声学特征的研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大词汇连续汉语语音的MLP声学特征的研究论文.freels)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧之间的相关特性,区分性差等方面的不足。近年来,.freels)对应的关键频带的能量的log值(即为短时频段能量参数)。2)分别将各频带短时能量参数串联为0.5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联(25+25+1=51),作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为

2、某个音素的后验概率P(Pj/Xt)。因此,在语音识别系统中,每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验,所产生的特征为语音识别提供了音素差别性能力。3)采用softmax函数将每一个MLP的概率输出汇总为1,实现归一化。xij是来自隐藏单元i的输入;oid函数限止其输出值在0-1之间。因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的实验表明,针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softma

3、x使所有的输出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hiddenactivationTRAPS(HATS)。第二级的输入单元的数目为15×h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素10,所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图1所示。1.2TANDEM特征本文采用的另一个MLP特征是中期特征TANDEM6。其MLP的网络结构如图2所示。由于本文采用MFCC作为常规HMM的输入

4、特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以42×9(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。2MLPs声学特征的混合本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。HATs与TANDEM是采用两套MLP系统产生的,也即每一帧都有两个音素后验概率。在文献7中指出,将其两种后验概率进行复合后,其MLP的特征更有效。为此,本文采

5、用以下步骤实现音素后验的复合8,其过程如图3所示:1)建立后验音素向量:采用Demspter-shafter7逆熵加权策略将两套音素后验概率合成音素后验向量r1r2…r71。2)用log计算音素后验向量:为了让音素后验向量与传统特征复合,采用log函数计算使之更像高斯分布;3)用PCA实现降维和正交化:为了后期与其它特征复合,71维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。3模型训练本文的声学模型是以跨词三音子3状态左-右的HMM。基于状

6、态共享的决策树总数为4500个上下文相关音素状态。系统采用3个级别的训练,第1级是声道长度的归一化(VTLN)的训练。为了补偿语者差异性,在第2级中采用了受限的最大似然线性回归的说话人自适应的训练(SAT/CMLLR),建立语者独立模型。最后是建立语言模型重估(LMrescoring)模型9。4语料库本文系统使用了230小时的广播新闻和广播对话语音数据进行训练。230小时的语料包括了30小时的HUB4,由GALE发布的100小时广播新闻和100小时广播谈话。识别中使用了2.2小时的eval06和2.5小时的dev07两组语料。详细语料信息见表1。5实验结果及结论本文应用德国亚琛工

7、业大学语音研究所开发的LVCSR汉语语音识别系统9进行实验。采用230小时语料库为71个汉语音素基元模型分别建立基于MFCC的HMGMM模型及MLPs/pitch混合声学特征的HMGMM模型,在识别阶段均使用eval06与dev07的语料进行识别,其识别结果用连续识别的字错误率(CharacterErrorRateCER%)进行评价。其结果如表2所示。表2实验结果清楚表明,采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0.5%的改善,HATs

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。