资源描述:
《大词汇连续汉语语音的MLP声学特征的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大词汇连续汉语语音的MLP声学特征的研究 摘要:短时声学特征参数如MFCC,PLP作为输入向量的高斯混合模型(GMM)的隐马尔可夫模型(HMM)的经典模型在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果。但针对短时声学特征区分性差的特点,本文提出采用神经网络多层感知器(MLP)产生的两种类型差异特征HATs与TANDEM代替短时特征,分别训练GMM参数模型。实验结果表明,差异特征的GMHMM的LVCSR系统优于传统的短时特征的系统;为了更进一步提高系统识别率,该文又将两种类型差异特征HATs与TANDEM进行复合,构成MLPs特征流重建GMHMM,系统的错字率(CER)有2%~%的
2、明显改善。 关键词:多层感知器;差异特征;隐马尔可夫;高斯混合模型 中图分类号:TN912文献标识码:A文章编号:1009-3044(XX)13-3470-02 MLPFeaturesforLargeVocabularyContinuousMandarinSpeechRecognitionSystem LVDan-ju1,Ch.Plahl2, (ScienceDept.,SouthwestForestryUniversity,Kunming50224,China;.LehrstuhlFurInformatik-ComputerScienceDepartmentRWTHAachenUn
3、iversity,Aachen2056,Germany) Abstract:TypicallyHiddenMarkovModel(HMM)inlargevocabularycontinuousspeechrecognitionsystem(LVCSR),usingshort-termacousticfeaturesvectors(MFCC/PLP)asinputfeaturestotheGaussianmixturemodel(GMM),hasachievedgoodrecognitionresults.However,forthepooroftheseshort-termfeatureso
4、ndiscrimination,neuralnetworkmultilayerperceptron(MLP)areusedtoproducetwotypesofdiscriminativefeaturesHATsandTANDEMinsteadofshortfeatures,andrespectively,thecorrespondingGMMparametermodelsaretrained.ExperimentalresultsshowthattheGMHMMtheLVCSRsystembasedondiscriminativefeaturesissuperiortothesystemtr
5、aditionalbasedontheshort-termfeatures;Tofurtherimprovethesystemrecognitionrate,thetwotypesofdiscriminativefeaturesHATsandTANDEMarecombinedasMLPsfeatureflowtoretrainGMHMM,thatleadstoanabsolutereductionofthecharactererrorrate(CER)ofabout%~%. Keywords:MLP;discriminativefeatures;HMM;GMM 对语音信号特征参数的研究是建
6、立良好的语音识别系统的基础与关键。在过去的研究中,语音识别系统的特征提取成分主要包括频谱包络预测,特别是经过某些简单变化后的特征,目前前端大部分是基于短时轨迹(约10ms)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧之间的相关特性,区分性差等方面的不足。近年来,国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络ANN,其中由Berkeley国际计算机学院(ICSI)提出用基于MLPs的特征取代传统特征,系统的识别率得到了明显改善[1-3]。基于MLPs特征的差异性的优势和GMM/HMM模型的成熟性,本
7、文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量,重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性,LVCSR的识别率得到了明显的改善。 1基于MLP的差异声学特征 为弥补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络ANN的MLP,以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDE