欢迎来到天天文库
浏览记录
ID:5333410
大小:1.32 MB
页数:7页
时间:2017-12-08
《一种基于rbm的深层神经网络音素识别方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第14卷第5期2013年10月信息工程大学学报JournalofInformationEngineeringUniversityV01.14No.5Oct.2013DOI:10.3969/j.issn.1671-0673.2013.05.011一种基于RBM的深层神经网络音素识别方法陈琦,张文林,牛铜,李弼程(信息工程大学,河南郑州450001)摘要:为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个“软最大化(softmax)”输出层,得到
2、用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别。针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能。关键词:受限玻尔兹曼机;深可信网络;神经网络;音素识别中图分类号:TN912.34文献标识码:A文章编号:1671-0673(2013)05-0569-06RBM-BasedPhonemeRecognitionbyDeepNeuralNetworkBasedonRBMCHENQi,ZHANGWen—lin
3、,NIUTong,LIBi-cheng(InformationEngineeringUniversity,Zhengzhou450001,China)Abstract:Toimprovetheperformanceofphonemerecognitioninautomaticspeechrecognition,aphonemerecognitionmethodisbuiltbasedonphonemeposteriorswhichareextractedbydeepbeliefnetworks.Firstly,adeepbeliefnetworkispre-tra
4、inedandlayeredasRBMgreedily,andadeepneuralnetworkiscreatedbyaddinga“softmax”outputlayertothenetwork.Subsequently,discrim·inativefine—tuningbyback—propagationisdonetoadjusttheweightsandtomakethembetteratpre-dictingtheprobabilitydistributionoverthestatesofmonophonehiddenMarkovmodels.Fin
5、allythesequenceofthepredictedprobabilitydistributionisfedintoastandardViterbidecoder.ItisfoundthatthemethodperformsbetterontheTIMITdatasetthanGMM/HMM,MLP/HMMandTANDEMmethods.Keywords:restrictedBohzmannmachine(RBM);deepbeliefnetworks;neuralnetwork;phonemerecognition0引言隐马尔科夫模型(HMM)是自动语音
6、识别任务中最常使用的建模方法。通常,每个HMM状态使用一个高斯混合模型(GMM)对单帧语音数据的声学特征进行建模。尽管GMM/HMM方法一直以来都是语音识别的主流方法,但是这种方法存在下列局限性‘1
7、:GMM假设数据的分布满足Gaussian分布,而实际的语音特征参数并不是Gaussian分布;由于HMM中假设单个状态的观测概率是统计独立的,因此对每个收稿日期:2013-03-28:修回日期:2013-05-06基金项目:国家自然科学基金资助项目(61175107)作者简介:陈琦(1974一),男,讲师,博士生。主要研究方向为语音信号处理。万方数据570信息工程大
8、学学报2013焦HMM状态所对应的GMM进行训练时,使用的数据仅是所有的训练数据中同该状态所对齐的那一部分数据,即训练时没有充分考虑跨状态的上下文信息;对GMM参数进行训练有时需要使用特征降维,而这样做可能会导致某些有用信息的丢失。为了克服上述缺陷,有学者提出使用人工神经网络(ANN)代替GMM进行语音识别。目前,最常用的ANN方法是使用多层感知器(MLP)对一组基于状态的后验概率进行估计。对后验概率的使用分为两类:在混合系统中旧。,这些后验概率作为HMM的状态输出概率,送人解码器进行解码;在TANDEM系统旧1,则是将其作为输入特征送入典型的GMM/HMM系统。
9、通常,混合
此文档下载收益归作者所有