一种基于rbm的深层神经网络音素识别方法

一种基于rbm的深层神经网络音素识别方法

ID:5333410

大小:1.32 MB

页数:7页

时间:2017-12-08

一种基于rbm的深层神经网络音素识别方法_第1页
一种基于rbm的深层神经网络音素识别方法_第2页
一种基于rbm的深层神经网络音素识别方法_第3页
一种基于rbm的深层神经网络音素识别方法_第4页
一种基于rbm的深层神经网络音素识别方法_第5页
资源描述:

《一种基于rbm的深层神经网络音素识别方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第14卷第5期2013年10月信息工程大学学报JournalofInformationEngineeringUniversityV01.14No.5Oct.2013DOI:10.3969/j.issn.1671-0673.2013.05.011一种基于RBM的深层神经网络音素识别方法陈琦,张文林,牛铜,李弼程(信息工程大学,河南郑州450001)摘要:为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个“软最大化(softmax)”输出层,得到

2、用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别。针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能。关键词:受限玻尔兹曼机;深可信网络;神经网络;音素识别中图分类号:TN912.34文献标识码:A文章编号:1671-0673(2013)05-0569-06RBM-BasedPhonemeRecognitionbyDeepNeuralNetworkBasedonRBMCHENQi,ZHANGWen—lin

3、,NIUTong,LIBi-cheng(InformationEngineeringUniversity,Zhengzhou450001,China)Abstract:Toimprovetheperformanceofphonemerecognitioninautomaticspeechrecognition,aphonemerecognitionmethodisbuiltbasedonphonemeposteriorswhichareextractedbydeepbeliefnetworks.Firstly,adeepbeliefnetworkispre-tra

4、inedandlayeredasRBMgreedily,andadeepneuralnetworkiscreatedbyaddinga“softmax”outputlayertothenetwork.Subsequently,discrim·inativefine—tuningbyback—propagationisdonetoadjusttheweightsandtomakethembetteratpre-dictingtheprobabilitydistributionoverthestatesofmonophonehiddenMarkovmodels.Fin

5、allythesequenceofthepredictedprobabilitydistributionisfedintoastandardViterbidecoder.ItisfoundthatthemethodperformsbetterontheTIMITdatasetthanGMM/HMM,MLP/HMMandTANDEMmethods.Keywords:restrictedBohzmannmachine(RBM);deepbeliefnetworks;neuralnetwork;phonemerecognition0引言隐马尔科夫模型(HMM)是自动语音

6、识别任务中最常使用的建模方法。通常,每个HMM状态使用一个高斯混合模型(GMM)对单帧语音数据的声学特征进行建模。尽管GMM/HMM方法一直以来都是语音识别的主流方法,但是这种方法存在下列局限性‘1

7、:GMM假设数据的分布满足Gaussian分布,而实际的语音特征参数并不是Gaussian分布;由于HMM中假设单个状态的观测概率是统计独立的,因此对每个收稿日期:2013-03-28:修回日期:2013-05-06基金项目:国家自然科学基金资助项目(61175107)作者简介:陈琦(1974一),男,讲师,博士生。主要研究方向为语音信号处理。万方数据570信息工程大

8、学学报2013焦HMM状态所对应的GMM进行训练时,使用的数据仅是所有的训练数据中同该状态所对齐的那一部分数据,即训练时没有充分考虑跨状态的上下文信息;对GMM参数进行训练有时需要使用特征降维,而这样做可能会导致某些有用信息的丢失。为了克服上述缺陷,有学者提出使用人工神经网络(ANN)代替GMM进行语音识别。目前,最常用的ANN方法是使用多层感知器(MLP)对一组基于状态的后验概率进行估计。对后验概率的使用分为两类:在混合系统中旧。,这些后验概率作为HMM的状态输出概率,送人解码器进行解码;在TANDEM系统旧1,则是将其作为输入特征送入典型的GMM/HMM系统。

9、通常,混合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。