一种基于rbm的深层神经网络音素识别方法

ID：5333410

大小：1.32 MB

页数：7页

时间：2017-12-08

资源描述：

《一种基于rbm的深层神经网络音素识别方法》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、万方数据第14卷第5期2013年10月信息工程大学学报JournalofInformationEngineeringUniversityV01．14No．5Oct．2013DOI：10．3969／j．issn．1671-0673．2013．05．011一种基于RBM的深层神经网络音素识别方法陈琦，张文林，牛铜，李弼程(信息工程大学，河南郑州450001)摘要：为提高连续语音识别中的音素识别准确率，采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理，对深可信网络进行逐层的预训练；然后通过增加一个“软最大化(softmax)”输出层，得到

2、用于音素状态后验概率检测的深层神经网络，并采用后向传播算法进行网络权值的精细调整；最后以后验概率为HMM发射概率，使用Viterbi解码器进行音素识别。针对TIMIT语料库的实验结果表明，该系统的音素识别率优于GMM／HMM，MLP／HMM和TANDEM系统性能。关键词：受限玻尔兹曼机；深可信网络；神经网络；音素识别中图分类号：TN912．34文献标识码：A文章编号：1671-0673(2013)05-0569-06RBM-BasedPhonemeRecognitionbyDeepNeuralNetworkBasedonRBMCHENQi，ZHANGWen—lin

3、，NIUTong，LIBi-cheng(InformationEngineeringUniversity，Zhengzhou450001，China)Abstract：Toimprovetheperformanceofphonemerecognitioninautomaticspeechrecognition，aphonemerecognitionmethodisbuiltbasedonphonemeposteriorswhichareextractedbydeepbeliefnetworks．Firstly，adeepbeliefnetworkispre-tra

4、inedandlayeredasRBMgreedily，andadeepneuralnetworkiscreatedbyaddinga“softmax”outputlayertothenetwork．Subsequently，discrim·inativefine—tuningbyback—propagationisdonetoadjusttheweightsandtomakethembetteratpre-dictingtheprobabilitydistributionoverthestatesofmonophonehiddenMarkovmodels．Fin

5、allythesequenceofthepredictedprobabilitydistributionisfedintoastandardViterbidecoder．ItisfoundthatthemethodperformsbetterontheTIMITdatasetthanGMM／HMM，MLP／HMMandTANDEMmethods．Keywords：restrictedBohzmannmachine(RBM)；deepbeliefnetworks；neuralnetwork；phonemerecognition0引言隐马尔科夫模型(HMM)是自动语音

6、识别任务中最常使用的建模方法。通常，每个HMM状态使用一个高斯混合模型(GMM)对单帧语音数据的声学特征进行建模。尽管GMM／HMM方法一直以来都是语音识别的主流方法，但是这种方法存在下列局限性‘1

7、：GMM假设数据的分布满足Gaussian分布，而实际的语音特征参数并不是Gaussian分布；由于HMM中假设单个状态的观测概率是统计独立的，因此对每个收稿日期：2013-03-28：修回日期：2013-05-06基金项目：国家自然科学基金资助项目(61175107)作者简介：陈琦(1974一)，男，讲师，博士生。主要研究方向为语音信号处理。万方数据570信息工程大

8、学学报2013焦HMM状态所对应的GMM进行训练时，使用的数据仅是所有的训练数据中同该状态所对齐的那一部分数据，即训练时没有充分考虑跨状态的上下文信息；对GMM参数进行训练有时需要使用特征降维，而这样做可能会导致某些有用信息的丢失。为了克服上述缺陷，有学者提出使用人工神经网络(ANN)代替GMM进行语音识别。目前，最常用的ANN方法是使用多层感知器(MLP)对一组基于状态的后验概率进行估计。对后验概率的使用分为两类：在混合系统中旧。，这些后验概率作为HMM的状态输出概率，送人解码器进行解码；在TANDEM系统旧1，则是将其作为输入特征送入典型的GMM／HMM系统。

9、通常，混合

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种基于rbm的深层神经网络音素识别方法

一种基于rbm的深层神经网络音素识别方法

相关文章

相关标签