论-基于音素后验概率的样例语音关键词检测方法.pdf

论-基于音素后验概率的样例语音关键词检测方法.pdf

ID:57068821

大小:298.76 KB

页数:4页

时间:2020-07-31

论-基于音素后验概率的样例语音关键词检测方法.pdf_第1页
论-基于音素后验概率的样例语音关键词检测方法.pdf_第2页
论-基于音素后验概率的样例语音关键词检测方法.pdf_第3页
论-基于音素后验概率的样例语音关键词检测方法.pdf_第4页
资源描述:

《论-基于音素后验概率的样例语音关键词检测方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第48卷第9期天津大学学报(自然科学与工程技术版)Vb1.48N0.92015年9月JournalofTianjinUniversity(ScienceandTechnology)Sep.2015D0I:10.11784/tdxbz201507032基于音素后验概率的样例语音关键词检测方法张卫强,宋贝利,蔡猛,刘加(清华大学电子工程系,北京100084)摘要:低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和

2、改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能.关键词:样例查询;语音关键词检测;DNN输出层特征;动态时间规整中图分类号:TP391.4文献标志码:A文章编号:0493—2137(2015)09.0757.04AQuery-·by--ExampleSpokenTermDetectionMethodBasedonPhoneti

3、cPosteriorgramZhangWeiqiang,SongBeili,CaiMeng,LiuJia(DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084,China)Abstract:Spokentermdetectioninlow—resourcesituationsisachallengingtask,becausetraditionallargevocabu—larycontinuousspeechrecognition(LVCSR)approachesareo

4、ftenunusable.Weproposeaquery-by—example(QBE)spokentermdetection(STD)methodbasedondeepneuralnetwork(DNN)posteriorgramfeaturesandamodifieddy-namictimewarping(DTW)researchapproach.SubsystemsarebuiltwithunsupervisedGaussianmixturemodel(GMM)andDNNmonophonemodelstrainedonChineseandEng

5、lishlanguages.ThesubsystemsarethenevaluatedontheSWS2013multilingualdatabaseoflow-resourcelanguages.Thescore-levelfusionofthesedifferentlanguagesanddiferentsubsystemsisshowntoimproveperformancesignificantlycomparedwiththebaselineresults.Keywords:query—by—example;spokentermdetecti

6、on;deepneuralnetworkoutputfeatures;dynamictimewarping语音关键词检测(spokentermdetection,STD)段作为查询输入,而非文本形式的关键词.这种系统是语音识别技术的一项应用,其目的是在连续的、无通过从测试数据中搜索与关键词样例相似的片段来限制的语音流中检测出感兴趣的关键词语音片段.完成关键词的定位.目前语音关键词检测领域解决在语音关键词检测领域,基于大词汇量连续语音识别QBE问题主要采用基于动态时间规整(dynamictime(1argevocabularycontinuousspee

7、chrecognition,warping,DTW)的方法L2J.基于DTW的QBE系统LVCSR)方法【lJ的提出,显著提高了识别的精确程的检索效果依赖于2个关键因素:一是选取适合的特度.LVCSR系统要求充分的语料资源,包括至少数十征,二是选择有效的检索算法.典型的基于模板匹配小时的有标注数据和可靠的发音字典等.但在实际方法的DTW系统直接采用声学特征进行DTW匹的应用场景中,获取这些资源往往由于成本高昂而无配L6J.而后验概率特征的引入可以大大减少说话人和法实现,这使得传统的LVCSR方法不再适用.环境的失配对系统性能的影响,因此迅速成为样例关基

8、于样例查询(query—by.example,QBE)的语音键词识别领域的主流方法.后验概率特

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。