资源描述:
《基于DNN的发音偏误趋势检测.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于DNN的发音偏误趋势检测张劲松高迎明解叙陆北京语言大学信息科学学院北京语言大学对外汉语研究中心导出/参考文献关注分享收藏打印摘要:正音反馈的计算机辅助对外汉语发音训练系统已有发音偏误趋势的标注体系和基于HMM的偏课趋势检测系统。为了进一步提高系统的性能,该文应用深度神经网络进行声学建模,比较Mel频率倒谱系数(Mel-frequencycepstralcoefficient,MFCC)>感知线性预测分析系数(perceptuallinearpredictiveanalysis,PLP)和Mel滤波器组系数(Melfilte
2、rbank,FBank)3种声学特征参数,并利用网格联合技术整合3种声学特征所得的候选网格。实验结果表明:DNN-IIMM模型比GMM-HMM实现了更高检测正确率。针对不同发音偏谋趋势,3种声学特征有不同表现,联合系统取得最高性能,最终性能为:错误拒绝率5.5%,错误接受率35.6%,检测正确率88.6%。关键词:计算机辅助发咅训练;发咅偏误检测;深度神经网络;作者简介:张劲松(1968一),男,教授。E-mail:jinsong.zhang@blcu.edu.cn收稿日期:2016-06-29基金:国家自然科学基金资助项目(
3、61175019)MispronunciationtendencydetectionusingdeepneuralnetworksZHANGJinsongGAOYingmingXIEYanluCollegeofInformationScience,BeijingLanguageandCultureUniversity;Abstract:Apreviouscomputeraidedpronunciationtraining(CAPT)systemwithinstructivefeedbackusedmispronunciatio
4、ntendencylabelinginaGMM-HMMbaseddetectionsystem.ThissystemisimprovedhereusingaDNN-HMMtomodelthemispronunciationwithcomparisonsoftheeffectsofthreekindsofacousticfeatures,themel-frequencycepstralcoefficient(MFCC),theperceptuallinearpredictiveanalysis(PLP)andtheMelfilt
5、erbank(FBank).Thelatticerescoremethodisalsousedwiththesethreefeatures.TheresuItsshowthattheDNN-HMMgivesabetterdetectionratethantheconventi()rmlapproachbasedontheGMM-HMM.Differentfeatur巳sbehavedifferentlyincapturingthespecificmispronunciationtendencies,sotheintegrati
6、onofthesethreefeaturesbasedonthelatticerescoregivesthebestresultswithanFRRof5.5%,FARof35.6%,andDAof88.6%.Keyword:computeraidedpronimciationtTaining;mispronunciatioiidetection;deepneuTalnetwork;Received:2016-06-29以语音技术为支撑的计算机辅助语言学习系统(computer-assistedlanguagelearning
7、,CALL),特别是基于自动语音识别技术的计算机辅助发音训练系统(computeraidedpronunciationtraining,CAPT),在近几年受到大量关注[1T1]o从反馈形式角度看,CAPT系统可大致分为发音质量打分和发音错误检测2种类型。置信分数容易从自动语音识别系统中获得,并H可以不限制学习者母语背景。研究者对基于置信分数方法的自动发音质量打分做了大量探索11辺,包括从话者层级的评测到音素级的评测。其中在句子层级図和话者层级鸟1的打分已经能接近专家水平。发音质量打分更适合用于对学习者的整体发音能力进行评判,
8、但是针对学习者偏误发音如何纠正却无法给出指导性反馈。目前,越来越多的研究者们开始关注发音偏误检测,其目标是以高精度检测发音错误并给出相应的正音反馈。Neri等Hl研究发现,即使以有限形式信息提供正音反馈,也能改善学习者在音素层级的发音质量,同时对学习者的学习动力也有积极作用。