欢迎来到天天文库
浏览记录
ID:57974980
大小:1.02 MB
页数:7页
时间:2020-04-18
《基于能量谱熵的英语摩擦音检测方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第27卷第6期模式识别与人工智能VoI.27No.62014年6月PR&AIJune2014基于能量谱熵的英语摩擦音检测方法李立永张连海(解放军信息工程大学信息系统工程学院郑州450002)摘要根据摩擦音发声时的频谱特点,提出一种基于能量谱熵的摩擦音检测方法.该方法首先利用不同音素的语谱能量特点检测出音素边界.然后计算每个语音段的能量谱熵,并将超过阈值的语音段作为候选.最后根据语音段的长度、开始结束时的能量突变等对特征候选语音段后处理,去除错误候选.实验表明,在干净环境中并且容错误差为20ms时,摩擦音的检测率达到96.9%.关
2、键词能量谱熵,摩擦音检测,音素边界检测中图法分类号TP391AnEnglishFricativeDetectionMethodBasedonEnergySpectrumEntropyLILi—Yong.ZHANGLian—Hai(InstituteofInformationSystemEngineering,PInformationEngineeringUniversity,Zhengzhou450002)ABSTRACTAccordingtothespectrumcharacteristicsoffricatives,afri
3、cativedetectionmethodbased0ntheenergyspectrumentropyisproposed.Firstly,phoneboundariesaredetectedbasedonspectrumofdifferentphonemes.Then,eachspectrumentropyofspeechsegmentsiscomputedandthesegmentswhoseentropyexceedsthethresholdareselectedascandidates.Finally,postproc
4、essingisconductedtoremovetheinsertionerrorsaccordingtoparametersofsegmentlengthandthesuddenchangingofenergyatsegmentstartsandends.Theexperimentalresultsshowthattheaccuracyoftheproposedmethodisupt096.9%incleancircumstancewhentheto】eranceis20ms.KeyWordsEnergySpectrumEn
5、tropy,FricativeDetection,PhoneBoundaryDetection1引言大量语音数据,这也造成识别性能在与训练数据环境相同时较好,在其他环境下识别性能明显下降,不能有效应对现实环境的复杂多变性.当前的识别方目前基于HMM的语音识别系统作为典型的法性能与人类的语音识别(HumanSpeechRecogni—“自上而下”的语音识别系统,在实现时需将声学、tion,HSR)相比仍有较大差距.目前学者们主要致语音学、语言学等知识间的交互当成一个“黑匣力于提高系统的鲁棒性及自适应性,但也使得系统子”,并通过数据
6、训练让模型“记住”知识间的内在的复杂度越来越高,提高的性能却十分有限.从目前联系,为使统计模型的参数最优化,需统计分析收稿日期:2012—12—10;修回日期:2013—05—07作者简介李立永,男,1987年生,硕士研究生,主要研究方向为连续语音识别.E—mail:forlly@126.tom.张连海(通讯作者),男,1971年生,硕士,副教授,主要研究方向为语音信号处理.E—mail:lianhaiz@sina.com6期李立永等:基于能量谱熵的英语摩擦音检测方法555情况看,基于数据驱动的语音识别技术发展已进入峰结构的特征
7、参数实现鼻音检测,在干净语音中检瓶颈期,在保持现有系统框架下改进其细节,未能取测率达到90.4%.由于摩擦音是英语辅音中最大的得显著提高.音素集合,在语音的发音表义过程中具有重要作用,为进一步提高识别系统的性能,语言学家对比因此准确检测摩擦音的边界并将其与非摩擦音分机器识别与人类语音识别的差异,试图找到制约当类,对语音识别系统性能提高作用明显.前识别技术发展的关键因素.研究发现,人类对语音不同音素的发音特征具有不同的频谱结构,摩的识别过程首先需将听觉、声学、韵律及语言学等知擦音表现尤为明显.清摩擦音发声时表现出“类噪识加权组合形
8、成语义假设,然后不断验证假设,直到声”的频谱,而浊摩擦音经常既有噪声又有谐波结满足一定“条件”形成判决,从而完成识别过程.隐构,其各自摩擦段的噪声部分都集中在频谱高频区藏在语音中的发音知识(SpeechProductionKnowl—域.这种音素发声时的“类噪声
此文档下载收益归作者所有