噪声环境下的鲁棒语音识别技术研究

噪声环境下的鲁棒语音识别技术研究

ID:25402691

大小:52.50 KB

页数:8页

时间:2018-11-20

噪声环境下的鲁棒语音识别技术研究_第1页
噪声环境下的鲁棒语音识别技术研究_第2页
噪声环境下的鲁棒语音识别技术研究_第3页
噪声环境下的鲁棒语音识别技术研究_第4页
噪声环境下的鲁棒语音识别技术研究_第5页
资源描述:

《噪声环境下的鲁棒语音识别技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、噪声环境下的鲁棒语音识别技术研究第1章绪论1.1语音识别背景和意义随着现代社会智能产品的不断发展更新,各种智能设备源源不断地渗透到人们的日常工作和生活中,作为人类最直接、最方便快捷的交流工具语言也自然应用到各种技术中。作为人机交互最直接快捷的语音通信,如何让机器更加快速正确的理解人类语言,使人机交互更加便利,是语音识别技术发展的目标和方向。语音识别技术是一项集声学和语音学等多学科于一身的综合技术,可以应用到语音搜索、个人语音助手、智能家居产品、智能手持设备、车载娱乐系统等各个领域。语音识别作为一项高新技术

2、受到了全世界相关领域研究者的关注,而语音识别的多学科交叉性,决定了语音识别要想获得更进一步的发展也要依赖其它相关学科的科研进展。同时由于语音信号的时变性和非平稳性的这一特点,使得语音信号不容易分析和处理,这也导致语音识别尤其是噪声下的鲁棒语音识别成为多模式识别中进步缓缓,较难攻克的一个课题,目前语音识别延展到自然语言处理仍处在发展和攻关阶段。50年代,贝尔实验室设计制造了第一个孤立数字语音自动识别系统[1]。被认为是语音识别技术的开端。这个识别器可以对口呼数字进行自动识别,具有重要的应用价值。经过仔细调节

3、后,该系统对特定人的语音的识别率可以达到九十以上,这大大鼓舞了人们的一个设想利用机器模仿人类处理语音信号的方法,来对声波解码获得语音信息。60年代,随着计算机技术的发展和计算能力的提高,语音识别理论与技术也在这一时期逐步发展起来。这一时期的重要成果是两大语音识别技术的出现,动态规划(DynamicProgramming,DP)方法[2]和线性预测分析(LinearPredictive,LP)技术[3]。中期数字滤波器、快速傅里叶变换(FFT)等一系列信号处理方法和技术的出现为语音信号的数字处理奠定了相关的

4、理论基础。而经过一段短暂的高潮期后,随着工作的深入,语音识别逐渐显现出它的复杂性和艰巨性,研究工作也进入短暂的瓶颈阶段。........1.2鲁棒语音识别研究现状上世纪80年代以来,语音识别系统逐步引入HMM的统计模型匹配技术和假设搜索技术,促进了语音识别技术的发展。但是用干净语音训练出来的模型与受到无处不在的噪声污染的测试语音环境间的巨大差异使得系统误识率变高,阻碍了系统在实际环境中的应用推广。大量的应用数据表明,当训练使用的录音设备或录音环境与测试语音不同时,多数的非特定人语音识别系统所用的训练语音,

5、即使是安静环境下录制的纯净语音也会有所不同,也会对系统的识别性能产生不同程度的影响。语音识别的鲁棒性是指在语音质量退化,或语音的音素特性、分割特性或声学特性在训练和测试环境中不同时,语音识别系统仍然保持较高识别率的性质。现阶段鲁棒语音识别的研究重点是缩小训练语音和测试语音间的声学特性差异,使系统在变换的测试环境中依然能保证稳定的识别性能。系统的语言模型通过统计训练数据的文本信息得到,声学模型通过训练语音数据训练得到,要使系统在训练环境与测试环境差异较大时依然保证较低的误识率,必须要保证训练样本具有充分的代

6、表性,通常图会通过扩大训练数据量的方式来保证训练的样本数据能尽可能涵盖所有可能的情况。所以如何更有效的利用有限的训练语音数据,从中提取更准确的统计语言和声学模型,适应不同的测试环境是当前鲁棒语音识别系统研究的主要方向。.........第2章鲁棒语音识别系统语音识别的鲁棒性是指在输入语音混入不同噪声的条件下语音识别系统依然能保持相对稳定的识别率。同时鲁棒系统能更有效的利用有限的训练数据提取稳健的统计语言和声学模型来应对测试语音声学环境的变化。2.1基于隐马尔可夫模型的语音识别系统语音识别的过程就是机器对输

7、入的语音信号进行识别和理解的过程。语音识别就是把语音中包含的信息提取出来并转变为相应的文本或命令。图2-1为语音识别的基本框图。语音识别系统包含语音特征提取、声学模型训练和搜索匹配三个基本模块[18],本质上也是一种模式识别系统。但是语音识别系统的系统结构比常规的模式识别系统要复杂很多,因为系统所处理的人类语言信息结构相对常规模式识别系统更复杂、内容也更丰富。语言模型(LanguageModel,LM)是用来描述音素与音素之间、词与词之间以及句子与句子之间相互关系的模型,通过统计训练语音对应的文本库来获得

8、各音素、词和句子之间的约束信息。常用的语言模型分两大类,一类是基于文法的语言模型,从训练语音中总结出句子中的语法和语义规则,并对识别系统识别出的一系列可能的音素或词序列进行筛选,排除不符合这些规则的序列;一类基于统计的语言模型,通过统计训练样本中词与词之间的对应关系来建模。基于文法的语言模型适合于应用在特定任务系统中,但因为现有文法规则从训练语音中获得,数据的有限性使得文法规则并不能涵盖所有的语言现象,导致系统在处理真实文体时

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。