车载多媒体系统中语音识别技术研究

车载多媒体系统中语音识别技术研究

ID:11918062

大小:36.50 KB

页数:5页

时间:2018-07-14

车载多媒体系统中语音识别技术研究_第1页
车载多媒体系统中语音识别技术研究_第2页
车载多媒体系统中语音识别技术研究_第3页
车载多媒体系统中语音识别技术研究_第4页
车载多媒体系统中语音识别技术研究_第5页
资源描述:

《车载多媒体系统中语音识别技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、车载多媒体系统中语音识别技术研究摘要:本文针对车载多媒体系统的特点,对语音识别的端点检测、语音特征参数提取以及识别模式进行了研究。关键词:车载系统语音识别端点检测特征参数提取车载多媒体系统中语音识别技术研究摘要:本文针对车载多媒体系统的特点,对语音识别的端点检测、语音特征参数提取以及识别模式进行了研究。关键词:车载系统语音识别端点检测特征参数提取识别模式中图分类号:tn912文献标识码:a文章编号:1007-9416(2012)02-0082-01由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够

2、在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。1、端点检测在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然

3、不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。2、特征参数提取在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有lpcc(线性预测倒谱系数

4、)和mfcc(mel频率倒谱),由于mfcc具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。分析mfcc的语音特征参数提取可以分成预加重、加窗、fft(快速傅里叶变换)、滤波、自然对数提取、自然对数dct计算这六个步骤。由于mfcc其计算精度以及计算量都较大,因此,使用mfcc作为车载系统的语音特征参数提取时,需要进行相应的改进:(1)在mfcc实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。(2)fft需要花费

5、大量的时间(据统计,fft需要花费mfcc56.32%的时间[2]),由于fft算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的fft运算方法,将长度为n的fft预算降低到长度为n/2的fft运算,从而提高了语音特征参数提取效率。3、识别模式语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有dtw(动态时间规整)、hmm(隐马尔科夫模型)和ann(人工神经元网络)。由于ann计算量较大,因此不适合用于车载多媒体

6、系统中,hmm需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此,dtw模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。为了更好的在车在多媒体系统中的嵌入式平台上实现dtw,对dtw进行进一步的改进:(1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统dtw方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用dtw进行语音识别。其主要的思路是取消传统dtw中对音头和音尾严格对其的限制。从而,只要两次语音在开始的w帧内能够匹配成功,

7、同时在结束的w帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。(2)在使用dtw进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板t有n帧,待识别的语音r有m帧,那么通常需要申请m×n长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要m长度的空间来存放模板t第n-1帧与模板r中m帧之间的距离,在计算完第n帧与模板r中m帧之间的距离对m长度空间的数据进行替换,从而进行模板t第n+1帧与模板r中m帧之

8、间的距离,从而节省了(n-1)×m的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。4、结语相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。