基于片上系统soc的孤立词语音识别算法设计

基于片上系统soc的孤立词语音识别算法设计

ID:20275775

大小:285.50 KB

页数:9页

时间:2018-10-11

基于片上系统soc的孤立词语音识别算法设计_第1页
基于片上系统soc的孤立词语音识别算法设计_第2页
基于片上系统soc的孤立词语音识别算法设计_第3页
基于片上系统soc的孤立词语音识别算法设计_第4页
基于片上系统soc的孤立词语音识别算法设计_第5页
资源描述:

《基于片上系统soc的孤立词语音识别算法设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于片上系统SoC的孤立词语音识别算法设计发布日期:2008-01-30 作者:刘胜洋宋志勇来源:微计算机信息摘要:本文首先介绍了研究的孤立词语音识别系统,并针对片上系统进行了语音识别算法的选择。然后对基于语音帧的端点检测算法、线性预测编码倒谱系数LPCC算法和动态时间规整DTW算法进行了详细的分析和设计。对于新型语音识别SoC芯片的开发研制和推动片上可编程系统(SOPC)的研究与发展具有一定的理论和实践意义。关键词: 片上系统;语音识别;端点检测;LPCC;DTW1.引言目前,嵌入式语音识别系统的实现主要通过单片机MCU和数字信号处

2、理器DSP来实现[1]。但是单片机运算速度慢,处理能力不高;虽然DSP处理速度很快,但是产品的成本很高,电源能量消耗也很大。因此,为了满足嵌入式交互系统的体积越来越小、功能越来越强的苛刻需求,语音识别片上系统SoC(SystemonChip)应运而生。语音识别片上系统SoC本身就是一块芯片,在单一芯片上集成了模拟语音模数转换器ADC、数模转换器DAC、信号采集和转换、处理器、存储器和I/O接口等,只要加上极少的电源就可以具有语音识别的功能,集成了声音信息的采集、取样、处理、分析和记忆。SoC具有片内处理器和片内总线,有着更灵活的应用方

3、式。它具有速度快,体积小,成本低,可扩展性强等优点,有着广泛的应用前景,已经成为语音识别技术应用发展的一个重要方向[2-3]。研究和开发应用于片上系统SoC芯片的语音识别算法有着非常重要的意义。2.孤立词语音识别系统孤立词语音识别系统应用于嵌入式控制领域,例如数字家庭控制、车载语音控制和智能语音可控玩具等。在训练阶段,用户将每一个词依次说一遍,并将计算得到的每一个词所对应的特征矢量序列作为模板存入模板库中。在识别阶段,将输入语音的特征矢量序列依次与模板库中的每一模板进行相似度比较,将相似度最高者作为识别结果输出。3.针对片上系统SOC

4、的孤立词语音识别算法设计在SoC芯片中实现孤立词语音识别系统,就要根据语音识别片上系统的特点,来进行SoC的语音识别算法的选择和设计。首先是特征提取算法的选择。MFCC算法考虑到了人的听觉效果,能很好的表征语音信号,而且在噪声环境下能取得很好的识别效果。而LPC系数主要是模拟人的发声模型,对元音有较好的的描述能力,对辅音描述能力较差,抗噪声性能也相对差一些。但是从算法的计算量来考虑,MFCC提取特征参数是LPCC的10倍左右,通常在嵌入式系统下较难实现实时性。因此,选用LPCC算法。模式匹配技术的选择。隐马尔柯夫模型HMM方法是用概率

5、及统计学理论来对语音信号进行分析与处理的,适用于大词汇量、非特定人的语音识别系统。该算法对系统资源的要求较多。而动态时间规整技术DTW采用模板匹配法进行相似度计算,是一个最为小巧的语音识别算法,系统开销小,识别速度快,可有效节约系统资源,降低系统成本开支。由于嵌入式系统资源有限,语音命令识别系统所需要的词汇量有限,所需识别的语音都是简短的命令,模式匹配算法选择DTW。3.1端点检测算法设计一个好的端点检测算法可以在一定程度上提高系统的识别率。在双门限端点检测原理的基础上,进行语音端点检测算法的设计。为了提高端点检测的精度,采用短时能量

6、E和短时过零率ZCR。语音采样频率为8KHz,量化精度为16位,数字PCM码首先经过预加重滤波器H(z)=2-0.95z-1,再进行分帧和加窗处理,每帧30ms,240点为一帧,帧移为80,窗函数采用Hamming窗。然后对每帧语音进行归一化处理,即把每点的值都除以所有语音帧中数值绝对值的最大值,把值的范围从[-32767,32767]转换到[-1,1]。在实验中发现,双门限端点检测算法对于两个汉字和三个汉字的语音命令端点检测效果不好。以语音“开灯”为例,如图1所示语音波形图中,端点检测只能检测到第一个字。图1 改进前对语音“开灯”的

7、端点检测Fig2.theendpointingdetectionofspeech“kaideng”beforeameliorate 如果语音命令中两个字的间隔过长,使用双门限端点检测方法会发生只检测到第一个字的情况,在实际中“开灯”和“开门”等命令只提取了“开”字的语音,从而可能造成语音匹配的错误。为避免该错误,采用的办法是,把可容忍的静音区间扩大到15帧(约150ms)。在双门限的后一门限往后推迟15帧,如15帧内一直没有energy和ZCR超过最低门限,则认为语音结束;如发现仍然有语音,则继续算入在内。图2改进后对语音“开灯”的端

8、点检测Fig3.theendpointingdetectionofspeech“kaideng”afterameliorate 改进后,整个语音信号的端点检测流程设计为四个阶段:静音、过渡段、语音段和语音结束。在静音段,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。