基于dsp的高速实时语音识别系统的设计与实现69669

基于dsp的高速实时语音识别系统的设计与实现69669

ID:36005579

大小:38.00 KB

页数:6页

时间:2019-04-29

基于dsp的高速实时语音识别系统的设计与实现69669_第1页
基于dsp的高速实时语音识别系统的设计与实现69669_第2页
基于dsp的高速实时语音识别系统的设计与实现69669_第3页
基于dsp的高速实时语音识别系统的设计与实现69669_第4页
基于dsp的高速实时语音识别系统的设计与实现69669_第5页
资源描述:

《基于dsp的高速实时语音识别系统的设计与实现69669》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于DSP的高速实时语音识别系统的设计与实现实时语音识别系统中,由于语音的数据量大,运算复杂,对处理器性能提出了很高的要求,适于采用高速DSP实现。虽然DSP提供了高速和灵活的硬件设计,但是在实时处理系统中,还需结合DSP器件的结构及工作方式,针对语音处理的特点,对软件进行反复优化,以缩短识别时间,满足实时的需求。因此如何对DSP进行优化编程,解决算法的复杂性和硬件存储容量及速度之间的矛盾,成为实现系统性能的关键。本文基于TMS320C6713设计并实现了高速实时语音识别系统,在固定文本的说话人辨识的应用中效果显著。1语音识别的原理

2、语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息,从中提取对语音识别有用的信息的过程,就是特征提取,特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一模型获得最佳匹配。1.1MFCC语音识别中对特征参数的要求是:(1)能够有效地代表语音特征;(2)各阶参数之间有良好的独立性;(3)特征参数要计算方便,保证识别的实时实现。系统使用目前最为常用的MFCC(MelFrequencyCepstralCoefficient,美尔频率倒谱系数)参数。求

3、取MFCC的主要步骤是:(1)给每一帧语音加窗做FFT,取出幅度;(2)将幅度和滤波器组中每一个三角滤波器进行Binning运算;(3)求log,换算成对数率;(4)从对数率的滤波器组幅度,使用DCT变换求出MFCC系数。本文中采用12阶的MFCC,同时加过零率和delta能量共14维的语音参数。1.2DTW语音识别中的模式匹配和模型训练技术主要有DTW(DynamicTimeWarping,动态时间弯折)、HMM(HideMarkovModel,隐马尔科夫模型)和ANN(ArtificialNeu-ralNetwork,人工神经元

4、网络)。DTW是一种简单有效的方法。该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度,即失真距离。设测试语音和参考语音用T和R表示,他们分别含有N帧和M帧的语音参数。本文中每帧语音的特征参数为14维,因此T,R分别为N×14和M×14的矩阵。把测试语音的各个帧号x=1~N在一个二维直角坐标系中的横轴上标出,把参考语音的各帧号y=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点(

5、x,y)表示测试模式中某一帧号与训练模式某一帧的交叉点,对应于两个14维向量的欧氏距离。DTW算法在于寻找一条通过此网格中若干交叉点的路径,使得该路径上节点的路径和最小。算法示意图如图3所示。2系统硬件环境本系统的核心芯片为TI公司的32位浮点数字信号处理器TMS320C6713。其时钟频率最高可达300MHz,处理能力可以高达1336MIPS和1000MFLOPS。由于256kB的片上RAM无法满足多路信号处理时的空间需求,系统通过EMIF(ExternalMemoryInterface,外部存储器接口)扩展了32MB的外部SDR

6、AM,并采用EDMA(ExternalDirectMemoryAccess,扩展的直接存储器访问)方式对这些外部空间进行访问。TMS320C6713有2个McBSPs(Multi-channelBuff-eredSerialPort,多通道缓冲串口),每个McBSP,可与多达128个通道进行收发。本系统中采用McBSP0实现数字语音信号到DSP的输入,DSP进行实时判别后输出结果。3软件实现由于TMS320C6x系列的C语言编译器的效率可达汇编语言的70%~80%,并且C语言具有开发周期短、可维护性好、可移植性好、可继承性好等优点,

7、所以软件采用C语言实现。3.1软件流程测试中采用10个参考模板,每个模板由相应的参考语音中2s的语音数据训练而成。识别策略为每路积累2s的接收语音数据后与逐个参考模板进行匹配,如果经由DTW运算所得的距离值小于特定的门限,就判决已匹配。如果不匹配,就继续接收匹配,超过8s匹配不上,就放弃。软件流程框图如图5所示,其中语音数据的采样率为8000Hz,每帧取256个采样点,即32ms的数据为一帧。程序调试通过后,采用CCS对其实时性进行分析。CCS(CodeComposerStudio,代码编译器)是TI公司提供的软件开发环境。他扩展了

8、基本的代码生成工具,集成了调试和实时分析功能。在CCS下,程序通过WintechTDS510仿真器接到目标板的JTAG口进行硬件仿真测试。测试发现1帧信号的处理时间为78135679个指令周期,即391ms(TMS320C6713工作

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。