基于dsp的高速实时语音识别系统的设计与实现

ID：18748124

大小：223.50 KB

页数：5页

时间：2018-09-22

资源描述：

《基于dsp的高速实时语音识别系统的设计与实现》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、实时语音识别系统中，由于语音的数据量大，运算复杂，对处理器性能提出了很高的要求，适于采用高速DSP实现。虽然DSP提供了高速和灵活的硬件设计，但是在实时处理系统中，还需结合DSP器件的结构及工作方式，针对语音处理的特点，对软件进行反复优化，以缩短识别时间，满足实时的需求。因此如何对DSP进行优化编程，解决算法的复杂性和硬件存储容量及速度之间的矛盾，成为实现系统性能的关键。本文基于TMS320C6713设计并实现了高速实时语音识别系统，在固定文本的说话人辨识的应用中效果显著。　　1语音识别的原理　　语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息，从

2、中提取对语音识别有用的信息的过程，就是特征提取，特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程，模式匹配是指根据一定的准则，使未知模式与模型库中的某一模型获得最佳匹配。　　　　1.1MFCC　　语音识别中对特征参数的要求是：　　(1)能够有效地代表语音特征;　　(2)各阶参数之间有良好的独立性;　　(3)特征参数要计算方便，保证识别的实时实现。　　系统使用目前最为常用的MFCC(MelFrequencyCepstralCoefficient，美尔频率倒谱系数)参数。　　求取MFCC的主要步骤是：　　(1)给每一帧语音加窗做FF

3、T，取出幅度;　　(2)将幅度和滤波器组中每一个三角滤波器进行Binning运算;　　(3)求log，换算成对数率;　　(4)从对数率的滤波器组幅度，使用DCT变换求出MFCC系数。　　本文中采用12阶的MFCC，同时加过零率和delta能量共14维的语音参数。　　1.2DTW　　语音识别中的模式匹配和模型训练技术主要有DTW(DynamicTimeWarping，动态时间弯折)、HMM(HideMarkovModel，隐马尔科夫模型)和ANN(ArtificialNeu-ralNetwork，人工神经元网络)。　　DTW是一种简单有效的方法。该算法基于动态

4、规划的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度，即失真距离。　　设测试语音和参考语音用T和R表示，他们分别含有N帧和M帧的语音参数。本文中每帧语音的特征参数为14维，因此T，R分别为N×14和M×14的矩阵。把测试语音的各个帧号x=1～N在一个二维直角坐标系中的横轴上标出，把参考语音的各帧号y=1～M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点(x，y)表示测试模式中某一帧号与训练模式某一帧的交叉点，对应于两个14维

5、向量的欧氏距离。DTW算法在于寻找一条通过此网格中若干交叉点的路径，使得该路径上节点的路径和最小。算法示意图如图3所示。　　　　2系统硬件环境　　本系统的核心芯片为TI公司的32位浮点数字信号处理器TMS320C6713。其时钟频率最高可达300MHz，处理能力可以高达1336MIPS和1000MFLOPS。由于256kB的片上RAM无法满足多路信号处理时的空间需求，系统通过EMIF(ExternalMemoryInterface，外部存储器接口)扩展了32MB的外部SDRAM，并采用EDMA(ExternalDirectMemoryAccess，扩展的直接

6、存储器访问)方式对这些外部空间进行访问。　　TMS320C6713有2个McBSPs(Multi-channelBuff-eredSerialPort，多通道缓冲串口)，每个McBSP，可与多达128个通道进行收发。本系统中采用McBSP0实现数字语音信号到DSP的输入，DSP进行实时判别后输出结果。　　3软件实现　　由于TMS320C6x系列的C语言编译器的效率可达汇编语言的70%～80%，并且C语言具有开发周期短、可维护性好、可移植性好、可继承性好等优点，所以软件采用C语言实现。　　3.1软件流程　　测试中采用10个参考模板，每个模板由相应的参考语音中2

7、s的语音数据训练而成。识别策略为每路积累2s的接收语音数据后与逐个参考模板进行匹配，如果经由DTW运算所得的距离值小于特定的门限，就判决已匹配。如果不匹配，就继续接收匹配，超过8s匹配不上，就放弃。软件流程框图如图5所示，其中语音数据的采样率为8000Hz，每帧取256个采样点，即32ms的数据为一帧。　　程序调试通过后，采用CCS对其实时性进行分析。CCS(CodeComposerStudio，代码编译器)是TI公司提供的软件开发环境。他扩展了基本的代码生成工具，集成了调试和实时分析功能。在CCS下，程序通过WintechTDS510仿真器接到目标板的JT

8、AG口进行硬件仿真测试。　　测试发现1帧信号的处理时

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于dsp的高速实时语音识别系统的设计与实现

基于dsp的高速实时语音识别系统的设计与实现

相关文章

相关标签