数字信号处理作业之语音识别小论文2

ID：8346495

大小：253.50 KB

页数：16页

时间：2018-03-21

资源描述：

《数字信号处理作业之语音识别小论文2》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、摘要：本文针对所采集的语音信号，对其时域、频域参数进行了系统详尽的分析，并在MATLAB环境下实现了基于DTW算法的特定人语音信号0到9的识别。关键词：语音识别；MATLAB；短时傅立叶；DTW引言近年来，语音识别已经成为一个非常活跃的研究领域。在不远的将来，语音识别技术有可能作为一种重要的人机交互手段，辅助甚至取代传统的键盘、鼠标等输入设备，在个人计算机上进行文字录入和操作控制。而在智能家电、工业现场控制等其他应用场合，语音识别技术则有更为广阔的发展前景。在语音识别中，最为简单有效的方法是采用DTW(DynamicTimeWa

2、rping，动态时间规整)算法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现最早、较为经典的一种算法[3]。一、语音识别系统概述一个完整特定人语音识别系统的方案框图如图1所示。输入的模拟语音信号首先要进行预处理，包括预滤波、采样和量化、加窗、端点检测、预加重等,然后是参数特征量的提取。提取的特征参数满足如下要求：(1)特征参数能有效地代表语音特征,具有很好的区分性；(2)参数间有良好的独立性；(3)特征参数要计算方便,要考虑到语音识别的实时实现。图1　语音识别系统方案框图语音识别的过程可以被看作模

3、式匹配的过程，模式匹配是指根据一定的准则，使未知模式与模型库中的某一个模型获得最佳匹配的过程。模式匹配中需要用到的参考模板通过模板训练获得。在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。二、语音信号的分析与处理1、语音信号采集该实验以实验者本人的声音（语音信号0~9）为分析样本，是利用PC机录制15，音频文件采用8000kHz采样频率、16bit量化、单声道的PCM录音格式，

4、用MATLAB本身wavread函数来读取语音文件。如图2为采集的数字信号“3”的语音原始信号。图2采集的数字语音“3”的原始信号2、语音信号分析语音信号是一种典型的非平稳信号。对于非平稳信号，它是非周期的，频谱随时间连续变化，因此由傅里叶变换得到的频谱无法获知其在各个时刻的频谱特性。如果利用加窗的方法从语音流中取出其中一个短断，再进行傅里叶变换，就可以得到该语音的短时谱。语音信号的基本组成单位是音素。音素可分成“浊音”和“清音”两大类。如果将不存在语音而只有背景噪声的情况称为“无声”，那么音素可以分成“无声”、“浊音”、“清音

5、”三类。浊音的短时谱有两个特点：第一，有明显的周期性起伏结构，这是因为浊音的激励源为周期脉冲气流；第二，频谱中明显地有凸出点，即“共振峰”，它们的出现频率与声道的谐振频率相对应。清音的短时谱则没有这两个特点，它十分类似于一段随机噪声的频谱。2.1时域分析语音信号具有时变特性，但在一个短时间范围内(一般认为在10~30ms的短时间内)，其特性基本保持不变，即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。任何语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”，将语音信号分段来分析其特征参数，其

6、中每一段称为一“帧”，帧长一般取为10~30ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。2.1.1短时能量分析15短时能量分析用途：第一，可以区分清音段和浊音段，因为浊音时的短时平均能量值比清音时大得多；第二，可以用来区分声母与韵母的分界、无声与有声的分界、连字的分界等。如对于高信噪比的语音信号，短时平均能量用来区分有无语音。无语音信号噪声的短时平均能量很小，而有语音信号的能量则显著增大到某一个数值，由此可以区分语音信号的开始点或者终止点。2.1.2短时过零率分析过零就是信号通过零值。对

7、于连续语音信号，可以考察其时域波形通过时间轴的情况。对于离散时间信号，如果相邻的取样值改变符号则称为过零。由此可以计算过零数，过零数就是样本改变符号的次数。单位时间内的过零数称为平均过零数。短时过零分析通常用在端点侦测，特别是用来估计清音的起始位置和结束位置。2.2、频域分析短时傅立叶分析在运用离散时间傅立叶变换分析语音信号的变化时，会遇到这样的问题，即单一的傅立叶变换并不能反映时间变化的频谱信息，诸如时变共振峰和谐波。具体而言，通常将信号的每一时刻与其相邻时刻信号的傅立叶变换相联系，这样就可以及时跟踪信号的频谱变化。语音信号的

8、短时傅立叶变换见程序所述。短时傅立叶分析一般采用汉明窗作为分析窗。3、语音信号的处理3.1、语音识别的DTW算法本设计中，采用DTW算法，该算法基于动态规划(DP)的思想解决了发音长短不一的模板匹配问题，在训练和建立模板以及识别阶段，都先采用端点检测算法确定语音

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 16



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数字信号处理作业之语音识别小论文2

数字信号处理作业之语音识别小论文2

相关文章

相关标签