语音识别(人机交互小论文)

ID：16415315

大小：35.00 KB

页数：5页

时间：2018-08-09

资源描述：

《语音识别(人机交互小论文)》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、计算机科学与信息工程学院《人机交互》课程小论文2014年6月语音识别1、语音识别的背景与意义语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。随着现代科学的发展，人们在与机器的信息交流中，需要一种更加方便、自然的方式，而语言是人类最重要、最有效、最常用和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉，能“听懂”人类的口头语言，这就是语音识别(SpeechRecogni

2、tion)的功能。语音识别是语音信号处理的重要研究方向之一，它是一门涉及面很广的交叉学科，与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言。2、语音识别系统语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。(1)预处理模块：对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测、

3、语音分帧以及预加重等处理。(2)特征提取模块：负责计算语音的声学参数，并进行特征的计算，以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测（LPC)参数、线谱对（LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测（PLP)参数、动态差分参数和高阶信号谱类特征等[1]。其中，Mel频率倒谱系数（MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。(3)训练阶段：用户输入若干次训练语音，经过预处理和特征提取后得到特征矢量参数，建立或修改训练语音的参考模式库。(4)识别阶段：将输入的语音提取特征矢量参数后与

4、参考模式库中的模式进行相似性度量比较，并结合一定的判别规则和专家知识（如构词规则，语法规则等)得出最终的识别结果。3、语音识别的几种基本方法当今语音识别技术的主流算法，主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。(1)动态时间规整(DTW) DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术，是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语

5、音识别中获得了良好性能。(2)矢量量化(VQ) 矢量量化是一种重要的信号压缩方法，主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每1帧，或有k个参数的每1参数帧，构成k维空间中的1个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。(3)隐马尔可夫模型(HMM) HMM是对语音信号的时间序列结构建立统计模型，将其看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含

6、的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。(4)人工神经元网络(ANN) 人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统，它模拟了人类神经元活动的原

7、理，最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间归正性能。因此，人们尝试研究基于HMM和ANN的混合模型，把两者的优点有机结合起来，从而提高整个模型的鲁棒性，这也是目前研究的一个热点。(5)支持向量机（SVM) 支持向量机是应用统计学习理论的一种新的学习机模型，它采用结构风险最小化原理(SRM)，有效克服了传统经验风险最小化方法的缺点，在解决小样本、非线性及高维模式识别方面有许多优越的性能。其基本思想可以概括为：首先通

8、过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数实现的。4、语音识别所面临的问题(1)识别系统的适应性差。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

语音识别(人机交互小论文)

语音识别(人机交互小论文)

相关文章

相关标签