数字信号处理作业之语音识别小论文51125

数字信号处理作业之语音识别小论文51125

ID:18432989

大小:75.50 KB

页数:17页

时间:2018-09-17

数字信号处理作业之语音识别小论文51125_第1页
数字信号处理作业之语音识别小论文51125_第2页
数字信号处理作业之语音识别小论文51125_第3页
数字信号处理作业之语音识别小论文51125_第4页
数字信号处理作业之语音识别小论文51125_第5页
资源描述:

《数字信号处理作业之语音识别小论文51125》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、绪论语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要地位。在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。语音压缩编码是压语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征

2、的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。1.语音识别概述语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。作为一门交叉学科,语音识别又是以语音为研究

3、对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信1.1 国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代。1952年AT&T贝尔实验室的Audry系统,是第一个可以识别十个英文数字的语音识别系统。20世纪60年代末、70年代初出现了语音识别方面的几种基本思想,其中的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号

4、的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。20世80年代语音识别研究进一步走向深入:其显著特征是HMM模型和人工神经网络(ANN)在语音识别中的成功应用。90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。1.2国内研究历史及现状我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学

5、等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。2.语音识别的流程根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),两者相似,不同的是CHMM使用连续概率密度函数计算状态概率。而DHMM则使用的是离散的矢量量化(vectorquantization,VQ)计算状态概率。在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时

6、每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。3.语音信号分析方法分类时域特征直接从时域信号计算得到,反应了语音信号时域波形的特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。4.短时分析技术语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳——准平

7、稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般10~30ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性5.基于Mel频率的倒谱MFCC生理支持根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel频率的倒谱系数(MFCC)MFCC:Mel-FrequencyCepstrumCoefficients.语音识别MFCC参数提取:在语音识别(SpeechRec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。