语音识别技术简介

语音识别技术简介

ID:15059489

大小:378.00 KB

页数:12页

时间:2018-08-01

语音识别技术简介_第1页
语音识别技术简介_第2页
语音识别技术简介_第3页
语音识别技术简介_第4页
语音识别技术简介_第5页
资源描述:

《语音识别技术简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、语音识别技术简介厦门大学厦门天聪智能软件有限公司地址:厦门市思明区软件园二期望海路21号301电话:0592-59988125998865网址:http://www.talentedsoft.com2010年一、基本概述人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人与机器之间也每时每刻都需要进行大量的信息交换。语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR

2、),研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,是一门十分实用的交叉前沿学科。从广义上讲,语音识别也包括了对说话人的识别,即声纹识别,其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征(如:音律特性等)。在这里专指有意义、有内容的语音识别。计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人

3、机界面,从而对计算机的发展以及推广应用产生深远的影响。二、发展历程语音识别的研究工作大约开始于20世纪50年代,当时AT&TBell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统。  60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态时间规划(DP)和线性预测分析技术(LPC),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。  70年代,语音识别领域取得了较大进展。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW

4、)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。  80年代,MFCC的参数提取技术和HMM模型的深入使用使得语音识别技术得到进一步的发展,语音识别的问题逐步在理论体系上得到了比较完整和准确的描述,同时在实践上又逐步研发出效率较高的解决算法。90年代以来,在美国国防部的Darpa测试、Ears计划、近期的Gales计划,以及我国863计划等推动下,一大批高水平的研究机构和企业加入到语音识别的研究领域,极大地推动了语音识别

5、技术的发展和应用。语音识别系统已经从过去的小词汇量、孤立词识别、特定人识别、安静环境等简单任务逐步发展到大词汇量、连续语音、非特定人、噪声环境下的识别任务,从单纯的语音识别任务发展到语音翻译任务,从实验室系统走向商用系统。三、关键技术下图展示了人与人之间、人与机器之间的语音信息处理过程。下面是常用的关键技术和应用:1.语音特征的采集大量的实验研究发现语音信号主要存在以下两个特点:①在频域内,语音信号的频谱分量主要集中在300~3400Hz的范围内。利用这个特点,可以用一个带通滤波器将此范围内的语音信号频率分量取出

6、,然后按8kHz的采样率对语音信号进行采样,就可以得到离散的语音信号。②在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。因此我们对语音信号的分析处理就集中在这两个特点上。其中预处理就包括了对声音的采样和编码。声学的参数分析这更多的时域和频域方面,具体的分析还会用到倒频谱分析(采用MFCC或LPCC)。矢量量化(VQ)矢量量化是一种重要的信号压缩方法,主要适用于小词汇量、孤立

7、词的语音识别中。其过程是:将语音信号波形的k个样点的每1帧,或有k个参数的每1参数帧,构成k维空间中的1个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。2.基于模式匹配方式的语音识别技术·失真测度几种典型的失真测度(1)欧氏距离D(x,y

8、)={∑

9、x–y

10、r}/N,(0≤1≤N-1)-均方误差-绝对值平均误差(2)对数频谱距离V(w)=log(f(ω))-log(g(ω))D(g,f)={∫

11、V(w)

12、rdw}/2π(3)倒谱距离D(x,y)=∑(c–c)2,(1≤n≤p)采用不同的测度会产生不同的匹配结果。·动态时间规整法(DTW)为了解决语音模式匹配中匹配时音长不一致和线性匹配与非线性的问题,DTW技

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。