语音识别方法简介

语音识别方法简介

ID:83527700

大小:1.02 MB

页数:63页

时间:2023-08-02

上传者:天天好文库
语音识别方法简介_第1页
语音识别方法简介_第2页
语音识别方法简介_第3页
语音识别方法简介_第4页
语音识别方法简介_第5页
语音识别方法简介_第6页
语音识别方法简介_第7页
语音识别方法简介_第8页
语音识别方法简介_第9页
语音识别方法简介_第10页
资源描述:

《语音识别方法简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

语音识别

1◆语音识别技术简介◆特征提取算法◆RBF识别网络◆语音识别系统主要内容

2语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作”。也就是说,如果电脑配置有“语音识别”的程序组,那么当你的声音通过一个转换装置输入电脑内部、并以数位方式存储后,语音识别程序便开始以你的声音样本与事先存储好的声音样本进行对比工作.声音对比工作完成后,电脑就会输出一个它认为最“象”的声音样本序号,由此可以知道你刚才念的声音是什么意义,进而执行命令。计算机自动语音识别的任务就是研究如何利用计算机从人的声学语音信号中提取有用信息,并从中确定语音信号的语言含义。其应用背景及学科基础如图所示。其最终目标是实现人与机器进行自然语言通信。语音识别技术

3

4语音识别具有广阔的应用前景,随着信息产业和互联网的快速发展,对语音识别的需求也更加迫切。比如在声讯服务中,要实时查询股票交易、航班动态、车站票务动态等,用传统的声讯技术已难以胜任,而用语音技术则能解决这些海量信息的动态查询。还有,人们希望在嵌入式系统中做成无处不在的信息家电,希望把因特网上的信息用电话送到千家万户,还有一个更美好的愿望,就是在不久的将来,能够把语音、图像、动画与互联网技术相结合,造就虚拟现实的新一代多妈体,语音技术大大降低了人们迈进信息时代的门槛,并开辟了许多新的信息服务及应月领域,它现在形成一个新兴的产业。正因为如此,世界各国不仅把语音技术列入了高技术研究计划,而且作为21世纪信息产业的重要竞争市场。

5国内外发展动态语音识别的研究工作大约开始于五十年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。六十一年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),而后者较好地解决了语音信号模型的问题,对语音识别的发展产生了深远影响。七十年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间规整技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统.

6进入九十年代,随着多媒体时代的来临迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT等著名公司都为语音识别系统的实用化开发投以巨资.我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

7语音识别技术两个发展方向大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现。

8现在的语音识别系统1.多为中、小词汇量的语音识别系统,即只能够识别10~100词条。2.一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。3.由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。4.多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。5.除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。

9语音识别在3G中的应用使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前,基本ASR应用可以分成三大类:1.语音-文本转换(语音输入);2.讲者识别;3.语音命令控制(语音控制)。这三类功能包含了3G所需的众多ASR性能。语音-文本转换的典型实例是语音拨号和电子邮件听写。讲者识别功能可以通过语音识别安全地读出存储器中的个人数据,从而满足信用卡定购和银行服务等保密性高的应用需要。语音命令控制功能包括连接语音扩展标记语言(VXML)网站内容的语音接口,它支持财经服务与目录助理等业务。目前VXML被用于规范网站内容的语音标签。

10TI的OMAP平台OMAP(OpenMultimediaApplicationsPlatform开放式多媒体应用平台)是TI公司针对移动通讯以及多媒体嵌入应用系统开发的一套应用处理器架构体系。内核软件技术1.为加速信号处理的速度,OMAP平台的内核软件组件允许应用程序利用数字信号处理器(DSP),从而提高终端应用性能。2.OMAP平台可使应用程序开发人员无须深入了解DSP基础硬件架构或算法即可利用这些高级功能。高级应用程序接口(API)方便地获得DSP加速算法,兼容主流的几乎所有的操作系统,Linux、PalmOS、SymbianOS、WindowsMobile。

11OMAP优点解决了实时信号处理任务与高中断数据处理任务之间的内在冲突。解决了向基本的RISC添加DSP难以为循环缓冲、位反转、并行移动以及硬件回路等提供面向DSP寻址等缺陷DSP桥接器提供了ARM与DSP之间的链接,而无需涉及太多的细节,DSP桥接器基本上能够导出一系列API到运行于ARM上的多媒体引擎,以便访问DSP资源。低功耗小体积

12OMAP5910内部框图

13基于OMAP的抗噪语音识别系统低硬件要求:程序加模型所需存储空间100kB~300kB,在手机、PDA上能够实时识别;能够识别国标二级6763汉语单字、几百条常用词汇、短信用语;(可以更换字符集和字库),保证任何汉字的输入;高精度汉语语音识别技术,十选覆盖率98%(其它两个参考指标:首选识别率为75%,三选覆盖率为92%);高准确度音调识别技术,准确率高于95%;采用国际领先的基于统计模型HMM的非特定人语音识别技术,无需学习,适用于各个年龄使用者,对方言也有一定的适应能力;在线累计式说话人自适应技术,使设备在使用中不知不觉的被"喂熟",自学习功能使输入的准确率随着使用时间直线上升;词汇随时自定义,每增加100条词汇仅占用1至2K存储空间;

14基于OMAP的抗噪语音识别系统自动调整功能包含词频动态调整和低频自动屏蔽,在使用中可以动态调整侯选词词序而提高输入速度;采用单字和词组混合模式的输入速度为每分钟20到50个汉字,已接近或超过用户在PC机上的汉字输入速度;大大降低了手指的疲劳程度,在多数情况下,首选识别结果准确时,用户无需手动干预;对于词组的动态学习功能,解决了用户精神疲劳程度高的问题;组词功能自然衍生高精度语音人名拨号(Name_dialing)功能,而且容量比现有手机中的人名识别技术高一个数量级(从10-20到100-200),成十倍地提高用户查找电话本的时间;便捷友好的交互界面,与现有系统兼容,充分考虑用户习惯;采用人耳仿生学原理设计的语音识别特征提取算法,大大提高了系统的抗噪声能力;

15◆语音识别系统的分类方式及依据根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

16◆不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。图1语音识别的实现预处理特征提取参考模式模式匹配判决规则语音信号识别结果训练识别

17待识别的语音经过话筒变换成电信号后加在识别系统的输入端,首先要经过预处理,预处理预处理包括反混叠失真滤波、预加重和端点检测。等。经过预处理后,按照一定的特征提取方法产生语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与已经存储在计算机内的参考模式逐一进行比较(模式匹配),最佳匹配(由判决规则确定)的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。

18语音识别所遇到的难题是搜索最佳识别结果和参数训练。目前,语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。由于人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都使它极适宜于解决类似于语音识别这一类课题,它既适用于底层又适用于顶层。人工神经网络是在模拟人脑神经组织的基础上发展起来的全新的计算系统,它是由大量计算单元通过丰富联结构成的复杂的网络。在一定程度上反映了人脑功能的若干基本特性,是一种更接近于人的认知过程的计算模型。

19贯穿于语音分析全过程的是“短时分析技术”。因为语音信号从整体来看,其特性及表征其本质特性的参数均是随时间而变化的,所以它时一个非平稳态过程。不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是从另一方面看,在一个短时间范围内(一般认为在10-30ms的短时间内)。其特性基本保持不变,即相对稳定,因而可以将其看作是一个准稳态过程。即语音信号具有短时平稳性。

20所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为“一帧”,帧长一般取为10-30ms。这样,对整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。

21语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提取一般要解决两个问题,一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示)另一个是进行适当的数据压缩。目前。语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理的LPCC,LPCMCC,MFCC和ZCPA(语音的上升过零率和非线性幅度)方法提取语音的特征参数。特征提取

22语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板。显然,特征的选取对识别效果至关重要,选择的标准应尽量满足以下两个要求:

23(1)能有效的代表语音特征,包括声道特征和听觉特征,具有很好的区分性。(2)特征参数要计算方便,在保持高识别率的情况下,最好有高效的计算方法,以减小存储要求并保证语音识别的实时实现。

24特征提取方法(1)线性预测系数(LPC)(2)LPC倒谱系数(LPCC)(3)Mel频率倒谱系数(MFCC)(4)LPC美尔倒谱系数(LPCMCC)(4)zcpa特征(过零率与峰值幅度特征:Zero-crossingswithPeak-amplitudes)

25线性预测的基本原理和语音信号数字模型密切相关。线性预测分析的基本思想在于:语音信号相邻的采样点之间有很强的相关性,因此,每语音信号的采样值,可以用它前面的若千个采样值的加权和(线性组合)来近似表示;预测一误差定义为真实采样值与预测值之差,根据预测误差均方值最小准则,可以唯一确定一组预测系数(预测系数即为线性组合的加权值)。LPCMCC(LPC美尔倒谱系数)

26图LPCMCC算法流程预处理LPCLPCCLPCMCC语音信号参数输出下面结合流程图,将LPCMCC具体求解的具体实现介绍一下。

27◆信号的预处理这个环节主要是对一段语音信号进行预加重、分帧加窗的处理。预加重的目的是提升高频部分,似信号变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析.分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。分帧是用可移动的有限长度窗口进行加权的方法来实现的。这就是用一定的窗函数来乘,从而形成加窗语音信号。

28图1对信号进行分帧(N为帧长,M为帧移。)

29加窗可采用加矩形窗、哈明窗和混合窗。窗函数W(n)的选择(形状和长度),对短时分析系数的特征影响很大,为此应选择合适的窗口,使其短时参数更好的反映语音信号的特征变化。本算法采用加哈明窗:

30◆线性预测系数LPCLPC为用线性预测法分析语音时得到的有关语音相邻样值间某些相关特性的参数组。线性预测分析即用一语音样本值能用过去若干语音样值的线性组合来近似估计。按在某分析帧(短时)内实际的各语音样本与各预测得到的样本间差值的平方和最小准则,可以决定唯一的一组预测系数,即LPC(语音短时自相关系数),可以自相关法,如Durbin算法。

31◆LPC倒谱依据语音信号产生的生理和数学模型可知,语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。计算语音信号的倒谱通常有两种方法:其一是先对语音信号进行短时付里叶变换,取其模的对数值,再进行反变换,得其倒谱。声道信息可通过低时窗取出。

32其二是依据AR模型对LPC参数进行递推,形成LPC倒谱,LPC倒谱(LPCC)由于利用了线性预测中声道系统函数的最小相位特性,避免了复杂的相位卷积和复对数计算;且LPC倒谱的运算量仅是用FFT求倒谱时运算量的一半,适于实时应用,它的递推式如下:本算法选用第二种方法,式中为P阶LPC特征向量,P取10阶。从为倒谱的前n个值,当取(8~32)时一般可较好的表征声道特性。

33◆LPC美尔倒谱系数(LPCCMCC)因为,人耳所听到的声音的高低与声音的频率并不成正比关系,而用Mel频率尺度则更符合人耳的听觉特性。将LPC倒谱系数(LPCC)按符合人耳听觉特性的Mel尺度进行非线性变换,从而求出如下所示的LPC美尔倒谱系数(LPCCMCC)。它的递推式如下:

34式中,表示倒谱系数,表示美尔倒谱系数,n为迭代次数,k为倒谱阶数,一般n=k。迭代时n从k,k-1,k-2..,0取值,求得的美尔倒谱系数放在里。当抽样频率分别为10KHZ,8KHZ时,分别取0.35,0.31,这样可近似于美尔(Mel)尺度。从参数推导计算过程可看出,LPCCMCC也能表征人耳特性,而且LPCCMCC还考虑到了声道特性,在检测识别时具有相当的优势。

35识别方法介绍一般来说,语音识别的方法有四种:(1)基于声道模型和语音知识的方法(2)模式匹配方法(3)统计型模型方法(4)人工神经网络方法

36基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。

37模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ);统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)网络,径向基函数网络(RBF)及新兴的小波网络。

38动态时间规整(DTW)动态时间弯折是一种效果很好的非线性时间规整模板匹配法。例如对于孤立词识别,将每个词重复多遍发音,直到得到一个一致性较好的特征矢量序列,从而形成一个模板,在识别时,待识别矢量序列用DTW算法分别求得与每个模板的累计失真,然后判别它属于哪一类。

39矢量量化(VQ)DTW方法是针对时间对准问题的,我们希望不考虑时间顺序任意指定时间对准点,这意味着没有任何时间归一化的处理。矢量量化就时完全忽略时间信息的一种方法。对于孤立词,首先为词会表中的每个但词建立一个码本,这些码本是分离的,它们即为每个单词的模板,识别过程指不过是搜寻誉为指单词有最佳拟合的码本问题,即每个输入矢量必须和每个码本所有码字进行比较。

40关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用Bp网和RBF网等前向神经网络来实现。神经网络

41在过去一段时间,用得较多的是BP网络。但BP网络也有其自身的不足,那就是训练时间长,且容易陷入局部极小值。径向基函数(RBF)网络也是前馈网络中一类特殊的三层前向神经网络,其针对性强,学习方法简单、方便的特点,为前馈网络提供了一条新的思路。它是一种性能良好的前向网络.它不仅有全局逼近性质,而且训练方法快速易行,不存在局部最优问题。RBF这一新颖的网络类型的出现,给神经网络的研究及应用带来了新的生机。RBFNN的优良特性使得它正显示出比BP网络更强的生命力,正在越来越多的领域内成为替代BP网络的一种新型网络。

42径向基函数(RBF-RadialBasisFunction)是多维空间插值的传统技术,由Powell于1985年提出。1988年Broomhaced将径向基函数和多层神经网络进行了对比,揭示出二者的关系。Moody和Darken在1989年提出了一种新颖的神经网络---径向基函数神经网络(RBFNN)。同年,Jackon论证了径向基函数网络对非线性连续函数的一致逼进性能。到目前为止,已经提出了许多种RBF网络的训练算法。RBFNN的优良特性,使其成为替代BP网络的另一种神经网络,越来越广泛地应用于各个领域。◆RBF神经网络的发展RBF神经网络

43RBF网络拓扑结构

44径向基函数神经网络(简称RBFNN)是一种三层前向神经网络。它的隐层激活函数是一种径向对称的核函数。当输入样本传播到隐单元空间时,这组核函数构成了输入样本的一组“基”。因此,这种神经网络称为径向基函数神经网络。RBFNN具有以下特点:●是一种静态网络;●与函数逼近理论相吻合;●具有唯一最佳逼近点;●网络连接权值与输出呈线性关系。◆RBF神经网络的特点

45径向基网络与一般的三层BP网结构很相似,区别有两点:1.输入层到隐层之间权值固定为1,只有隐层到输出层之间的全值可调节。2.隐层神经元的激活函数不同,它用一种具有局部作用性质的函数代替了BP网常用的Sigmoid函数。RBF网最常用的激活函数是高斯函数

46从上面的分析可知,RBF网络由两部分组成(设输入维数为p,隐单元数为m,输出维数为q):●第一部分:从输入空间到隐含层空间的非线性变换层第i个隐单元输出为:

47其中:g(.)为隐单元的变换函数(即径向基函数),一般取为Gauss函数,即x为p维的输入向量,即为第i个非线性变化单元的“中心”向量。为非线性变化单元的宽度。

48●第二部分:从隐含层空间到输出层空间的线性合并层第j个输出其中:为第i个隐单元与第j个输出之间的连接权值;y为q维的输出向量,即。

49在RBF网络中可以调整的参数有:隐节点激励函数,隐节点中心和半径,隐层节点个数和隐层至输出的连接权值。RBF网络的学习方法有两种:1.参数同时训练。2.两阶段训练。◆确定每个RBF隐单元的中心和半径;◆调节权值矩阵(线性最小二乘法)。◆RBF网络的学习

50基于RBF网络的语音识别原理图

51◆具体实验步骤如下:第一步:提取特征第二步:确定网络结构第三步:确定隐函数中心(聚类方法)第四步:确定半径(根据公式)第五步:训练隐层到输出层的连接权值(最小二乘法)第六步:对测试集单词进行识别

52K均值聚类算法步骤(LBG算法):即按照一定的失真测度,对训练数据进行分类,从而把训练数据在多维空间中划分成一个个以形心(码字)为中心的胞腔。这个过程需要一个由大量的矢量构成的样本集,经过统计实验后确定出各个胞腔的中心矢量。下面是LBG算法的具体步骤:

53①初始化:采用某种适当的方法选一个包含N个码字的初始码本矢量。②分类:按最近邻(NearestNeighbor)准则,以码字为中心,将训练矢量集中的所有矢量分到各个胞腔中,形成N个区域。③产生新码本:重新计算每个区域新的中心,并以此作为该区域的新码字。计算所有训练矢量的总失真度。④结束判断:判断这一次的总失真测度比上次总失真测度下降至是否达到预先设定的某一阈值,如果达到阈值则停止,否则转步骤2。

54◆改进的RBF算法1.K-均值法是一种无监督的学习算法,在学习过程中并没有充分利用样本给出的信息,识别效果不理想。所以采用有监督地选取隐层各单元的中心(逐级均值聚类算法)。2.基于小波神经网络的改进

55●将隐层节点数设为单词的分类数。●根据训练数据的归类信息确定中心,对每个单词类对应的所有训练样本取形心做为隐节点质心.●RBF网络作为分类器,对于差异大的数据能很好分类。方差控制了接受域的大小,只有落入中心的接受域范围内的,经过这个中心的隐节点产生最大输出。1.逐级均值聚类(对中心值)

56◆RBF网络识别结果比较:K-均值法选取中心的识别结果(%)SNR(dB)15202530Clean10词80.181.582.582.485.920词81.582.183.384.186.530词83.185.286.386.388.940词84.986.388.388.189.750词83.685.787.388.489.3

57有监督地选取中心的识别结果(%)SNR(dB)15202530Clean10词87.190.590.591.492.920词89.592.193.393.194.530词92.193.293.394.393.940词91.993.394.394.194.450词89.791.793.393.494.3

582.小波RBF网络小波基函数结构如下:a是尺度因子,b是平移因子。将RBF网高斯基函数用小波基函数代替,网络结构不变,单输入单输出的网络结构如下:

59小波RBF平移因子b函数中心尺度因子a函数半径权值训练:线性最小二乘法…

60小波基函数的形式有许多种,常见的有:(1)Morlet小波基:(2)高斯基函数的一阶导数:(3)径向墨西哥草帽小波:通过对10词和50词的无噪音与信噪比为15dB的数据进行实验,结果表明第三种小波用于分类效果最好。

61各种小波基函数识别结果比较SNR(dB)15clean10词75.983.850词81.586.610词83.391.350词86.994.110词87.192.950词89.794.3

62Theend谢谢!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
最近更新
更多
大家都在看
近期热门
关闭