欢迎来到天天文库
浏览记录
ID:34477389
大小:279.61 KB
页数:7页
时间:2019-03-06
《语音识别与理解的研究进展new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、维普资讯http://www.cqvip.com第4卷第2期电路与系统学报V0I4No.21999年6月J0URAL0FCmCUⅡANDSYs]旺Jtmel999语音识别与理解的研究进展·袁保宗机系智能技术与系统田家实验室北京109084)(北方交通大学信息科学研究所北京100O44)【擅蔓】本文综述了当前语音识别理解的发展趋势和最新进展。指出美国在不依说话人的大词汇表的连续语音隐马尔柯夫模型识别方面起主导地位,日本在大词汇表的连续语音神经网络识别、模拟人工智能进行语音后处理方面起主导地位,并介绍了目前国际上最优秀的语音识别理解系统。陕蝴t鲢塑
2、磋Ir琦●,\谴j,v,,⋯一,语音识别面临的最大挑战,一是社会语音学现象,印地方方言、口音问题。’如中国各地方的口音问题比美国各地方的口音严重的多,尤其中国南北方的地方口音相差较大,限制了语音识别系统的应用。这是声学层需要解决的问题。另一挑战,在于语言模型。对于下一代语音识别系统,要应用于较为广泛的社会领域,要求对整甸语言的理解率高,就必须具备强有力的用户模型和对话模型。目前的用户模型和对话模型的效率很低,如果句法分析(syntacticanalysis)可以通过统计文法自动生成,则不仅对于语音理解系统,而且对于各种多模态信息感知系统都是一个
3、有力的工具支持。下面从不同的侧重面介绍在国际上最有影响的语音识别系统1语青识别目前,主导语音识别发展方向的主要研究机构是IBM和AT&T的BellLab。IBM公司和BellLab使用的方法都是基于统计模型}删。HMM之所以在语音识别中应用较为成功,主要是它具有较强的对时间序列结构的建模能力。目前在技术上,IBM领先于Bel1Lab的原因大致可归结为以下几个方面:I.BelILab采用的是连续参数HMM,IBM采用的是离散参数}删。研究表明,对于中小规模词(10000词)的系统,连续参数}删的识别率高于离散参数}删,而对于大规模词汇的系统,情况
4、恰好相反。2.在连续参数}删中采纳mixturedistribution较为困难,而这对于离散参数删不是难事。3.在连续参数}删中,为获得Robust的统计结果,需要使用SegmentModels,然而获得分段边界的最大似然(MaximumLikehood)结果非常难,使得分段的性能不稳定。而在离散参数HMM中,统计的Robust是通过增加状态数目实现的。4.使用离散参数HMM,可以有效地减少训练数据,甚至于可以使用户不必为每一个word提供一个发音样本。IBM使用离散参数}删,构成一些基本声学模型(fenone模型,这是一种比phone还小的
5、模型),然后利用固定的有限个基本声学模型构成word模型。这种方法,可以利用较少的训练数据获得较好的统计结果,并且这种方法可以使训练自动完成。这对于系统在后的使用过程中,一个新的用户可以较为轻松地、使用较少注册数据(通过注册,使系统对用户(可有多个用户注册)的发音特点进行训练,来提高系统的识别率。训练共有254句话,每句l0—20字),将自己的发音特点映射到系统的参数空间中去,是极为关键的。这使得目前IBM在语音识别领域处于领先地位。另外mM于1997年在中国开发了汉语ViaVoice语音识别系统,这是IBM公司潜心研究26年,继美式英语、英式
6、英国家自然科学基金(N0_69672002)·收稿日期:l998-7_1(July1,1998)维普资讯http://www.cqvip.com江铭虎等:语音识别与理解的研究进展语、法语、德语、意大利语、西班牙语以及日语之后的又一语音识别系统,次年,即1998年又开发出可识别上海话、广东话和四川话等地方口音的语音识列系统Viavoice’98。它基于中文自身的特点,即同音字多、有声调、词界不明、新词不断出现等实际问题,在Windows95上实现了不依赖于话者的大词汇表连续语音识别。它带有一个3万2千条词的基本词汇表,能扩增到65000词,包括办
7、公常用的中文词条,具有“纠错机制”,其平均识别率为95%。ViaVoice是mM的Tangora系统的中文版,可分为声学处理器(AcousdcProcessor)和语言解码器(LinguisdcDecoder)两部分。ViaVo~e的声学处理器具有相当的抗噪声能力,这主要是采用了听觉模型(EarMode1),以及在VQ中使用噪声自适应算法的缘故。在声学处理器中,经过EarModel得到的语音信号,做256点FFT,然后取20个临界频段的频谱能量.并做长时归一化处理,最后进行Q聚类这样可对噪声自适应语言解码器是基于一种离散HMM,称作Fenoni
8、cBasefores,是FenoneModels(或其异音模型)的序列。每一序列构成一个Word模型(称作LinguisticModels)声学层的H
此文档下载收益归作者所有