欢迎来到天天文库
浏览记录
ID:9105933
大小:34.50 KB
页数:5页
时间:2018-04-17
《识别语音的几种依据》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、本文来自:CTI论坛:呼叫中心统一通信融合通信专业资讯网(http://www.ctiforum.com/)识别语音的几种依据清华大学刘加2006/07/31 语音识别技术就是通过机器识别和理解过程把语音信号转变为相应的文本或命令;说话人识别技术就是让机器通过你的声音纹路确定你的身份;语种识别技术就是让机器识别你所说的语言的种类,如是英语还是汉语等。 近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。专家预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 由于朗读方式的连续语音和通常自然口语
2、化语音(Spontaneous)发音方式有很大的不同,电话语音通常包含更多的环境噪声、信道噪声和语音失真,因此如何有效提高自然口语化语音电话语音和广播语音识别性能是目前重要挑战。目前语音识别技术研究开始重点向电话语音和广播语音识别研究方向发展。利用目前已经比较成熟的技术,开发针对各种应用的语音识别产品,包括语音专用芯片、嵌入式语音识别系统、口语对话系统、声纹识别系统等,也是目前语音技术领域的热点之一。 语音识别整体模型 大词汇量连续语音识别系统的研究主要集中在声学模型和语言模型两个方面。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时
3、性和连续性等。语音识别和理解是一项非常困难的任务,必须建立在从声学、语音学到语言学的知识为基础的语音处理机制上,才有可能获得高性能的自动语音识别系统。目前主流的语音识别的理论是基于统计模式识别原理。语音识别系统通常假设语音信号是由一系列编码组成。输入的语音波形首先被转换为一组离散的参数矢量。通常用O=o1,o2,∧,or表示语音发声一组待识别的特征参数矢量(观察矢量),其中每个矢量时间间隔典型取值为10ms~20ms。识别器的作用是把输入的语音特征矢量映射为潜在的文字序列。 语音识别的整体模型就是要把可利用的语音学和语言学信息用一个统一的模型来进行描述,以得到
4、尽可能正确的句子识别。假设一句语音可以由字串W=w1,w2,∧,wr组成,识别系统要完成的任务是在给定观察矢量情况下,寻找最大可能(概率最大)的字串W。汉语和西方语言识别系统不同的地方在于汉语中的同音字和同音词比较多,汉语语音识别系统必须包含音字转换的过程。 建立语音识别模型的任务就是要把检测到的声学层语音信息通过适当的数学公式将识别结果W与O的关系表示出来。目前被认为最有效的语音识别模型就是基于统计的隐含马尔可夫模型。根据统计模式识别理论,在已知特征O的条件下,选择可以利用各种信息使后验概率最大。具有最大后验概率的结果为系统最可能的识别结果。 语音识别整体
5、模型反映了实际中语音识别系统要解决的四个具有挑战的问题。首先,一个稳健的特征参数提取算法是必须的,并且该参数能很好地适用于语音的声学层模型。第二,必须根据不同语言的发音特点,建立具有很好鉴别力的声学层模型。模型参数必须能够从并不充分的语音数据中训练出来,并表现出稳健性。第三,必须建立一个语言模型,根据前面的历史语言模型能够指导向前搜索的过程。完善的语言模型还必须包含处理新词的能力,并且尽可能做到和文本的内容无关。第四,由于词汇数量是巨大的,一个实用系统必须有适合声学模型和语言模型的剪枝算法。 语音识别特征 选取语音的识别特征参数是语音识别系统中非常重要的一个
6、方面。选取的特征应该对发音模板有较大的区分度和抗噪声性能。语音信号可以看成是准平稳的随机过程。在10~25ms的时间范围内语音信号可以被认为是平稳的,因此可以分帧对语音信号进行分析。对语音识别系统,典型帧长取值为25ms,帧移为10ms。汉明窗(Hamming)通常在分析中使用以提高分析准确性。预加重滤波器通常被用于补偿由于嘴唇辐射引起的高频频谱的衰减。 目前比较有效识别参数为Mel频率倒谱系数(Mel-FrequencyCepstralCoefficientsMFCC)。MFCC参数都符合人耳的听觉特性,在有信道噪声和频谱失真情况下,该参数表现的比较稳健。由
7、线性预测系数(LinearPredictionLP)导出倒谱系数也是一种常用的语音识别参数,在安静的环境下,线性预测倒谱系数和MFCC系数的性能相差不多。近来研究表明用感觉加权的线性预测(PerceptuallyWeightedLinearPredictionCepstralCoefficientsPLPCC)倒谱系数能有更好的识别稳健性。 在语音信号特征提取过程中,通常做一个不精确的假设,即不同帧间的语音是不相关的,由于人发音的物理条件限制,不同帧间语音必须是相关的,变化是连续的。可以用一阶差分系数和二阶差分系数来近似描述语音帧间的相关性。通常把分析得出的语
8、音信号的倒谱特征称为语音
此文档下载收益归作者所有