模式识别理论和技术在语音识别研究中的应用

模式识别理论和技术在语音识别研究中的应用

ID:34135448

大小:286.45 KB

页数:4页

时间:2019-03-03

模式识别理论和技术在语音识别研究中的应用_第1页
模式识别理论和技术在语音识别研究中的应用_第2页
模式识别理论和技术在语音识别研究中的应用_第3页
模式识别理论和技术在语音识别研究中的应用_第4页
资源描述:

《模式识别理论和技术在语音识别研究中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、企肥学院学报(自然科学版)JournalofHeiUniversity(NaturalSciences)2009年2月第19卷第1期Feb.2009Vo1.19No.1模式识别理论和技术在语音识别研究中的应用杨海峰,张德祥(安徽大学a.教务处.b.电子科学与技术学院,合肥230039)摘要:语音识别是让机器听懂人的说话,并准确地识别出语音的内容和执行相应操作的技术.该文介绍了语音识别发展的过程,语音识别系统的结构和识别过程,模式识别理论和技术在语音识别研究中的应用以及语音识别中的关键技术和面临的问题.最后讨论了语音识别技术存在的优点和不足,并展望了其应用研究的前景.关键词:语音识别;模式识别

2、;特征提取;模式匹配中图分类号:TP391.42文献标识码:A文章编号1673—162X(2009)01—0020—04语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言.语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术.语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论、以及神经生物学等学科都有非常密切的关系.语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业..语音识别的研究从20世纪50年代AT&T贝尔实验室开发的10个英文数字

3、的语音识别系统开始,到6O_70年代,由于动态规划和线性预测分析技术的提出,有效地解决了语音信号的特征提取和不等长匹配问题,实现了特定人小词汇量的孤立词的识别,语音识别研究得到快速发展,特别是提出了矢量量化和隐马尔可夫模型(HiddenMarkovModels,HMM)理论,使得语音识别研究取得突破性进展.进入80年代,以HMM模型和人工神经元网络(ANN)在语音识别技术上应用为代表的新技术不断出现,统计的语言模型开始取代基于规则的语言模型而成为主流,使得语音识别朝着大词汇量、连续语音和非特定人的语音识别方向深入,有效地解决了语音信号短时稳定、长时时变的非平稳特性,使语音序列建模方法、统计建

4、模方法、词语之间关系的统计模型建立方法和语法规则机制建立方法在连续语音识别中得到深度应用._2进入20世纪90年代后,语音识别在细化模型的设计、参数提取和优化以及系统的自适应等方面取得一系列关键性的进展,特别是现代信号处理技术如时频分析、小波分析、模糊理论、混沌与分形理论、遗传算法和支持向量机等都正在应用于说话人识别技术上,使得语音识别技术进一步成熟,并开始向市场提供产品.[。]1语音识别系统的结构一个完整的基于统计的语音识别系统一般由语音信号预处理与特征提取,声学模型与模式识别,语言模型与语音处理3部分组成.4总体上说,语音识别就是一个模式识别和匹配的过程,首先计算机必须根据人的语音特点来

5、建立语音特征模型或字典库;然后对获取的语音输入信号经过噪声去除和端点检测等预处理后进行特征分析和提取,建立所需识别的语音信号模板;再采用模式识别理论和技术,将计算机中已经存在的语音模板特征与输入的语音信号特征进行比较,并根据一定的搜索和模式匹配的策略从语音特征库中找出最优的语音模版与输入语音进行匹配处理;最后通过查表或判别算法来给出识别结果.目前语音识别主要集中在特定人和非特定人语音识别、孤立词和连续语音识别、小词汇量和大词汇量的语音识别方面.其语音识别系统结构如图1所示.收稿日期:2008—10—13基金项目:安徽省教育厅自然科学基金项目(KJ2008B094)资助.●作者简介:杨海峰(1

6、979一),男,安徽界首人,安徽大学教务处助理研究员;张德祥(1968一),男,安徽六安人,安徽大学电子科学与技术学院副教授.第1期杨海峰,等:模式识别理论和技术在语音识别研究中的应用2l2模式识别技术在语音识别中应用模式匹配是指根据一定准则,使未知模式与模型库中某一模型获得最佳匹配.模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的模型参数.语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)、独立分量分析(ICA)等方法.2.1动态时间规整(DTW)动态时间规整算法图1语

7、音识别系统结构(DynamicTimeWarping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法.在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号去和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径.2.2隐马尔可夫模型法(HMM)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。