欢迎来到天天文库
浏览记录
ID:5332958
大小:282.78 KB
页数:5页
时间:2017-12-08
《matlab环境下的基于hmm模型的语音识别系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算机测量与控制.2004.12(5)·470·ComputerMeasurement&Control设计与应用!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!文章编号:1671-4598(2004)05-0470-03中图分类号:TP31文献标识码:BMATLAB环境下的基于HMM模型的语音识别系统郭圣权,连晓峰(华北工学院自动控制系,山西太原030051)摘要:在MATLAB环境下利用语音工具箱VoiceBoX实现基于连续概率密度隐含马尔科夫模型的汉语语音识别系统。在实时录音的情
2、况下,利用该语音识别系统,不同的人对20条2~8个字的语音命令进行识别,准确率可达到95%,识别时间1.5~3s,实现了小词汇量连续语音的非特定人的实时识别。关键词:语音识别;MATLAB;连续概率密度隐含马尔科夫模型(CDHMM)SpeecRecognitionSystemBasedonHMMinMATLABEnvironmentGuoShengguan,LianXiaofeng(Dept.ofAutomaticControI,NorthChinaInstituteofTechnoIogy,Taiyuan030051,China)Abstract:UsingVoi
3、ce-BoXamandarinspeechrecognitionsystemisreaIizedbasedonCDHMMinMATLABenvironment.Underthecir-cumstanceofthereaI-timerecording,differentpeopIetosaytheconnectedwordswhichincIude2~8wordsin20speechutterances,theaccura-cycanreach95%,andtherecognitiontimeisbetween1.5~3secondsinthissystem.Keyw
4、ords:speechrecognition;MATLAB;Continuo’sDensityHiddenMarkovModeI本。系统界面如图1所示。0引言[1-2]1.2语音信号特征参数提取目前,用于语音识别的方法有基于动态时轴归整语音信号特征参数的提取是语音识别的一个重要(DTW)技术的模板匹配法、基于概率统计的HMM法和环节。目前常用的方法是基于人的发音器官建立声道模基于人工神经网络(ANN)的最优搜索法。型和基于听觉器官建立听觉模型。基于听觉模型得到的1系统过程设计MEL倒谱系数(MeI-FreguencyCepstrumCoefficients,1.1实
5、时录音和端点检测控件[1]MFCC)比基于声道模型得到的LPC倒谱系数更符合人ActiveX控件是Microsoft公司制订的一种软件接口标耳的听觉特性,在有信道噪声和频谱失真的情况下,能准,在MATLAB中,通常是将ActiveX控件嵌入到figure产生更高的识别精度。窗口中,以GUI程序的方式使用。通过ActiveX录音控MFCC建立在Fourier频谱分析基础上,首先利用人件可实现与MATLAB主程序的双向交互。当录音控件录耳的感知特性,在语音的频谱范围内设置若干个带通滤音完成并进行端点检测后,向主程序发送一个事件,通波器,每个滤波器具有三角形或正弦形滤波特
6、性,然知主程序读取语音数据及短时参数信息等.端点检测算法主要采用短时平均能量和短时平均过零率作为判决的主要特征。N(2n)计算第i帧的短时能量;(ei)="Iogxin=1N-1zcr(i)="Ix(in)-x(in+1)I计算第i帧的n=1过零率本系统采用8kHz采样频率、16bit、单声道的PCM录音格式,帧长N为30ms,帧移M为10ms,x(n)为输入的语音信号,x为第i帧的第n个样收稿日期:2003-08-10基金项目:山西省自然科学基金资助项目作者简介:郭圣权(1939-),男,山西省定襄县人,教授,主要从事导航、制导及语音识别在导航定位系统中的应用。图
7、1语音输入与端点检测界面第5期郭圣权,等:MATLAB环境下的基于HMM模型的语音识别系统·471·!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!后在特征矢量中纳入能量信息,计算相应滤波器组的信MB={6(jO)},6(jO)="cjkN(O,jk,Ujk)1#j#N号能量,再通过离散余弦变换(DCT)计算其对应的倒l=1谱系数。其中,O表示给定的观测矢量,M为每个状态包含的语音信号的MFCC特征参数主要反映语音的静态特高斯元个数,cjk为第j状态下第k个混和高斯函数的征,
此文档下载收益归作者所有