基于说话人声音识别的技术研究语音识别技术.docx

基于说话人声音识别的技术研究语音识别技术.docx

ID:61722194

大小:72.42 KB

页数:10页

时间:2021-03-11

基于说话人声音识别的技术研究语音识别技术.docx_第1页
基于说话人声音识别的技术研究语音识别技术.docx_第2页
基于说话人声音识别的技术研究语音识别技术.docx_第3页
基于说话人声音识别的技术研究语音识别技术.docx_第4页
基于说话人声音识别的技术研究语音识别技术.docx_第5页
资源描述:

《基于说话人声音识别的技术研究语音识别技术.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于说话人声音识别的技术研究语音识别技术基于声音的人身份技研究通信1203班成:艾洲、刘安邦、汪中日余文正、王玉、宁文静xx-12-28目背景伴随着全球化、网化、信息化、数字化代的到来,我高可靠性的身份技与身份技的需求也日益增。在生物学和信息科学高度展的今天,根据人体自身的生理特征(指、虹膜⋯)和行特征(声音⋯)来身份的生物技作一种便捷、先的信息安全技已在生活中得到广泛的用,它是集光学、感技、外描和算机技于一身的第三代身份验证技术,能满足现代社会对于身份鉴别的准确性、安全性与实用性的更高要求。而语音是人的自然属性之一,由于说话人发声器官的生理差异以及后天形成的

2、行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识别说话人成为可能。设计总体框架1.语音库的建立2.声音样本采集2.1特征参数提取2.2识别模型建立3.语音识别测试梅尔倒谱系数(MFCC)简述在话者识别方面,最常用到的语音特征就是梅尔倒谱系数(MFCC)。因为,根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度,得出从200Hz到5000Hz的语音信号对语音的清晰度影响最大。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此

3、特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的“线性预测系数LPC”相比更好,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。MFCC倒谱特征提取流图1.预加重预加重处理其实是将语音信号通过一个高通滤波器:式中μ的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同的信噪比求。同,也是了消除生程中声和嘴唇的效,来音信号受到音系所抑制的高部分,也了

4、突出高的共振峰2.分先将N个采点集合成一个,称。通常情况下N的256或512,涵盖的20~30ms左右。了避免相两的化大,因此会两相之有一段重叠区域,此重叠区域包含了M个取点,通常M的N的1/2或1/3。通常音所采用音信号的采率8KHz或16KHz,以8KHz来,若度256个采点,的度是256/8000×1000=32ms3.加窗将每一乘以明窗,以增加左端和右端的性。假分后的信号S(n),n=0,1⋯,N-1,N的大小,那么乘上明窗后W(n)形式如下:不同的a值会产生不同的汉明窗,一般情况下a取0.46。4.快速傅里叶变换由于信号在时域上的变换通常很难看出信号

5、的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:式中x(n)为输入的语音信号,N表示傅里叶变换的点数。式中x(n)为输入的语音信号,N表示傅里叶变换的点数。5.Mel滤波器组将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f

6、(m),m=1,2,...,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图所示:三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰(因此一段语音的音调或音高,是不会呈现在MFCC参数内,换句话说,以MFCC为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响)此外,还可以降低运算量。预加重代码:len=length(x1);heigt=0.98;fori=2:lenx1(i)=x1(i)-heigt*x1(i-1);endfori=2:lenx2(i)=x2(i)-hei

7、gt*x2(i-1);end三角滤波器if(f(m)fh=20000;endF(m,k)=(x-f(m))/(f(m+1)-f(m));melf=2595*log(1+fh/700);m=N/2;elseif(f(m+1)M=24;fork=1:12F(m,k)=(f(m+2)-x)/(f(m+2)-f(m+1));i=0:25;n=0:23;elsef=700*(exp(melf/2595*i/(M+1))-1);dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24))F(m,k)=0;N=256;;endform=1:24endendfo

8、rk=1:256count=floor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。