基于mfcc和lsp混合的语音特征参数的技术研究

基于mfcc和lsp混合的语音特征参数的技术研究

ID:27091923

大小:50.00 KB

页数:5页

时间:2018-12-01

基于mfcc和lsp混合的语音特征参数的技术研究_第1页
基于mfcc和lsp混合的语音特征参数的技术研究_第2页
基于mfcc和lsp混合的语音特征参数的技术研究_第3页
基于mfcc和lsp混合的语音特征参数的技术研究_第4页
基于mfcc和lsp混合的语音特征参数的技术研究_第5页
资源描述:

《基于mfcc和lsp混合的语音特征参数的技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于MFCC和LSP混合的语音特征参数的技术研究摘要本文提出了一种基于MFCC(MelFrequencyCepstralCoefficients)和LSP(LineSpectrumPair)的混合语音特征参数,有效地弥补了单纯使用MFCC的不足,实验中利用加权的欧几里德距离计算特征矢量的失真距离,结果表明新的特征矢量能够很好的表征语音信号的特征信息,能有效降低系统的误识率。关键字特征提取;MFCC;LSP;欧几里德距离1引言随着教学制度的深入改革,在英语教学中,人们越来越注重“听”“说”这一类的实际交流能力,口语测试环节已经得到越

2、来越多教育专家的关注,我们清醒地认识到,说的能力实际上也包括了对于听和读的能力训练。在现代计算机多媒体技术与网络技术飞速发展的前提下,很多英语教学系统的设置已经越来越科学化人性化,利用计算机辅助设计,评估英语发音者口语发声质量已经成为教学中的重要一环。除了应用于教育背景之下,目前也有一些跨国公司,在招聘员工面试时采用了一种名为PhonePass™SET的机制,就是通过一部电话机,在短短几分钟内,由机器对面试者的外语口语进行一次综合测评。由此可见,口语测评已成为实用外语中一项不可缺少的工作。口语测试的评分一般分为两种:一

3、种是自动评分,一种为专家评分。目前我们进行的大量研究工作都是针对前一种的,希望尽可能脱离人的主观因素对口语测试者的发音客观评分,评分的客观性表现在给出的分数只由被测者个人的表现决定,不会受到评分专家对于测试者的个人印象,特定环境下单个被测群体的平均水平限制,以及发音的个体性差异等因素影响。这就对我们的计算机辅助设计提出了很高的要求。我们主要用到的技术是语音识别和统计模型的相关理论,通过提取被测者语音信号的特征参数,计算机对其经过一系列数字信号处理,从而在统计模型中对它进行分析测评。因此,提取特征参数的类型就显得尤为重要了,目前应用

4、最为广泛的特征系数是Mel频率倒谱参数(MFCC)。已经有大量实验表明,较之其它类型参数,它能够更好的反映人耳听觉肌理的特征[1]。本文中以非线性的特征参数MFCC为主,结合了语音信号的另一个重要参数——线谱对参数LSP,提出了一种语音特征参数的混合使用方法(M/L),使发音质量判决系统的正确率有所改进。2特征提取特征参量的选择和提取对于实现语音识别系统有关键的意义,理想的特征参数必须用较少的特征维数包含尽可能多的语音特征信息。2.1MFCC特征参数MFCC系数是基于人耳的听觉特性,所谓Mel频率尺度,它的值大体上对应于实际频率的

5、对数关系。其与实际频率的具体关系如下:(2-1)其中实际频率f的单位为Hz。根据Z.本实验基于一个自行开发的口语测试平台,将语音识别的相关理论运用其中。我们利用了《东方背单词4》和《金山词霸2005》的单词发音,分别建立了训练库中的两个标准模板,实验中的语音数据使用的采样频率为8000Hz,精度16位,单声道,这三个参数在整个系统的实现过程中是一直不变的。3.3实验分析口语测试开发平台的功能和原理简述如下:口语测试者在语音训练库中,可任意选取语音样本,根据听到样本的标准发音进行跟读。系统在运行过程中,分别提取二者的特征信息,进行比

6、对,通过计算标准模板和训练模板特征参数之间的欧几里德距离,判决发音质量。要求检测系统能够客观、真实地对口语训练者的发音质量做出评价,尽量降低误判率。.L.编辑。依据以上的原理,我们分别做了两次实验,第一次实验中,提取的参数为MFCC的一阶差分系数,第二次实验中,特征参数为本文推荐的M/L混合参数,最后比较了二者的优劣。实验1:提取了两个标准模版的一阶MFCC差分系数之后计算出二者的欧几里德距离(dist1)。图1显示的是单词‘pronunciation’的MFCC特征参数波形。图1’pronunciation’的一阶MFCC差分系

7、数实验2:接着再分别提取二者的LSP参数,将相同语音的MFCC失真距离和LSP失真距离之比作为最终的度量距离(dist2)[3]。下图显示的是单词‘pronunciation’的LSP参数波形。图2单词‘pronunciation’的LSP参数波形表1中计算出了语音库中‘lovely’,‘programme’,‘introduce’,‘pronunciaton’四个单词的MFCC失真距离,因为失真距离的大小显然是和帧长成正比的,所以这里的dist取了帧数的平均值,dist1为MFCC失真距离的均值,dist2为相同语音的M/L失真

8、距离的均值。表1四个发音的实验数据词汇发音者帧数MFCC距离Dist1MFCC/LSP距离Dist2lovelyn684.28446e+004630.0686.40636e+006534493.6516k45programmen816.53869e

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。