资源描述:
《基于语音基频的性别识别方法及其改进》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、http://www.paper.edu.cn1基于语音基频的性别识别方法及其改进张超琼,苗夺谦,岳晓冬同济大学计算机科学与技术系,嵌入式系统与服务计算教育部重点实验室,上海(201804)E-mail:zhangchaoqiong1@126.com摘要:本文利用语音的基音频率作为特征,采用高斯混合模型(GMM)方法进行语音的性别识别。识别过程中,通过减少提取特征的语音帧数和降低高斯混合模型的混合阶数来提高识别速度。同时将由Mel频率倒谱参数(MFCC)特征和基音频率特征两种方法得到的测试样本后验概率结合,给出新的计算测试样本后验概率的方法。实验表明依据此后验概率能有效提高识别的正确率。关
2、键词:基音频率;高斯混合模型;性别识别;Mel频率倒谱参数中图分类号:TP391.421.引言性别识别是语音信号处理中一个很重要的课题,他与语音识别、说话人识别、语音通信等都有很大的联系。在语音识别和说话人识别实验中发现,事先知道说话人性别时所得到的正确识别率要比不知道说话人性别时高。在语音通信中,可以基于性别识别建立性别有关的语音特征参数提取方案,减少特征参数的维数,减少传输带宽。由此可见性别识别是语音识别研究中的一个重要问题,具有重要意义。[1]基音频率是性别识别最重要的判别依据。他反映了说话人发浊音时的声带振动频率。一般而言,男声的基音频率分布范围为0~200Hz,女声的基音频率分布
3、范围为200~500Hz。因此,准确而可靠地估计基音周期对于说话人性别识别非常重要。判断说话人的性别可以采用类似说话人识别的方法,常用的性别识别方法有VQ算法、HMM算法、支持向量机方法等。鉴于性别识别较说话人识别相对简单,所以本文选用高斯混合模型(GMM)进行性别识别。2.方法分析2.1特征提取方法[2-4]基音频率提取包括基音频率候选估计和后处理两个必要步骤。基音频率候选估计法主要有两类:时域估计法和变换域估计法。常用的时域估计方法有自相关函数法和平均幅度差函数法等;变换域方法有频域法和倒谱域法等。本文采用归一化幅度差平方和函数法(sumofmagnitudedifferencesqu
4、arefunction,[5]SMDSF)来进行基音周期候选估计,并利用viterbi算法进行后处理,快速、准确的提取基音频率。SMDSF法定义为:L−12D2(τ)=∑[sw2(j+τ)−sw1(j)](1)j=0其中:s(j)=s(j)w(j),s(j)=s(j)w(j),τ=0,1,L,L−1。窗函数为:w11w22⎧1j=0,1,L,L−1⎧1j=0,1,L,2L−2w1(j)=⎨和w2(j)=⎨⎩0其他⎩0其他对SMDSF归一化是必要的,目标是使其函数取值能评价语音信号非周期性的程度,以1基金项目:国家自然科学基金项目(No.60475019);2006年博士学科点专项科研基金(
5、No.20060247039);国家自然基金项目(NO.60775036)。-1-http://www.paper.edu.cn便在后处理中使用。归一化SMDSF定义为:LD2nom(τ)=D2(τ)L∑D2(k)(2)k=0采取后处理的目的是使用基音周期全局的信息,纠正基音周期的局部错误,通过Viterbi算法可以找到一个最优的基音周期序列,使得发生基音周期误判错误的损失最小。本文中每一帧语音选取3个基音周期值作为候选状态,算法的状态损失函数为:⎛Pt⎞S(t,i)=αln⎜i⎟+βD(Pt)(3)c⎜P⎟2nomi⎝avg⎠转移损失函数定义为:tt−1⎧γP=0或P=0ij⎪⎪Tc(t
6、,i,j)=⎨⎛Pt⎞(4)γln⎜i⎟其他⎪⎜Pt−1⎟⎪⎩⎝j⎠算法的总时间复杂度为O(TLlnL),其中T是语音信号的总帧数,L是一帧语音中采样点的个数。与通用基音提取算法相比,此方法在保证了实时性的基础上提高了基音周期提取的正确率。2.2GMM分类器分析[6]高斯混合模型本质上是一种多维概率密度函数,一个具有M个混合成分的K维高斯混合模型,可以用M个高斯成员的加权和来表示,即:MMp(x
7、λ)=∑p(x,i
8、λ)=∑cip(x
9、i,λ)(5)i=1i=1式中λ为高斯混合模型的参数集;x为K维的声学特征矢量;c为第i个分量的混合权值。iGMM参数估计从λ的一个初值开始,采用EM算法估
10、计新的参数λ′。GMM识别原理为:使得待识别语音特征矢量组X具有最大后验概率p(λ
11、X)的模型λ即为说话人所属的ii性别组。在男女识别中识别公式可简化为:∗i=argmaxp(X
12、λ),i=1,2(6)ii2.3系统流程描述本文利用幅度差平方和函数方法提取训练及测试语音所有帧的基音频率,分别基于男女训练集特征文件利用EM参数估计法建立男女两个高斯混合模型,然后利用已训练好的两个模型分别对测试集中语音文件计算两个后验概率值