欢迎来到天天文库
浏览记录
ID:30641105
大小:17.57 KB
页数:4页
时间:2019-01-02
《基于pcann的说话人识别方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于PCANN的说话人识别方法研究摘要本文利用主分量分析神经网络方法,得到一种新的说话人语音特征。该特征通过对相继几帧语音特征参数组成的特征向量作主分量分析得到.新的特征能有效的引入帧间相关信息,减小冗余度,削弱噪声的影响。实验表明,新特征提高了系统的识别性能。关键词主分量分析神经网络(PCANN);特征提取;说话人识别;高斯混和模型(GMM)1引言说话人识别是根据从说话人所发语
2、音中提取信息判断说话人身份的过程。语音信号中包含了话音特征和说话人个性特征,说话人识别的关键问题之一是提取反映说话人个性的语音特征参数。在说话人识别系统中常用的语音特征参数主要有,LPC倒谱系数(LPCC)、Mel频率倒谱系数、线谱对等。在纯净语音环境中,系统已经达到很好的识别性能,但是在实际应用的环境中,由于背景噪声的存在,系统往往达不到令人满意的效果。主分量分析PCA(primarycomponentanalyze)是统计学中一种根据数据的统计分布特性,提取数据主要成分的数据处理方法.它是最小均方误差下的最
3、优正交变换,对消除模式间的相关性、突出模式间差异性有最佳的效果,所以常被用于数据的压缩和模式识别的特征提取.由于它需要对原始数据的方差矩阵进行估值并求取其特征值和特征向量,计算量异常巨大,课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果而基于神经网络的主分量分析算法不必进行矩阵求逆运算,并且神经网络具有并行运算能力,
4、这将降低PCA计算量,提高PCA的实用性。对语音信号的原始特征作主分量分析后往往能得到更好的特征参数。本文选用LPC倒谱系数作为表征声道的特征参数,采用相继的几帧组成的特征参数矢量作为样本,对其进行主分量分析,这样去除了特征中的冗余信息,压缩特征参数的维数,得到新的PCA特征参数,然后把PCA特征参数作为GMM模型的输入向量,进行说话人识别的训练和识别。本文第二节介绍主分量分析神经网络的原理和算法,第三节介绍高斯混和模型和LPCC特征参数,第四节给出相应的说话人识别系统实验和结果,最后是简要的讨论与展望。2主分
5、量神经网络(PCANN)主分量神经网络是基于Hebb学习规则的线性无监督学习神经网络,它可以通过对权矩阵W的学习,使W接近于原始数据X的关联矩阵C中特征值所对应的特征向量,而不必进行矩阵求逆运算,提高了运算速度。基于Hebb学习的最大特征滤波器2.基于Hebb学习的主分量分析网络图3:提取前m个主分量的神经网络解析图3识别系统特征参数以及模型语音的主分量特征参数本文选用线性预测倒谱系数作为语音的原始特征参数然后对其进行主分量分析课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是
6、对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果。LPCC系数是一种非常重要的特征参数。它的主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道相应,而且往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,因此在识别中取得了较好的效果。在实际计算中,LPCC参数不是由信号直接得到的,而是由LPC系数得到的。关系式如下:这里实际上是直流分量,反映频谱能量,其值的大小不影响谱形,在识别
7、中通常不用,也不去计算。当LPCC系数个数不大于LPC系数个数时用第二式,当LPCC系数个数大于LPC系数个数时,用第三式进行计算。4实验及结果分析本文实现了一个在噪声环境下与文本无关的说话人自动识别系统。使用的是一个含20人的语音数据库,包括10名男性和10名女性,每人语音长度约90秒。采样率为12kHz,采用16bit量化。首先对数据进行预处理,包括端点检测、预加重(H(z)=)和加窗。原始特征选为12阶的LPCC倒谱参数,主分量特征个数选12阶。高斯模型混合数M=16。训练音长为40s,测试音为3s。实验
8、结果如表(1):表1实验结果信噪比方法0dB10dB20dBdBGMMPCANN_GMM帧PCANN_GMM帧PCANN_GMM帧图(4)是根据表(1)中的数据画出的曲线。从表(1)可以看出,与传统的GMM方法相比,PCANN_GMM方法明显增强系统抗噪声能力,改进了识别效果。并且在PCANN_GMM中,帧数不同对识别也有较小的影响,当帧数大于5帧时,系统的识别性能不再提高。5总结本文
此文档下载收益归作者所有