资源描述:
《基于GMM的说话人鼾》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于GMM的说话人鼾声识别张高登杨康林:程序﹑论文编写涂辉刘力:音频软件﹑PPT﹑文档格式转换李辉朱浦力葛恒芒胥智慧蒋泊清:资料收集与汇总1说话人识别的历史与现状2鼾声处理步骤及算法思想3特征提取4说话人模型5难点和热点主要内容1说话人识别的历史与现状对声纹识别的研究始于20世纪30年代。早期:人耳听辨实验和探讨听音识别的可能性方面。70年代末至今:重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。2鼾声处理及算法思想
2、1语音产生模型2说话人识别基本原理3预处理2.1语音产生模型语音信号可以看成是激励信号UG(n)经过一个线性系统H(z)而产生的输出。其中,声道模型H(z)为离散时域的声道传输函数,通常可用全极点函数来近似。不同的说话人其声道形状是不同的,因此具有不同的声道模型。H(z)表示为其中p为全极点滤波器的阶数;ai(i=1,2,⋯,p)为滤波器的系数。p值越大,则模型的传输函数和实际声道传输函数的吻合程度就越高,当然p值也不能取得太大,一般情况下,p的取值范围为8~12。2.2说话人识别基本原理输入语音特性提
3、取判决模型产生相似性准则模型存储预处理训练识别说话人鼾声识别系统框图2.3预处理采样量化,语音信号通常以8kHz或更高的采样速率数字化,每个采样至少用8bit表示;预加重,声音经过8kHz或更高采样速率的采样后转换成数字语音信号,接着通过一个一阶高通滤波器来作预加重处理以突显高频部分,其传递函数为:,一般a的值取0.95左右;取音框,一般取256点为一个音框(32ms),音框与音框之间重叠128点(16ms),即每次位移128点后再取256点作为下一个音框,这样可避免音框之间的特性变化过于剧烈;加窗,针
4、对每个音框乘上汉明窗以消除音框两端的不连续性,避免分析时受到前后音框的影响;将音框通过低通滤波器,可去除异常高起的噪声。3特征提取经过预处理后,几秒钟的语音就会产生很大的数据量。提取说话人特征的过程,实际上就是去除原来语音中的冗余信息,减小数据量的过程。特征参数应满足以下准则:对局外变量(例如说话人的健康状况和情绪,系统的传输特性等)不敏感;能够长期地保持稳定;可经常表现出来;易于进行测量;与其他特征不相关。根据参数的稳定性,可把说话人特征参数分为两类:①反映说话人生理结构的固有特征(例如声道结构等),
5、主要表现在语音的频谱结构上,包含了反映声道共振的频谱包络特征信息和反映声带振动等音源特性的频谱细节构造特征信息,具有代表性的特征参数有基音和共振锋,这类特征不易被模仿,但容易受健康状况的影响;②反映声道运动的动态特征,即发音方式、发音习惯等,主要表现在语音频谱结构随时间的变化上,包含了特征参数的动态特性,这类特征相对稳定但比较容易模仿,代表性的特征参数是倒谱系数。LPCC参数:能够比较彻底地去除语音产生过程中的激励信息,能较好描述语音信号的共振峰特性。在实际计算中,LPCC不是由信号直接得到的,而是由L
6、PC求得。MFCC系数:对已经过预处理的语音向量分别进行离散傅里叶变换;将得到的离散频谱用序列三角滤波器进行滤波处理,得到一组系数;利用离散余弦变换将滤波器输出变换到倒谱域其他特征:基音周期,倒谱特征,短时能量与短时平均幅度,短时平均过零率4说话人模型识别模型:指用什么模型来描述说话人的语音特征在特征空间的分布。目前常用的模型可以分为参数模型、非参数模型、人工神经网络模型以及支撑向量机。参数模型是指采用某种特定的概率密度函数来描述说话人的语音特征在特征空间的分布情况,并以该概率密度函数的一组参数来作为说
7、话人的模型。典型的参数模型:高斯混合模型和隐马尔可夫模型非参数模型:指说话人模型是由语音特征经过某种运算直接得来的,典型的非参数模型是模板匹配方法和矢量量化模型。5难点和热点目前还没有很好的方法把说话人特征从说话人的语音特征中分离出来;说话人的特征具有长时变动特性,会随着时间、年龄、健康状况的变化而变化;声音容易被录音模仿;语音信号在电话线路上传输时会产生较大失真。由此可见,说话人识别的难点问题主要集中在特征提取部分,能否使用相对简单的方法提取到一种最能体现说话人个性信息的特征将是今后研究的热点。