欢迎来到天天文库
浏览记录
ID:26845867
大小:51.50 KB
页数:5页
时间:2018-11-29
《语音情感常用特征识别性能分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、语音情感常用特征识别性能分析摘要:在语音情感识别中,情感特征的选取与组合是重要环节。在包含6种情感的普通话情感语料库中,选取了一些常用的情感特征:Mel频率倒谱系数、基频、短时平均幅度能量、短时过零率和第一共振峰等,进行提取并计算得到12个统计量,最后利用基于支持向量机(SVM)的语音情感识别系统进行分类。实验结果表明该方法得到了较高的平均情感识别率,且情感特征的选取、抽取及建模是合理、有效的。同时,得到不同有效的语言情感特征的识别贡献率并对其进行排序。在传统语音情感识别研究中采用定性的情感特征识别分析,而该文采用定量
2、的情感特征识别分析,为今后语音情感识别的相关研究特供了重要参考价值与帮助。中国8/vie 关键词:语音情感识别;语音情感特征的选取;定量的情感特征识别分析;支持向量机 中图分类号:TP311文献标识码:A:1009-3044(2017)04-0173-02 1背景 语音是人们交流的主要方式,语音信号不仅传递语义信息,同时承载了说话人的情感状态。情感因素的引入能使人机交互变得更加自然和谐。因此,语音信号的情感识别成为近年来智能人机交互领域的研究热点[1]。如何使计算机从语音信号中自动识别出说话人的情感状态及其变化
3、,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值[3]。例如:可以用于对电话服务中心用户紧急程度的分拣,从而提高服务质量;用于对汽车驾驶者的精神状态进行监控,从而在驾驶员疲劳时进行提醒,避免交通事故的发生[4]。 2语音情感识别系统结构 本文的语音情感识别系统结构如图1所示,每个步骤之间通过样本数据进行关联。情感特征的提取,计算12个统计量参数和SVM建模是其中的关键环节。 3语音情感特征的提取 3.1MFCC特征 MFCC通过构造人的听觉模型,以语音通过该模型的输出为声学特征,直接通过DFT
4、(离散傅里叶变换)进行变换,将频谱最终转化为倒谱域上的系数[6],具有较好的识别性能和抗噪能力,它的值大体上对应于实际频率的对数分布关系,具体关系可用式(1)表示: 3.2基音频率特征 基音是指发浊音时声带振动所引起的周期性。声带振动频率称为基频。本文采用短时自相关函数来检测基音: 3.3能量特征 语音信号的能量特征与情感的表达具有较强相关性[7-8]。语音信号能量通常有短时能量和短时平均能量两类。由于短时能量计算量较大且对高电平敏感,本文采用短时平均函数。 假设第n帧语音信号[xnm]的短时平均函数为[En
5、],则[En]的估计表达式为: 3.4短时过零率 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。它可以用来区分清音和浊音,这是因为语音信号中的高频段有高的过零率,低频段过零率较低。加窗后第n帧语音信号[xnm]的短时过零率为: 3.5共振峰特征 共振峰是指在声音的频谱中能量相对集中的一些区域,不但是音质的决定因素,而且反映了声道(共振腔)的物理特征,代表了发音信息最直接的来源。本文采用线性预测法求取了第一共振峰。 4SVM分类模型的构建 SVM是建立在结构风险最小化准则的基础上的,它根据有限
6、的样本信息,通过对推广误差上界的最小化达到最大的泛化能力。对于线性可分的样本空间,该算法寻找最优分类超平面,能够同时最小化经验误差与最大化几何边缘区,最优分类超平面能够尽可能多地将两类样本正确地分离,同时使分离的两类样本距离超平面最远,这是一个受限的二次规划问题求解。 对于非线性可分的问题,支持向量机的基本思想是:利用核函数将输入特征的样本点映射到高维特征空间中,数据被超平面分割,在高维空间中变得线性可分,核函数以及超平面的构造是解决非线性可分问题的关键。核函数的形式及其参数的确定决定分类器类型和复杂程度。最优分类超
7、平面保证不同类别能够正确分类,以使经验风险最小;保证分类间隔达到最大,以使置信度最小。 设有两类样本数据为(xi,yi),i=1,2,…,L,x∈Rd,y∈{+1,-1}是类别标号,SVM需要解决下列优化问题: 其中:行预处理、分帧和加窗,再基于各语音分析帧提取声学特征。 本文实验的仿真实验环境为MATLAB2012a。选取的情感特征为MFCC、基频、短时平均能量、短时过零率和第一共振峰。为了降低不同人在表达不同情感时的个人差异造成的影响,本文实验过程中将提取的情感特征进行归一化处理。归一化采取将同一个人的四种情
8、感语音信号的情感特征放在一起归一化处理,并将归一化后的情感特征作为SVM分类器的训练样本和测试样本。
此文档下载收益归作者所有