语音情感识别.ppt

语音情感识别.ppt

ID:56257821

大小:178.50 KB

页数:76页

时间:2020-06-04

语音情感识别.ppt_第1页
语音情感识别.ppt_第2页
语音情感识别.ppt_第3页
语音情感识别.ppt_第4页
语音情感识别.ppt_第5页
资源描述:

《语音情感识别.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、语音情感识别概述语音情感识别是指由计算机自动识别输入语音的情感状态。人机语音智能交互的关键技术互动电影、情感翻译、心理检测、电子游戏和辅助心理治疗……语音情感识别研究具有重要的理论价值和应用前景2研究进展美国、日本、韩国、欧洲等许多国家国内:东南大学、中国科学院、清华大学、浙江大学、哈尔滨工业大学、微软亚洲研究院3结构1语音情感识别的系统2语音情感特征参数3特征选择和降维方法4语音情感识别算法5展望41系统概述1语音情感识别的系统三个环节:即预处理、特征提取和情感分类6预处理主要包括采样量化、预加重、端点检测、

2、分帧加窗。预处理过程的好坏在一定程度上也影响系统的识别效果7特征提取特征提取的任务是从输入的语音信号中提取能够区分不同情感的参数序列,在提取特征数据的过程中,为了获得最优特征子集,可能还需要特征降维、特征选择等进一步处理。8模式分类a)在训练时用反映情感特征的参数序列,为每种情感建立相应的情感模型b)在测试或识别时根据所得到的待识别语音信号的特征参数序列,由系统对这些参数和已知情感模型之间的相似程度进行评估,并根据评估的结果判断输入语音信号的情感归属92特征参数2语音情感特征参数语音情感的变化通过特征参数的差异

3、来体现语音情感识别系统主要依靠语音的低层次声学特征来进行识别特征征大致可分为基于模型的特征非基于模型的特征112.1基于模型的特征1线性激励源/滤波器语音产生模型特征2非线性激励源/滤波器语音生成模型特征3语音的全极点模型特征4正弦语音模型特征122.1.1线性激励源/滤波器语音产生模型特征特征主要表现在语音的频谱结构上包含了反映声道共振的频谱包络特征信息和反映声带振动等音源特性的频谱细节构造特征信息具有代表性的特征参数有基音频率共振峰。13基音频率浊音的声带振动基本频率称为基音频率多语种下,情感语音的基频结构

4、特征随情感状态改变有明显的变化,且不同语种下这种结构的变化有较好的一致性。[1]一般提取的基音参数是一段语音的基频衍生参数,如基频的均值、范围、方差、中值、轮廓变化等。[2]14基频与人的生理构造密切相关,具有较强的相异性和不稳定性,基频本身绝对数值使用较少,基频的统计数值更为常用,而且在不同的性别上基频差异更为明显。通过分析基频均值、方差、统计分布模型在性别上的差异,对基频参数进行基于性别差异的规整;引入规整后的基频均值和方差以及基频统计分布模型距离作为情感特征参数[3]15共振峰当元音激励进入声道时会引起共

5、振特性,产生一组共振频率即共振峰共振峰的位置和频带宽度是反映声道特性应用最广泛的是前三个共振峰峰值及前三个共振峰的带宽。共振峰参数存在个体差异,应用较多的是统计特征[4]162.1.2非线性激励源/滤波器语音生成模型特征传统的语音学方法对语音模型的研究将语音的产生假定为线性源—滤波器模型,语音被假设是沿声道方向传播的平面波Teager等人[5]认为当气流通过声带和伪声带区域会出现气流的分离、附着,进而形成涡流,并与平面波一起构成语音生成的原因,提出Teager能量算子(TEO)17TEO发展TEO算子分别应用于

6、信号的时域和频域,并与子带能量特征相结合,提出两种基于TEO的非线性特征用于识别语音情感。[6]结合小波分析的多分辨率思想将不同形式的TEO与美尔频域倒谱系数(MFCC)相结合,提出五种非线性特征用于语音情感识别[7]182.1.3语音的全极点模型特征这类特征主要表现在语音频谱结构随时间的变化上,包含了特征参数的动态特性代表性的特征参数是倒谱系数,如线性预测倒谱系数(LPCC)和美尔频域倒谱系数(MFCC)19线性预测倒谱系数(LPCC)LPCC是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。根

7、据同态处理的概念和语音信号产生的模型,语音信号的倒谱等于激励信号的倒谱和声道传输函数的倒谱之和。20通过分析激励信号的语音特点及声道传输函数的零极点分布情况可知,激励信号的倒谱分布范围很宽,而声道传输函数的倒谱主要分布于低时域中。考虑到不同情感的发音可能使声道有不同的变化,进而引起声道传输函数倒谱的变化,因而在语音情感识别中语音信号倒谱的低时域系数LPCC得到了应用。21MFCC然而,LPCC在所有的频率上是线性逼近语音的,这与人的听觉特性不一致,而且LPCC包含了语音高频部分的大部分噪声细节,使其抗噪声性能较

8、差。针对以上的缺陷提出了MFCC,并在语音情感识别领域得到广泛应用。222.1.4正弦语音模型特征语音信号被假设可以由一组不同频率、幅度和相位的正弦波之和表示,因此这组正弦波的频率、幅度和相位可以作为表达语音情感变化的特征参数。仿真结果表明上述三种特征可以有效地刻画语音情感的变化,并且性能优于常用的倒谱特征参数。[8]232.2非基于模型的特征这类特征通常由一帧或一段语音信号的各个时域

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。