语音情感识别综述

语音情感识别综述

ID:5279672

大小:318.98 KB

页数:7页

时间:2017-12-07

语音情感识别综述_第1页
语音情感识别综述_第2页
语音情感识别综述_第3页
语音情感识别综述_第4页
语音情感识别综述_第5页
资源描述:

《语音情感识别综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、语音情感识别综述+陈建厦(厦门大学计算机科学系,福建厦门361005)摘要从语音中提取人类的情感是一个十分有趣而又富有挑战性的问题。近几年来,有不少学者致力于这方面的研究。本文介绍了带有情感的语音的特征,阐述了现有的几种从语音中提取情感的方法,时其进行分析比较,指出了语音情感识别技术的发展趋势。关键词语专情感,11刖罱语言是人类交际的最重要的交流工具。人类的话语中不仅包含了文字符号信息,而且还包含了人们的感情和情绪等信息。例如,同样一句话,往往由于说话人的情感不同,其意思和给昕者的印象就会不同。当人们通过电话交谈的时候,他能通过对方的声音感知到对方的情感。从这点上看,我们认为通过分析语音来判断

2、人的情感是可能的。从语音信号提取情感特征,判断说话人的喜怒哀乐,是这些年刚刚兴起的研究课题。本文主要阐述近几年国内外在这个领域的研究状况。2研究现状2.1概述人类的情感是复杂多样的。目前从语音中提取情感只研究少数几种情感的识别,比如喜悦、愤怒、忧伤、惊奇等,或只识别平静(neutral)和紧张(stresssed)两种类型情感。研究中所用到的带有情感的语音数据是有意识的情感,即由人根据给定情感来朗读给定语句,而不是自发的情感。这些语句一般由专业演员来朗读。语句数量由几百到几千句不等。识别系统的工作流程一般分为以下几个部分;先对语音信号根据需要进行预处理,然后提取特征信息,进一步根据特征将语音数

3、据分类,最后得出识别结果。2.2语音情感的特征XiaoLm等⋯认为:与一般说话相比,带情感的语音在以下三组参数存在变化:语音质量、音调和说话速度。这三种参数中有一些不容易测量,比如语音质量和语速,这两组参数带有较多的主观色彩。不同的人说话的特征不~样,有的人说话就是比较快,有的人说话慢一些。有的人声音沙哑,有的人语音洪亮。所以音调更具客观性。多数学者将研究重点放在浯音的韵律方面。比如Kostov㈦、GRlRnis㈣、Yoshitomi[4I、ChenIsl等。根据韵律特征来提取情感是被证明是行之有效的。以下比较详细地分析一下常用的特征;21发音持续时间语句发音持续时间指每一语句从开始到结束的持

4、续时间。Nicholson[61确定一句话的开始和结束的位置采用的方法是:把语音能量和预先设定的能量阈值做比较。当语音能量超过这个闽值,并且在接下来的连续几帧都高于这个阂值,标志着一句话的开始。当语音能量连续几帧低于这个闭值时表示~句话的结束。这样处理可以比较有效地去除噪声的干扰。有学者’获得国家自然科学基金(批准号:60175008)、高等学校骨干教师资助计划、福建省自然科学基金项目(项目编号:A0110004)资助。179把情感语句的持续时间和相应的平静语句持续时间的比值作为识别用特征参数。赵力等在文献【7冲,对说话的持续时间有如下结论:欢快、愤怒、惊奇的发音长度和平静发音相比压缩了,而悲

5、伤的发音长度却稍稍伸长了。在被压缩的欢快、愤怒、惊奇中,愤怒的发音最短,其次是惊奇,然后是欢快。从发话速率和情感的关系来看,欢快、愤怒、惊奇和平静发音相比变快了,而悲伤却变慢了。通过进一步的观察可知,这些现象的产生是由于和平静语音相比,在情感语音中,一些音素被模糊地发音、拖长或省略掉了的缘故。2.2.2基音频率对于基音频率的处理,赵力等”1的做法是利用倒谱法逐帧求出基音频率,并对基频曲线进行中佰滤波和线性平滑处理,然后提取情感信号基频轨迹曲线的最大值、整个曲线的基频平均值以及平均变化率等特征。研究发现”1,和平静语音信号相比,欢快、愤怒和惊奇的平均基频、动态范围、平均变化率比较大,而悲伤语音信

6、号则较小。对比较大的欢快、愤怒、惊奇来讲,炊快语音信号的特征量最大,其次是惊奇和愤怒。另外还有一个区分惊奇和其它情感信号的重要特征,那就是惊奇情感信号的基频轨迹曲线在句尾的地方往往有上翘的特征。2.2.3能量对于能量方面的分析,在识别时“1,把情感语句的振幅平均能量、动态范围和相应的平静语句的振幅平均能量、动态范围的差值作为识别用特征参数。欢快、愤怒、惊奇三种情感发音信号和平静发音发音信号相比振幅将变大,相反地,悲伤和平静相比,振幅将减小。而且从听取实验可知⋯j,情感信号具有这样的倾向,即,欢快、愤怒、惊奇的平均振幅越大,悲伤的平均振幅越小,其情感效应表现越明显。GuojunZhou等⋯1提出

7、了线性特征和非线性特征的概念。线性特征包括音高(pitch)、持续时间(duration)、强度(imeIlsity)和其它跟声门有关的属性(glottalsource&vocaltractspectrum)。非线性部分的处理是基于TEO(TeagerEnergyOperator)能量算子的。离散的TEO定义如下:lf,[x(n)】=X2(n)一x(n+1)x(n一1)(1)其中W]是TEO,x(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。