语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt

语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt

ID:50213165

大小:557.00 KB

页数:28页

时间:2020-03-10

语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt_第1页
语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt_第2页
语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt_第3页
语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt_第4页
语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt_第5页
资源描述:

《语音信号处理 第2版 教学课件 作者 赵力 语音信号处理第12章.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、12.1概述12.2语音信号中的情感分类和情感特征分析12.3语音情感识别方法12.4情感语音的合成12.5今后的研究方向第12章语音信号中的情感信息处理12.1概述随着信息技术的高速发展和人类对计算机的依赖性的不断增强,人机的交互能力越来越受到研究者的重视。在人机交互中需要解决的问题实际上与人和人交流中的重要因素是一致的,最关键的都是“情感智能”的能力。因此计算机要能够更加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感的判断来调整交互对话的方式。包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息

2、。所以包含在语音信号中的情感信息的计算机处理研究,分析和处理语音信号中的情感特征、判断和模拟说话人的喜怒哀乐等是一个意义重大的研究课题。12.2语音信号中的情感分类和情感特征分析12.2.1情感的分类要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然后在不同类别的基础上研究特征参数的性质。经过Plutchik等人的多年研究,通过在激活评价空间上对情感进行分析,认为情感分布在一个圆形的结构上,结构的中心是自然原点。由于各种情感在自然原点的周围排成了一个圆形,所以这种对情感进行分类的方法叫做“情感轮(EmotionWheel)”

3、。对于任何一个情感语句,可以根据其情感强度和情感方向,在情感轮所组成的二维平面中用唯一的一个情感矢量来表示。其中情感强度表现为这个情感矢量的幅度值,而情感方向则表现为该情感矢量的角度。不同于Plutchik的分类手段,Fox提出的三级情感模型,则是按照情感中表现的主动和被动的程度不同将情感分成不同的等级,如表12-1所示。等级越低,分类越粗糙,等级越高,分类越精细。12.2.2情感特征分析语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。情感的变化通过特征参数的差异而体现。因此研究从语音信号中提取这些反映情感的参数,对于情感语音识别等具有极其重

4、要的意义。通常在语音情感识别时使用的主要特征参数包括以下内容。Murray和Arnott总结了情感和语音参数的关系如表12-3所示。当人处于愤怒的情感时,其生理特征较平时突出,如心跳加快、皮肤电压升高、血压升高等,这同时也影响到了语音特征参数的变化。首先由于生理变化的缘故,胸腔的回声和呼吸声在语音信号中所占的比重将有所增加,振幅强度也大大高于普通的情感,语速也较普通语句快,是加速句和加强句的结合。为了增加生气的效果,基音在重音处语调的突变,成为了生气状态的一个重要特征。对于高兴时的情感,与愤怒情感时的生理特征有相似之处,它的声音中也往往带有呼吸的声音,但

5、是和其它情感的主要不同之处在于,人处于高兴的状态时,它的基音变化通常是一条向上弯曲的曲线。句子的振幅强度也集中在句子的末尾的一两个字,整个句子的声调的调域要比平静语句高。句中非关键性的字和词的调形拱度就变得平坦一些,甚至失去本调,而成为前后相邻两调的中间过渡。由于悲伤情感属于压抑情感类,所以它的时长较平静语句慢,强度也大大低于其它各种情感,基音的变化也是一条向下弯曲的曲线。由于语速较慢的缘故,每一个字的读音彼此都拉得很开,所以字调的调形保留了其单字的调形,多字调的效果弱化。但由于在悲的语句中几乎每个字都夹杂了一定程度的鼻音,所以要进行鼻音化的处理,使悲的

6、语句的调阈降低,整个语句趋于平坦化。恐惧情感在语速、基音、基音范围上同高兴情感、生气情感的语句相类似,不同的地方仅在于语句的清晰度较其它情感精确。在实际的识别过程中目前还没有找到识别该种情感的有效特征参数。厌恶情感由于和生气情感具有较高的相似性,在很多研究文献中被归入生气情感中进行研究,大部分的特征参数和生气情感类似。同生气时的主要区别在于基音的变化率比较宽,并在语句末端有向下倾斜的趋势。在汉语语音情感信息处理的研究方面,作为基础研究,其超音段特征的研究将占较大比例。对于喜、怒、惊、悲四种情感,汉语语音信号的时间构造、振幅构造、基频构造和共振峰构造等特征

7、的构造特点和分布规律,可以分析如下。时间构造的分析:分析情感语音的时间构造主要着眼于不同情感语音的发话时间构造的差别。我们可以计算出每一情感语句从开始到结束的持续时间,这一时间包括句中的无声部分,因为无声部分本身对情感是有贡献的。然后就情感语句的发话持续时间长度(以下简称为T)以及平均发话速率(音节/秒)和情感的关系进行了分析和比较。从图12-2可以看出,在发话的持续时间上,愤怒、惊奇的发音长度和平静发音相比压缩了,而欢快、悲伤的发音长度却伸长了。在被压缩的愤怒、惊奇中,愤怒的发音最短,其次是惊奇。欢快和悲伤相比,悲伤伸长很多,而欢快只是稍稍伸长。通过进

8、一步的观察可知,这些现象的产生是由于和平静语音相比,在情感语音中一些音素被模糊地

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。