基于短时和长时特征的语音情感识别研究

ID：16190980

大小：234.00 KB

页数：5页

时间：2018-08-08

资源描述：

《基于短时和长时特征的语音情感识别研究》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、基于短时和长时特征的语音情感识别研究1．1基于短时特征的情感识别1．1．1特征提取许多研究者认为，语音的韵律特征是说话者情感状态的一个重要指示。一些对情感语音的研究表明．基音频率、能量和共振峰频率是区分某些情感的有效特征。本文共研究了五组语音短时特征，包括基音频率(Fo)、短时能量、前三个共振峰频率(到)、两个Mel频率倒谱系数(MFCC)和五个Mel频率子带能量(到)以及它们的一阶和二阶导数。短时分析的窗长为20ms，帧移10ms，窗函数为汉明窗。基频提取使用短时自相关方法，并通过一个3阶的中值滤波器与内插得到平滑的基频包络。此

2、外，为了避免不同性别的人基频差别太大，对每人的基频都进行了去均值处理。共振峰频率的估计使用文献[5]中提出的方法。为了提取子带能量，通过快速傅立叶变换(FVT)方法估计每帧的短时谱，并将短时谱通过五个在Mel尺度上均匀分布且频率范围在[6OHz一760OHz]内的滤波器。计算每个滤波器的对数平均能量。便得到五个子带能量参数MBEl到MBE5。试验表明，使用上述所有特征用于情感识别时存在冗余信息，并不能达到最好的识别效果。冈此必须选择一个最优子集作为特征矢量。通过文献[6]所述的特征选择方法，最后确定所用的每一帧短时特征(STF)矢

3、量为：其中f表示第f帧，五个特征分别为：的二阶导数，的一阶导数，的二阶导数，的二阶导数及的一阶导数。这一特征矢量充分地利用了语音中基频轮廓的变化及其极值分布规律。高频率子带能量特性以及第一共振峰的变化特征。为了避免由于不同语言、不同人的区别以及录音音量的差别所引起的某些数值太大或者太小的情况，所有的参数通过线性缩放，将其范围限制在[0，100]。1．2基于长时特征的情感识别1．2.1特征提取除了上述参数外，频谱的动态特性也是语音情感的一个重要指示。本文从语音在频率尺度上的动态特性出发研究情感的识别，提出了一个称为美尔能谱动态系数(

4、MESDC)的特征矢量。MESDC的计算过程如图所示：首先通过快速傅立叶变换(FFT)方法估计每一情感短句的长时谱．再令其通过N个均匀分布在Mel频率尺度上的滤波器。计算每一个滤波器输出的对数平均能量(En(i)，i=1，⋯，N）。之后求En(i)的一阶及二阶差分。后联立得到MESDC的特征矢量：这里N设为12.在输入到分类器之前矢量中的每一参数都要经过了一次线性归一化处理。长时语音特征在说话人识别技术上的应用1长时时频特征的提取与处理技术1．1特征提取算法本方法框架上采用Kenny提出的架构，把连续有基频值的浊音段提取出来，在每

5、一个段内，通过能量曲线的谷点，切分出类似音字(phoneme)的单元，然后，在每一个单元内部，把基频曲线，时域能量曲线，分别利用6阶多项式拟合得到6维的参数，与单元的长度一起构成13维的特征．因此，每一个单元提取出一帧特征，这种时频特征的帧数大大减少。但是由于描述的是长时的信息，可以描述帧与帧之间的联系，而短时的MFCC系数差分特征恰恰描述不了这种长时的变化趋势，因此这种长时时频特征的系统与基于MFCC的系统融合在一起会进一步提高整体系统的性能．本方法的不同之处在于，不仅仅拟合基频和时域能量曲线，还拟合了前4个共振峰曲线和前10个

6、谐波能量的曲线。因为，我们认为，每个人的共振峰频率长时变化趋势也可以在一定程度上反应说话人的信息，而且每个谐波能量的曲线变化信息不仅仅反应了被共振峰调制的谐波能量变化趋势，也反应了共振峰的强弱，这恰恰弥补了共振峰频率不能提供的幅度信息。在实验中，我们融合谐波能量曲线特征和共振峰频率曲线特征在一起来提高系统的性能。基于长时性特征的音位属性检测方法许友亮张连海屈丹牛铜基于层级TDNN的特征提取系统由2层TDNN构成，低层的TDNN对短时特征进行分类，其输入特征为帧MFCC参数，输出为音素后验概率；高层TDNN以低层TDNN输出为观测特

7、征，考虑更长时段内的信息，其输入特征为2+1帧，时长通常可达到200ms甚至更长，使得高层MLP能够获得音素、字词或词间的信息。另外，由于低层TDNN的输出为0-1之间的概率值，为了使该分布高斯化和离散化，需对其进行非线性变换，包括log运算或PCA降维等。由于高层TDNN的输入考虑到了长时段内的信息，使得MLP在训练过程中“学到”了语音信号间的相关性；由于高层MLP考虑的信息更长，在某种意义上起着“平滑”的作用，相对于低层TDNN的检测结果，高层MLP输出的插入错误明显减少。时间延迟神经网络（TDNN）TDNN的最大特点是在ML

8、P的隐含层引入了时间延迟因子Dj，即当前时刻的输入经过若干时刻的延迟后，对后续的判决产生影响，从而将更长时段的信息引入该分类器中，使模型“学到”长时段内的信息。如图1所示，其中，为输入节点，为隐含层权重。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于短时和长时特征的语音情感识别研究

基于短时和长时特征的语音情感识别研究

相关文章

相关标签