基于深度学习的韵律结构预测 - 人机语音交互课题组

基于深度学习的韵律结构预测 - 人机语音交互课题组

ID:8268415

大小:483.73 KB

页数:5页

时间:2018-03-15

基于深度学习的韵律结构预测 - 人机语音交互课题组_第1页
基于深度学习的韵律结构预测 - 人机语音交互课题组_第2页
基于深度学习的韵律结构预测 - 人机语音交互课题组_第3页
基于深度学习的韵律结构预测 - 人机语音交互课题组_第4页
基于深度学习的韵律结构预测 - 人机语音交互课题组_第5页
资源描述:

《基于深度学习的韵律结构预测 - 人机语音交互课题组》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、NCMMSC2015中国天津2015年10月基于深度学习的韵律结构预测1121丁星光,李雅,赖玮,陶建华(1.中国科学院自动化研究所模式识别国家重点实验室,北京,1001902.北京师范大学文学院,普通话水平培训测试研究中心,北京100875)文摘:韵律层级的预测是影响合成语音自然度的关键因素之一。本文提出了一种基于递归神经网络(RecurrentneuralNetwork,RNN)的韵律层级预测模型并加入了词向量(word2vec)作为语义特征。实验表明,基于该算法的F-score较传统的机器学习方法有一定的提升,同时词向量特征可以较好的适应递归神经网络模型。还将深度学习的结果和传统模型进行

2、了融合,在此基础上提出了基于概率网络搜索的韵律层级多样性模型,在多人标注的语料中进行检验。检验结果表明,该方法可以较好的描述韵律层级的多样性。最后结合各种模型的结果,对特征进行了分析排序。关键词:韵律层级;词向量;深度学习;递归神经网络;韵律多样性中图分类号:TN912.33韵律,也称为节律、上加成素、非线性特征习模型将韵律边界预测转化为一个分类问题,根等。虽然语言学家使用的名称不同,分析的方法据词法等信息作为特征。针对韵律短语的预测,[1]也不同,但实际指的是同一概念。韵律结构分条件随机场、最大熵模型通常都有70%以上的[2]析是语音合成系统的重要组成部分。准确的预测f-score分值。文本

3、的韵律边界位置以及其等级,是语音合成中不同的韵律预测的研究针对的语言、使用的的重要环节,它是合成自然、流畅的输出语音的语料和对节奏层级的定义都有所不同,对结果采重要前提和保证。取的评价方法也不一致,故不能直接比较各模型一般认为韵律结构有三个层级,从小到大依方法的优劣。只有在相同训练集和测试集的前提次是韵律词、韵律短语和语调短语。以“致以诚下,并采取一致的评价标准,才能较为客观的比挚的问候和良好的祝愿”为例,结构如下所示。较各种方法的优劣。其中PW、PP、IP、S分别表示韵律词、韵律短本文按照3:1:1的比例将语料分为训练集、语、语调短语和句子。交叉验证、测试集三个部分。采用F-score来评价

4、模型的准确性。1语料库以及特征选取1.1语料库的设计本文使用的语料库1包括20000句,总计400000多个音节,均进行了三个层级的韵律边界标注。图1“致以诚挚的问候和良好的祝愿”的韵律结构本文使用的语料库2有28000句,其中每一早期的韵律预测方法大多是基于规则的方句仅有一级短语边界的划分,这个停顿是介于语法,其思路是从语言学、句法分析入手总结出经调短语和韵律短语之间的。共包括500000多个音验知识,并将其整理成规则,以映射韵律层级的节。该语料库主要用于对特征重要性的排序研究。生成。基于规则的方法的优点是简单,而且得到本文使用的语料库3有1000句,每一句有8的模型较为直观。而仅仅基于规则

5、的方法也有很个人进行了韵律短语、语调短语边界的划分。这多局限性,随着统计机器学习的发展,越来越多部分语料用于检验本文的多样性结论。的学者开始转向基于统计方法的韵律预测。1.2特征选择一些统计机器学习方法在韵律预测中得到了特征的选取对韵律结构的预测非常重要。本文广泛的应用,比如决策树模型、隐马尔科夫模型、基于文本特征来预测韵律词、韵律短语和语调短最大熵模型、条件随机场模型等等。这些机器学语。特征包括:1)NSYL_i,i=sentence,initial,final:整个句子的音节数,当术,将当前样本集分为两个子样本集,使得生成前词到句首的音节数,当前词到句末的音节数;的每个叶子节点都有两个分支

6、。其基本思想为将2)Nword_sentence:整个句子的语法词数;训练样本进行递归地划分自变量空间进行建树,3)word2veci,i=-2,-1,0,1,2,3:当前词、前二词、前一并用验证数据进行剪枝。词、后一词、后二词、后三词的词向量;为了更好的拟合残差,本文还使用梯度渐进4)POSi,i=-2,-1,0,1,2,3:当前词、前二词、前一词、回归树方法(GradientBoostingRegressionTree),后一词、后二词、后三词的词性;GBRT比较重要的超参数有最大叶子节点数、学5)li,i=-2,-1,0,1,2,3:当前词、前二词、前一词、后习速率、森林个数以及正负样本

7、比例。一词、后二词、后三词的词长。梯度渐进回归树方法的思想是每一颗树学[3][4]同时还考虑了句法信息,句法分析指的习的是之前所有树结果的和的残差。是对句子中的词语语法功能进行分析。其主要的这里的Boost指的并不是重采样的迭代,也应用通常在中文信息处理中。它是语块分析思想不是Adaboost,而是对目标样本的迭代。和传统的一个直接体现。的Adaboost的区别在于每一次的计算是为了减以“为了使学

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。