高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx

高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx

ID:60858756

大小:544.82 KB

页数:48页

时间:2020-12-24

高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx_第1页
高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx_第2页
高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx_第3页
高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx_第4页
高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx_第5页
资源描述:

《高级第7章深度学习基础算法建模(75语音与深度学习)ppt课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第7章深度学习基础算法建模深度学习概述常见深度学习算法计算机视觉与深度学习自然语言处理与深度学习语音与深度学习语音与深度学习近年来,深度学习技术正在以爆发式的速度蓬勃发展,使得语音识别和语音合成的正确率在以往传统系统的基础上有较大幅度上升。随着并行计算基础设施的发展和移动互联网大数据的产生,深度学习技术的影响进一步交叠扩大,目前已经成为业界前沿技术。语音识别语音识别系统通常由声学特征提取及处理、声学模型、语言模型和解码器等几个模块构成。从原始语音数据中提取得到的声学特征经过统计训练得到声学模型。然后以该声学模型作为识别基元的模板,结合语言模型,经过解码器处理输出

2、相应的识别结果。语音识别——语音特征提取声学特征声学特征是描述声学信号特性的重要参数,只有提取到能描述信号本质的信息才可能将这些信息应用于高效的模式识别处理,如分类、回归等。就语音识别而言,由于不同人之间存在性别、年龄和发音习惯等方面差异,同时生理和心理情况等也随时间不断变化,导致人们尽管在表达相同内容时,产生的语音信号始终会存在或多或少的差别。如何将声学特征中与说话人相关的个性部分尽可能过滤掉,同时尽量保留表达相同内容的共性,这对于语音识别性能的提升至关紧要。语音识别——语音特征提取声学特征的提取既是对原始波形信号进行压缩的过程,同时也是对信号进行解卷积的过程

3、。由于语音信号是短时平稳信号在较短时间内(普遍认为10~30ms范围内)其信号特性能够保持相对稳定,故对语音信号的特征提取必须建立是在短时分析的基础上。传统语音特征提取语音识别中传统语音特征提取方法包括:线性预测系数LPC、倒谱系数CEP、梅尔频率倒谱系数MFCC和感知线性预测系数PLP等。语音识别——语音特征提取线性预测从人的发声机制出发考虑,以声道短管级联模型为基础,假定时刻的信号可以通过之前若干时刻信号的线性组合来表征。当实际说话者语音的采样值和线性预测估计值之间的均方误差达到最小值时,即可提取得到线性预测系数。倒谱系数基于同态处理方法,能够通过先求语音信

4、号的离散傅里叶变换(DiscreteFourierTransform,DFT)后,再对离散频谱取倒数,最后求反傅里叶变换(InverseDiscreteFourierTransform,IDFT)得到倒谱系数。这种求倒谱系数的方法能够提取到相对稳定的特征参数。语音识别——语音特征提取不同于线性预测系数和倒谱系数,梅尔倒谱系数和感知线性预测系数在一定程度上参考了人耳感知音频信号的机理,在频域进行解卷积而得到的声学特征。梅尔频率倒谱系数MFCC提取MFCC特征,需要首先采用将信号从时域映射到频域上,而后再用一组在Mel频域刻度均匀分布的三角滤波器对其对数能量谱进行卷

5、积,最后用离散余弦变换的方法对滤波器组的输出进行处理,保留前面若干个系数,才能得到特征。感知线性预测系数PLPPLP只需要Duibin法计算得到相应的参数后,再在计算自相关系数时通过对数能量谱的离散余弦变换就能得到特征。语音识别——语音特征提取基于深度学习的自动编码器的语音特征提取深度自动编码器是一种特殊类型的深度神经网络,网络的输入层和输出层有相同的维度,它所期望得到的输出维度即为网络原始输入维度。由于固定了模型的输入和输出,深度自动编码器提供了从原始数据分布空间映射到自身特征空间的可逆转换,深度自动编码器本质上可以看作是对信号的分解重构。语音识别——语音特征

6、提取深度自动编码器不仅可以学习到高效的编码方法,还可以提取原数据在隐含层的表示形式,即特征提取。它不需要预先知道训练样本的类别信息,以原始输入作为校验,是一种无监督特征学习方法从而实现对海量未标注数据的处理。典型的自动编码器包含一个输入层(与原始数据相对应)、一个或多个隐含层(完成特征转换)和一个输出层。特别地,当中间隐含层多于一层时,即可称为深度自动编码器。当用于特征压缩时,隐含层的节点数比输入层少。当需要把特征映射到高维空间时,则隐含层节点数多于输入层节点数。语音识别——语音特征提取目前主要的基于深度学习理论的编码器深度自动编码器(DeepAuto-enco

7、der,DAE)去噪自动编码器(DenoisingAuto-encoder,DAE)稀疏自动编码器(SparseAuto-enoder,SAE)……语音识别——语音特征提取常见深度学习自编码器算法类别简介深度自动编码器深度自动编码器是以原始数据作为网络输入,通过若干个隐含层的编码得到中间层特征表示,再通过对若干个隐含层的解码得到在输出层实现对原始输入的重构。实现了以最小化原始输入和重构输入之间的均方误差为目标函数,从而进行参数调整去噪自动编码器去噪自动编码器主要通过在原始数据进入网络前,叠加随机噪声作为实际训练数据(可以在输入层节点叠加随机噪声或者以一定概率使输

8、入层的某些节点取值为0)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。