深度学习在语音中的应用课件.pptx

深度学习在语音中的应用课件.pptx

ID:57372915

大小:4.72 MB

页数:25页

时间:2020-08-13

深度学习在语音中的应用课件.pptx_第1页
深度学习在语音中的应用课件.pptx_第2页
深度学习在语音中的应用课件.pptx_第3页
深度学习在语音中的应用课件.pptx_第4页
深度学习在语音中的应用课件.pptx_第5页
资源描述:

《深度学习在语音中的应用课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、高级大数据人才培养丛书之一,大数据挖掘技术与应用刘鹏主编赵海峰副主编BIGDATA刘鹏张燕总主编深度学习第八章 深度学习在语音中的应用8.1语音识别基础8.2基于深度学习的连续语音识别8.3应用举例:语音输入法全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用of282习题8.1语音识别基础第八章深度学习在语音中的应用of2831摩尔定律持续有效。有了多核处理器、通用计算图形处理器(GeneralPurposeGraphicalProcessingUnit,GPGPU)、CPU/GPU集群等技术,这使得训练更加强大

2、而复杂的模型变得可能。2借助越来越先进的互联网和云计算,我们得到了比先前多得多的数据资源。使用从真实场景收集的大数据进行模型训练,提高了系统的可应用性。3移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越游行。在这些设备和系统上,语音作为人类之间最自然交流方式,在这些设备和系统上成为更受欢迎的交互方式。语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作“。50多年来,该技术渐渐开始改变我们的生活和工作方式,这种趋势的出现和下面几个关键领域的进步是分不开的。1.从实验室环境到实际应用场景语音识

3、别系统可以用来消除人类之间的障碍。人们如果想要与不同语言的使用者进行交流,需要另一个人作为翻译才行。S2S翻译系统可以用来消除这种交流壁垒。同时还可以整合到像Skype这样的一些交流工具中。下图列举了一个典型的S2S翻译系统的心组成模块,可以看到,语音识别是整个流水线中的第一环。第八章深度学习在语音中的应用of2848.1语音识别基础-人类之间的交流语音与语音(Speech-to-Speech,S2S)翻译系统除止之外,语音识别技术还有其他形式用来帮助人类交流。1、消息发送者的语音信息可以通过语音转写子系统转换为文本信息。2、

4、利用语音识别技术进行输入可以更便捷。提高用户使用友好性。第八章深度学习在语音中的应用of2851.1语音识别基础—人机交流人机交流智能家居智能游戏语音搜索个人数码助理(PDA)智能家居系统允许用户使用语音与之交互,用户通过它们来播放音乐、询问信息或者控制系统。在融合语音识别技术后,游戏的体验将得到很大的提升。例如,在一些微软Xbox的游戏中,玩家可以和卡通角色对话以询问信息或者发出指令。用户可以直接通过语音来搜索餐馆、行驶路线和商品评价的信息。目前,语音搜索类应用在iPhone、Android手机上已经非常流行。PDA知晓移动

5、设备上的信息,了解一些常识,并记录了用户与系统的交互历史。有了这些信息,PDA可以更好地服务用户。比如,可以完成拨打电话、安排会议、回答问题和音乐搜索等工作。第八章深度学习在语音中的应用of2868.1语音识别基础—基本结构以上是语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信息处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。第八章深度学习在语音中的应用of2878.1语音识别基础—特征提取特征提取梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)感

6、知线性预测系数(PerceptualLinearPrediction,PLP)保留Mel滤波器输出各维度之间相关性的滤波器组特征(FilterBankFeature)原始模拟信号首先经录入器件转化为数字信号,声学特征提取部分负责从数字化后的语音中提取声学特征信息。为保证识别准确率,该特征应该对声学模型的建模单元具有较好的区分性。同时,为了能够高效的计算声学模型参数和进行解码识别,声学特征需要在尽量保留语音中文本信息的前提下,抑制诸如说话人、信道、环境噪声等干扰信息,并且维持一个适中的维度。提取良好的具有区分性的声学特征对提升语

7、音识别系统的性能至关重要。第八章深度学习在语音中的应用of2888.1语音识别基础—声学模型声学模型高斯混合模型-隐马尔可夫模型(GMM-HMM)最大似然准则(MaximumLikelihood,ML)最小分类错误(MCE)和最小音素错误(MPE)上下文相关的深度神经网络—隐马尔可夫模型(CD-DNN-HMM)关于声学模型,有两个主要问题,分别是特征向量序列的可变长和音频信号的丰富变化性。可变化特征向量序列的问题在学术上通常由动态时间规整方法和隐马尔可夫模型(HMM)方法来解决。音频信息的易变性是由说话人的各种复杂的特征(如性

8、别、健康状况或紧张程度)交织,或是说话风格与速度、环境噪声、周围人声、信道扭曲(如麦克风音的差异)、方言差异、非母语口音引起的。一个成功的语音识别系统必须能够应付所有这类声音的变化因素。第八章深度学习在语音中的应用of2898.1语音识别基础—语言模型语言模型语音识别系统的目

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。