【百度刘洋】智能语音:从 DNN 到 LSTM.pdf

【百度刘洋】智能语音:从 DNN 到 LSTM.pdf

ID:48025299

大小:5.41 MB

页数:18页

时间:2020-01-27

【百度刘洋】智能语音:从 DNN 到 LSTM.pdf_第1页
【百度刘洋】智能语音:从 DNN 到 LSTM.pdf_第2页
【百度刘洋】智能语音:从 DNN 到 LSTM.pdf_第3页
【百度刘洋】智能语音:从 DNN 到 LSTM.pdf_第4页
【百度刘洋】智能语音:从 DNN 到 LSTM.pdf_第5页
资源描述:

《【百度刘洋】智能语音:从 DNN 到 LSTM.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、智能语音技术刘洋百度语音技术部CONTENTS·语音技术1/语音识别2/语音交互3/语音合成4/声纹验证5/音频内容检索·语音开放1/开放能力2/行业解决方案3/开放未来语音识别-语音识别精度不断提升100%v95%vLSTM模型90%区分度模型基于mel-bank的85%子带CNN模型vDNN模型80%2012年1月2013年1月2014年1月2015年1月语音识别-LSTM声学模型网络输出网络输出输出门长短时记忆网络模型LSTM,long-shorttermmemory·算法优势遗忘门

2、记忆单元1.长时间的轨迹记忆和瞬态记忆的统一2.模拟人脑选择性遗忘3.更精准的轨迹建模输入门网络输入·技术创新网络输入1.混合多层结构传统模型单元长短时记忆单元2.解决海量数据训练的效率和稳定性问题语音识别-语音识别精度不断提升卷积层十层全连接层LSTM层描述说话人频谱偏移带来的变化提取抽象高层信息描述时间序列变化信息错误率降低10%语音识别-声学并行训练平台近百台GPU机器,每台4块GPUK40卡,加速10倍,模型取平均与异步SGD结合,双层异步SGD。busywaitserverIdListbusyCheck

3、IfGPUSvrIsWaitbusy树形拓扑结构取平均星型拓扑结构异步SGD语音识别-声学模型自适应个体声音积累若干句话·用户个人帐号云1.用户历史行为及其特征用户ID信息个性化声2.用户个体声学模型音模型数据筛选不存在个存在个性性化模型化模型业界首家深度学习自适应技术声学深通用声学模型个性化模型个性化信度学习错误率下降10~15%息挖掘自适应用的越多精度越高通用语音搜索个性语言搜索语音识别-海量语言模型快速更新百度历史百度时效所搜日志所搜日志·T级文本快速并行训练·百G规模语言模型并行语言模型训练平台

4、·模型融合兼顾覆盖度和实效性历史模型时效模型·语言模型更新频率1/历史模型每天滚动更新模型融合2/时效模型小时级滚动更新最终模型语音交互-车载语音交互车载环境的问题车载抗噪·双手被占用<->handfree语音唤醒·语音端点检测:车载噪音下起点终点的正确率均达到97%。·车载噪音大<->车载抗噪·抗噪识别:车载噪音下识别精度达到92%·网络不稳定<->离在线方案Handfree语音唤醒离在线方案·关窗95%,开窗90%,背景音乐92%·行车中网络抖动时可以顺畅识别语音交互-多轮语音交互·智能语音检测,区分静音与语音

5、·动态定制语音识别器·识别器引入拒识·精准语义识别·易于推广的技术框架语音合成-深度学习在语音合成中的技术创新·LSTM应用于韵律预测,精度94%HTS·LSTM应用于声学建模,更好地捕捉共振峰信息LSTM双向LSTM的网络结构语谱图语音合成-面向大数据与个性化的语音合成技术大数据基于海量粗标音频数据的自动语音合成建库大数据明星音大数据+个性化个性化特定领域音库每个人都是播音员领域定制个性化体验优化利用自适应技术扩展领域音库的应用范围文本分析声学模型韵律预测语音生成声纹验证-声纹验证解决方案·基于随机数字串声纹

6、验证注册登录·保密数字专利技术,等错误率从1%降至1‰·系统自动更新迭代,提高安全性数字串语音识别mola音频内容检索·核心技术1.抗通道压缩及编码处理的特征提取技术2.海量数据实时检索的索引结构…00F1F2…Fn00…·产品应用1.音乐录歌识曲2.电视视频节目检索3.云盘暴恐音频检测pˆi4.云盘版权保护开放能力–语音开放平台能力(识别、合成)语音识别语音合成同时开放在线和本地识别能力,不同网络环NLP离在线自动切换,满足不同场景需要,主观境,无缝对接支持主流OS以及restfulAPI。评测MOS打分业界领先。

7、多语义解析方案永久免费全网路体验免离在线语音识别方案自定义离在线语音合成方案支持热词搜索、语音输入、LBS、多语言多音色选择视频、音乐等12种场景支持语法语言模型自定义合成效果流畅自然行业解决方案–为不同行业的企业和个人用户提供优质的语音服务为智能手机提供语音拍照,驾驶助手,语音助手等功能。为智能手表提供语音输入和语音搜索功能。SmartSmartPhoneWatch提供领先的车载解决方案,优化车机设备的抗噪性能。IOT探索,万物互联VehicleSmartDevice开放未来声纹识别个性化TTS音频检索1.可

8、以选择集成

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。