语音识别发展现状与展望

语音识别发展现状与展望

ID:5282111

大小:1.30 MB

页数:45页

时间:2017-12-07

语音识别发展现状与展望_第1页
语音识别发展现状与展望_第2页
语音识别发展现状与展望_第3页
语音识别发展现状与展望_第4页
语音识别发展现状与展望_第5页
资源描述:

《语音识别发展现状与展望》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议语音识别发展现状与展望中科院自动化研究所徐波2011年12月4日报告提纲•语音识别技术现状及态势•语音识别技术的行业应用•语音识别技术研究方向•结论与展望2010年始语音识别重新成为产业热点•移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向–Android系统内嵌语音识别技术,Google语音翻译等;–iPhone4S上的Siri软件;–百度、腾讯、盛大、华为等都进军语音识别领域;–我国语音技术

2、领军企业讯飞2010年推出语音云识别、讯飞口讯–已有的QQ2011版语音输入等等成熟度分析-技术成熟度曲线•美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:成熟度分析-新兴技术优先矩阵•Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;三十年语音识别技术发展---特征提取与知识方面•MFCC,PLP,CMS,RASTA,VTLN;•HLDA,f

3、MPE,neuralnet-basedfeatures•前端优化–融入更多特征信息(MLP、TrapNN、BottleNeckFeatures等)•特征很大特点有些是跟模型的训练算法相匹配•大规模FSN图表示,把各种知识源集中在一起–bigramvs.4-gram,withinworddependenciesvs.cross-word三十年语音识别技术发展---模型与算法•统计模型HMM–EM、MAP/MLLR自适应–MMIE、MPE、fMPE训练(2005)–boostedMMIE(bMMIE)训练(2008)–基于最

4、大边距(Largemargin)分类的区分度训练(2004-2008)•优化模型精度–声学上下文建模•Quinphone(五音子)、Septaphone(七音子)–方差建模(SPAM、EMLLT、全方差建模等)–SubspaceGMM(SGMM)建模(2009)•提出了更好的声学数据共享机制三十年语音识别技术发展---搜索•A*搜索•Viterbi搜索•多遍(Multi-pass)识别•多系统融合(ROVER)技术三十年语音识别技术发展---ASR开放源码工具•HTK为基础的声学模型建模技术–剑桥大学的HTK(v3.4.

5、1)•LM模型建模技术–从传统的SRI的SRILM(v1.5)–到能够处理更大规模语料的•微软的MSRLM(v0.1)•以及意大利IRST实验室的IRSTLM(v5.6)•FSN以及解码技术–MIT的LibFST(v1.4.0)–Google的OpenFST(v1.2.7)大词汇量连续语音识别技术发展概况---在电话、会议等复杂环境中目前英语识别率准确率在80%左右,离人类2%-4%的错误率还有很大距离Moore定理及应用服务驱动计算能力和方式的改变•云计算主要特征–低成本:一堆廉价的机器,但数量庞大;–虚拟化技术:使用

6、者感觉只面对一台机器;–并行计算结构:程序必须支持并行计算•云计算类型–公有云:对外提供计算和存储服务等,utility;–私有云:对外提供应用服务,但满足低成本、虚拟化以及并行化等特点;•云计算vs.集群:–虚拟化技术+并行计算;–在云之上的应用服务开发更加规范和形式化;语音模式识别的云服务优势•在用户层面上,云端向终端提供了革命性的计算和存储能力;•对于运营商而言,云服务运营还非常易于获得海量有标签的训练样本,从而帮助研究人员持续改进识别性能。•云语音更将挑战“发音习惯,用词习惯”等传统技术难以解决的技术难点,为用户

7、带来全新的,极简的沟通体验。传统语音识别研究关心的问题•语音识别特征,是否足够鲁棒?•语音识别模型,是否足够鲁棒并具有可区分性;•语言模型,是否具有足够的覆盖度以及可回退性?•语音识别搜索,是否能尽量较少搜索误差并提高搜索效率?•………云计算减少了语音识别计算约束•应用场景产生很大变化–移动互联网环境下的应用---语音、语言自适应和个性化模型变得非常关键;•语音识别(包括中文信息处理)技术新出发点:三个近乎Unlimited–计算量可以是unlimited---穷举式搜索;–存储量可以是unlimited---无损失存储

8、;–数据量可以使unlimited---海量用户数据;云计算环境下ASR研究目标•云计算环境下具有强大个性化用户自适应能力的识别计算架构–自适应算法(尤其是语言自适应)•云计算环境下大群体用户的智慧集成–超级语音数据中心和模型中心–需要Semi-supervised标注能力•核心是如何利用好云中心的数据并迅速转化为模

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。