欢迎来到天天文库
浏览记录
ID:36598495
大小:8.92 MB
页数:129页
时间:2019-05-12
《基于加权有限状态转换机的语音识别系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:中国科学院大学UniversityofChineseAcademyofSciences博士学位论文2013年5月ByYuhongGuoADissertationSubmittedtoTheUniversityofChineseAcademyofSciencesInpartialfulfillmentoftherequirementForthedegreeofDoctorofSignalandInformationProcessingInstituteofAcoustics,ChineseAcademyofScien
2、cesMay,2013中国科学院声学研究所学位论文原创性声明和使用授权说明原创性声明本人郑重声明:本论文的所有工作,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文使用授权说明论文作者签名:弯p穿罗厶日期:幻f;年t月≯Z日本人完全了解中国科学院研究生院关于收集、保存、使用学位论文的规定,·按照中国科学院研究生院要求提交学位论文的印刷
3、本和电子版本;·中国科学院研究生院与中国科学院声学研究所有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务;·中国科学院研究生院与中国科学院声学研究所可以采用影印、缩印、数字化或其它复制手段保存论文;(保密论文在解密后遵守此规定)论文作者签名:考I俦;厶导师签名:日期:沁f;年户月力3日摘要随着自动语音识别技术突飞猛进的发展,基于语音识别技术的产品得到大量商业应用。虽说语音识别技术的广泛使用已经让其深入人心,但是语音识别的性能仍然不能令人满意。作为语音识别的核心,解码器的性能直接关系着语音识别的用户体验。如何提高
4、解码器的识别性能和速度一直是该研究领域的一个重要挑战。随着计算机硬件和软件技术的发展,使得基于加权有限状态转换机(WFST)的静态网络解码器可以用于实际系统中。然而,当前WFST的解码网络构建流程还不够优化,构建过程的内存和时间消耗非常大,导致其网络更新速度不够快。另一方面,当前WFST解码器的速度还有待针对WFST的特点进一步提高,同时WFST解码器的词图生成问题也需要解决。本文的研究目标是优化WFST解码网络的构建流程,并深入优化WFST解码器的效率和词图生成算法,目的是让基于WFST的解码器更加实用。论文的主要内容
5、和创新点如下:1.针对WFST的网络构建的研究,首先对构建的一些技巧通过实验进行了验证,例如,对参与合成的两个WFST的边进行匹配排序可以让合成操作的时间减少10倍。接着研究了含有空符号的边的处理操作,提出在构建流程中把输入s标准化放在最小化操作之后,此方法可以让网络构建的内存消耗减少一半以上,同时网络的大小也缩小了约10%。最后对于非语音的声学模型的WFST表示进行了研究,提出一种词尾并列的方式进行构建,此方法相对于已有的多次词尾插入的方案,网络大小缩小了约25%。2.在解码器方面,针对WFST解码网络的特点提出三项剪
6、枝技术:对语言模型回退进行有效控制的空边剪枝、用于预估未来得分的岔剪枝和控制令牌复制的令牌复制剪枝,提出的剪枝技术大幅度提升了解码器性能。在等字错误率的情况下,相对于开源的Juicer解码器在语言模型较弱的CTS任务集上快7_8倍,而在语言模型较强的语音输入法和语音搜索任务集上速度也快3倍左右。然后研究了WFST多线解码的相关问题,提出对解码线程进行CPU绑定的方案。相对于非绑定的情况,绑定CPU的方案能让WFST的多线解码速度提升40—50%。基于加权有限状态转换机的语音识别系统研究3.针对以往的WFST词图算法不含精
7、确词尾时间点且格式不统一的问题,提出了一种在WFST框架下的能产生含有精确词尾时间点的词图的生成算法。首先从理论上分析了WFST解码过程中记录的音素图和标准词图的可转换关系,然后提出了基于令牌传递遍历和动态词匹配确定词边界的词图生成算法。从实验结果上看,本文的词图生成算法具有较快的速度,且在LVCSR重打分上具有很好的表现。在关键词检索应用中也有更好的召回表现。4.在把WFST解码器应用到关键词检索应用中时发现WFST解码器生成的词图的后验不够准确,首先从理论和实验上验证了只要在生成词图的过程中把空边的得分加入到前一个词
8、的得分中就可以保证语言模型得分准确:然后发现词图的冗余边是导致词图后验不准的主要原因。对WFST的词图提出的冗余合并的算法,能让词图的多余边合并,让词图规模缩d,N原来的一半以下。通过实验和已有的动态网络解码器的关键词检索系统进行性能对比,在等错率接近的情况下,基于WFST解码器的关键词检索系统的最大召回要比基于动态
此文档下载收益归作者所有