一种快速嘴部检测方法在视听语音识别的应用

一种快速嘴部检测方法在视听语音识别的应用

ID:5333421

大小:333.82 KB

页数:4页

时间:2017-12-08

一种快速嘴部检测方法在视听语音识别的应用_第1页
一种快速嘴部检测方法在视听语音识别的应用_第2页
一种快速嘴部检测方法在视听语音识别的应用_第3页
一种快速嘴部检测方法在视听语音识别的应用_第4页
资源描述:

《一种快速嘴部检测方法在视听语音识别的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、维普资讯http://www.cqvip.com第18卷第期计算机技术与发展2008年.10月Vo1.18No.10COMPUTERTECHN0LDGYANDDEVEIoPM匮NTOct.2008一种快速嘴部检测方法在视听语音识别的应用刘家涛,陈一民(上海大学计算机科学与工程学院,上海200072)摘要:在改进噪音环境下的语音识别率中,来自于说话人嘴部的可视化语音信息有着显著的作用。介绍了在视听语音识别(搬)中的重要组成部分之一:可视化信息的前端设计;描述了一种用于快速处理图像并能达到较高识别率的人脸嘴部检测的机器学习方法,此方法引入了旋转Har

2、t—like特征在积分图像中的应用,在基于AdaB0。st学习算法上通过使用单值分类作为基础特征分类器,以级联的方式合并强分类器,最后划分检测区域用于嘴部定位。将上述方法应用于AVSR系统中,基本上达到了对人脸嘴部实时准确的检测效果。关键词:模态;视听语音识别;Harr—like特征;重要区域;积分图像;区域划分中图分类号:TP391.41文献标识码:A文章编号:1673—629x(2008)1o一0016—04FastMouthDetectionApproachAppliedinAudio。l’VisualSpeechRecognitionLI

3、UJia.tao.CHENYi—rain(Sch.ofComputerSci.&Eng.,ShanghaiUniv.ofScienceandTech.,Shanghai200072,China)Abstract:Thevisualinformationcomesfromspeaker’Smouthhadprovedveryusefulinimprovingspeechrecognition,especiallyinnoiseenvironment.Inthispaper,firstintroducedoneofthemaincomponentsi

4、naudio—visualspeechremgmtionsystem:visualfrontendde.signthenprovedamachinelearningmethodformouthregiondetectionwhichcouldrapidlyprocessimagewithhighdetectionrates.ThisapproachincludestheintroductionofrotatedHart—likefeatureinintegralimage.a1earningalgorithmbasedonAdaboostwith

5、signvaluetreesasbaseclassifiers,combinationofcomplexel~ifiersincascadeandregionalizationofthefacearea.Attheend.appliedthisschemeinAVSRsystemyieldhighdetectionrateswhichmayreachesbasicallyrealtimerequirement.Keywords:modality;audio—visualspeechrecognition;Harr—likefeature;regi

6、onofinterest;integralimage;regionalizationO引言单音节,如浊辅音/Io/,/d/在普通交流中正常人根本无近年来,语音识别技术的迅速发展,使得自动语音法分辨,而一些聋哑人却可以通过眼部交流正确无误识别系统有了广泛的应用。较好的有IBM开发的Vi—的理解说话人。这些行为都说明了人脸的视觉信息无avoice语音系统,微软的语音识别引擎。这些系统在论是在有听力障碍还是正常人之间的交流中都起着重相对安静的环境下能够对连续的单词及词组达到较高要的感知作用。的识别率。然而,将其应用到有背景噪声或交互的说话者中的真实环境

7、中,其较差的抗干扰能力,使其根本1视听语音识别系统介绍无法满足广泛应用的要求L1J。事实上,在真实的嘈杂通过挖掘说话人的嘴部视觉信息来改善自动语音环境中,人们对语言的感知是双模态的,它很自然地包识别系统的识别率,称之为视听语音识别系统含了语音及视觉信息。例如:人们在观看视频时,当听(AVSR)。在嘈杂环境下,添加了视觉特征的识别系到说话人的声音为/ga/,而看到其嘴部的发声动作为/统在性能上比传统的单语音识别系统性能要出色得ba/时,大多数人会感觉对方的声音是/da/。对于一些多。同时,视听语音识别技术带来了相对于传统单语音识别技术下更多的研究方

8、向与挑战。在AVSR系收稿日期:20o8—01一l6统中,除了通常的语音特征提取阶段,来自说话人脸部基金项目:上海市科技基金资助项目(7

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。