一种基于粒子滤波的双模态语音提取方法

ID：5333414

大小：506.69 KB

页数：6页

时间：2017-12-08

资源描述：

《一种基于粒子滤波的双模态语音提取方法》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、第48卷第4期大连理工大学学报Vol.48,No.42008年7月JournalofDalianUniversityofTechnologyJuly2008电子与信息工程文章编号:100028608(2008)042596206一种基于粒子滤波的双模态语音提取方法3金乃高,殷福亮(大连理工大学电子与信息工程学院,辽宁大连116024)摘要:说话人的唇动信息有助于加强对语音的感知.根据说话人语音的双模态特性,将振动信息引入语音提取问题,提出了一种基于粒子滤波的贝叶斯融合架构的双模态语音提取方法.该方法融合说话人的语音和

2、唇动信息,根据信息论中的最大互信息准则与盲源分离中的高阶统计量准则,将音视频互信息与语音峭度的乘积作为代价函数,利用粒子滤波估计混合矩阵,解决时变瞬时混合情况下的语音提取问题.仿真结果表明,该方法在低信噪比情况下仍然能够实现语音信号的有效提取.关键词:语音提取;粒子滤波;高阶统计量;最大互信息中图分类号:TN911.7文献标志码:A0引言人的位置,进而引导麦克风阵列波束形成的指向,[5]以提取说话人语音.Sodoyer等利用说话人发基于麦克风阵列的语音信号提取是从多路混音过程中语音与唇动信息间的相关性,解决了盲合语音

3、中提取出一路感兴趣的源语音信号,其在源分离中存在的输出顺序不确定问题,同时也改复杂环境下的语音识别、高质量语音通信以及人[6]善了语音提取系统的抗噪能力.Rajaram等将机接口等领域具有广泛的应用前景.例如,在视频卡尔曼滤波应用于双模态语音分离问题,在低信会议中经常出现多人同时说话的情形,这便需要[7]噪比下取得了较好的分离效果.系统从混合语音中提取出指定说话人的语音信本文将音视频联合信号处理方法应用于说话号,经增强处理后再进行编码传输.现有的语音提[1]人运动情况下的语音提取问题,在语音提取过程取方法主要有波束形

4、成方法和盲信号提取方[2]中融入说话人的唇动信息,采用粒子滤波实现语法,分别根据声源的方向信息或语音源信号间音信号的有序提取,以提高低信噪比下语音提取的统计独立性进行语音提取.这两种语音提取方的质量.法都有一定的适用条件,研究如何提高实际环境中语音提取系统的性能是一项具有挑战性的工作.1粒子滤波在嘈杂的背景噪声或其他说话人干扰情况近年来,粒子滤波已经成为研究非线性、非高下,唇动等可视语音信息有助于增强听觉系统分[8]离及提取感兴趣语音信号的能力,这是大脑对视斯动态系统最优估计问题的有效方法.粒子滤听感知信息进行融合处

5、理的结果.双模态语音处波将贝叶斯理论与蒙特卡罗(MonteCarlo)方法理方法[3]融合说话人的音频与视频信息,利用二相结合,使用非参数化的序贯蒙特卡罗方法实现者之间的相关性来提高系统的性能,已成功应用递推贝叶斯滤波.贝叶斯滤波根据观测数据y1:k[4]递推估计系统状态x于复杂环境下的语音识别系统中.针对语音提k的后验概率密度p(x1:k

6、取问题的双模态处理方法研究也取得了一些成y1:k)与滤波概率密度p(xk

7、y1:k).果.Bub等利用摄像机获取的视频信息确定说话已知k-1时刻的滤波概率密度为p(xk-1

8、收稿

9、日期:2006210225;修回日期:2008205230.基金项目:国家自然科学基金资助项目(60372082,60172073).作者简介:金乃高3(19772),男,博士生;殷福亮(19622),男,教授,博士生导师.第4期金乃高等:一种基于粒子滤波的双模态语音提取方法597y1:k-1),根据Chapman2Kolmogorov积分方程进个说话人的交叉干扰,增加了语音提取系统的设行时间更新,则k时刻的预测概率密度计难度.摄像机获取的人脸视频图像,可为语音提取提供有用信息.双模态语音提取问题便是从多p(xk

10、y

11、1:k-1)=∫[p(xk

12、xk-1)·路混合语音中,提取出与指定说话人的唇动信息p(xk-1

13、y1:k-1)]dxk-1(1)相关的语音信号.本文研究时变瞬时混合情况下当获得最新测量值yk后,通过贝叶斯公式进的双模态语音提取问题.行量测更新,k时刻滤波概率密度设k为帧数,Sk=s1:n,k与Xk=x1:m,k分别为p(yk

14、xk)p(xk

15、y1:k-1)p(xk

16、y1:k)=(2)n路源信号向量与m路观测向量,ωk=ω1:m,k为观∫p(yk

17、xk)p(xk

18、y1:k-1)dxk测噪声,Hk为时变混合矩阵,则考虑观

19、测噪声的粒子滤波的核心思想是利用一系列随机样本时变瞬时混合过程可以描述为的加权和来表示后验概率密度或滤波概率密度.假Xk=HkSk+ωk(7)设可从滤波概率密度函数p(xk

20、y1:k)中抽取N个设vk是摄像机获取的与第1路语音信号对应的唇(i)独立同分布的随机样本xk(i=1,⋯,N),任意函动信息.双模态语音提取问题就是从混合语音Xk数g(x

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种基于粒子滤波的双模态语音提取方法

一种基于粒子滤波的双模态语音提取方法

相关文章

相关标签