基于音视频融合的说话人跟踪方法的研究

基于音视频融合的说话人跟踪方法的研究

ID:34870630

大小:4.22 MB

页数:82页

时间:2019-03-12

基于音视频融合的说话人跟踪方法的研究_第1页
基于音视频融合的说话人跟踪方法的研究_第2页
基于音视频融合的说话人跟踪方法的研究_第3页
基于音视频融合的说话人跟踪方法的研究_第4页
基于音视频融合的说话人跟踪方法的研究_第5页
资源描述:

《基于音视频融合的说话人跟踪方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:单位代码:10140密级::4031912公开学号153LIAONINGUNIVERSITY硕士学位论文THESISFORMASTERDEGREE中文题目:基于音视频融合的说话人跟踪方法的研究ResearchonSeakerTrackinMethodBasedonAudioandpg英文题目:VideoFusion论文作者:姜雪莹指导教师:景源副教授专业:计算机应用技术完成时间二〇一八年四月:申请辽宁大学硕士学位论文基于音视频融合的说话人跟踪方法的研究Res

2、earchonSpeakerTrackingMethodBasedonAudioandVideoFusion作者:姜雪莹指导教师:景源副教授专业:计算机应用技术答辩日期:2018年5月25日二○一八年五月·中国辽宁辽宁大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下独立完成的。论文中取得的研究成果除加以标注的内容外,不包含其他个人或集体已经发表或撰写过的研究成果,不包含本人为获得其他学位而使用过的成果。对本文的研究做出重要贡献的个人和集体均已在文中进行了标注,并表示谢意。本人完全意识到本声明的法

3、律结果由本人承担^学位论文作者签名:紉&年r月日y学位论文版权使用授权书、使用学位论文的规定本学位论文作者完全了解学校有关保留,同意学校保留并向国家有关部门或机构送交学位论文的原件、复印件和电子版,允许学位论文被查阅和借阅。本人授权辽宁大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编学位论文。同时授权中国学术期刊(光盘版)电子杂志社将本学位论文收录到《中国博士学位论文全文数据库》和《中国优秀硕士学位论文全文数据库》并通过网络向社会公众提供信

4、息服务。学校须按照授权对学位论文进行管理,不得超越授权对学位论文进行任意处理。保密(),在后解密适用本授权书^(保密:请在年“括号内划)-授权人签名:指导教师签名:^7//日期:年孓月沙曰曰期:年r月2日产摘要摘要近几年随着科学技术不断发展,目标跟踪技术越来越受到人们的重视并被广泛的应用在视频会议、智能机器人等领域,它已经成为了当代学者们研究的重要课题。传统的目标跟踪只是利用单一类型传感器采集到的信息来完成跟踪,而单一模态的信息会受一些因素的影响从而导致跟踪结果的准确性和系统的鲁棒性大幅下降,例如环境噪声

5、、遮挡物反射等因素会对声源跟踪系统产生影响,视频跟踪中目标运动姿态的改变、目标遮挡等影响因素也会干扰其跟踪的效果,因此本文对以音频和视频为代表的多模态数据进行融合处理来提高对说话人跟踪的准确性。本文提出了将通过麦克风阵列得到的音频信息与摄像头得到的视频信息在粒子滤波的框架下进行融合,利用两种信息源的各自优点来进行互补,提高了说话人跟踪结果的准确性。为了能够从整体上提高通过融合音视频信息得到的跟踪结果的准确性,本文对传统的广义互相关算法和粒子滤波算法进行了改进,以获得更精确的时延结果和视频位置信息。首先,获取音频信息的方法采用基于到达时间差

6、(TDOA)的方法,其中时延结果的估计是整个跟踪方法的结果是否准确的关键,然而传统的广义互相关时延估计算法在低信噪比和混响存在的情况下时延结果估计的性能开始下降,针对这一问题本文提出了一种基于二次相关的广义互相关时延估计的改进算法。该方法首先对接收到的信号进行滤波处理,再将二次相关算法嵌入到广义互相关算法当中,并且对加权函数进行改进。经过实验表明,在噪声和混响同时存在的环境下,改进算法对时延的估计性能有明显的优势。其次,在视频目标跟踪中使用粒子滤波方法,它适合跟踪环境比较复杂的情况,但是存在着运算量大和有粒子多样性退化的问题。均值漂移算法

7、可以通过反复迭代来改变当前点的位置使其移动到概率密度函数的最大值处,所以本文将均值漂移嵌入到粒子滤波中,来提高视频跟踪结果的准确率以及运行效率,并在建立模型时将概率较小的特征值去掉以减小非目标像素对跟踪的干扰,最后采用随机线性重采样方法解决粒子退化问题。经过多次实验得出,改I摘要进算法的结果准确率和运行效率方面都比传统算法有明显提高。最后,将通过改进算法得到的更加准确的音频、视频信息在粒子滤波框架下进行融合来对说话人进行跟踪,通过多次实验可以看出本文提出的新的基于音视频融合的说话人跟踪方法在环境复杂的情况下有着很好的跟踪效果。关键词:广义

8、互相关,到达时间差(TDOA),均值漂移,粒子滤波,音视频融合IIABSTRACTABSTRACTInrecentyears,withthecontinuousdevelopmentofsci

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。