面向社交场景理解的多目标跟踪与视频时域对齐方法研究

面向社交场景理解的多目标跟踪与视频时域对齐方法研究

ID:34606188

大小:9.25 MB

页数:111页

时间:2019-03-08

面向社交场景理解的多目标跟踪与视频时域对齐方法研究_第1页
面向社交场景理解的多目标跟踪与视频时域对齐方法研究_第2页
面向社交场景理解的多目标跟踪与视频时域对齐方法研究_第3页
面向社交场景理解的多目标跟踪与视频时域对齐方法研究_第4页
面向社交场景理解的多目标跟踪与视频时域对齐方法研究_第5页
资源描述:

《面向社交场景理解的多目标跟踪与视频时域对齐方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10699|分类号TP391+密级学号2G10100538一 ̄響承火^^4NORTHWESTERNPOLYTECHNICALUNIVERSITY博士学位论文题目面向社交场景理解的多圏标跟踪与视频时域对齐方法研究作者王雪计算机科学与技术学科、专业 ̄ ̄指导教师申请学位曰期201?年4月西北工业大学博士学位论文(学位研究生)题目:面向社交场景理解的多目标跟踪与视频时域对齐方法研究作者:王雪学科专业:计算机科学与技术指导教师:王庆2017年4月MultipleTargetTrackingandVi

2、deoSequenceTemporalAlignmentforSocialSceneUnderstandingByWANGXueUndertheSupervisionofProfessorWANGQingAdissertationsubmittedtoNorthwesternPolytechnicalUniversityInpartialfulfillmentoftherequirementsForthedegreeofDoctorofPhilosophyInthesubjectofComputerScienceandTechnologyXi’anP.R.ChinaApril

3、2017摘要摘要近年来,随着机器人逐渐从单一任务型向通用合作型方向发展,智能机器人拥有自主学习能力一直是学术界和工业界的共同出发点。智能机器人研究的根本目标之一是让机器人在人类生产生活的实际环境中能够更好地服务于人类。因此,理解人类社交场景是机器人获得智能的基础。社交场景理解是计算机视觉领域中的热点也是难点问题。首先,除了一般的表示场景物理属性的结构上下文以外,社交场景理解还需要理解社交上下文,即场景中人群的个体运动和群体运动。运动分析的前提是能够跟踪运动目标,因此在社交场景中长时间地精确跟踪多个运动目标是首要解决的问题。其次,社交场景理解通常涉及多视角系统,来自于多个相机的

4、视频源数据需要注册在统一的时间空间中,因此多元信息融合也是该领域的一个难点。当多个相机具有不同的分辨率、帧率及运动轨迹(宽基线)时,以及考虑到实际应用中不可预测的丢帧现象,都会使该问题变得更加复杂。本文围绕社交场景理解,对包含多个非刚性物体的复杂动态场景中的多目标跟踪和自由运动相机时域对齐方法进行研究,并在以下几个方面取得了一些创新性研究成果:(1)在数据关联方法框架下,提出了一种基于稀疏表示的多目标跟踪算法。基于检测器在各图像帧上的检测响应,该算法将基于稀疏表示的外观模型融入到最大化后验概率的全局优化中,实现了复杂场景下的多目标跟踪。在多组行人数据集上的跟踪实验结果验证了该

5、方法的有效性和鲁棒性。(2)将多目标跟踪表示成一个在像点轨迹和检测轨迹联合空间中的分类聚类问题,提出了一种结合前景背景互斥性的多目标跟踪算法。为了提高基于光流的分割精度,该方法利用姿态检测导出的前景背景排斥项调整像点轨迹相似度,再对改进后的关联矩阵进行多模型感知分割,最终选择在归一化割准则下的最优解实现双粒度跟踪。在多组行人及社交行为数据集上的实验结果表明,该方法对目标形变、长时间的局部遮挡及复杂背景具有更佳的鲁棒性。(3)提出了一种基于轨迹形状联合空间的视频对齐方法。假设完整的图像点轨迹(无数据丢失),并且视频间的点对应关系已知。该算法将轨迹空间中的点轨迹相似度与形状空间中

6、的点集分布相似度融合,构建代价矩阵。然后利用动态规划技术搜索该代价矩阵的最小代价路径,作为视频序列间的非线性离散时域映射。在基于第一人称视角的社交行为数据集上的实验结果表明,该方法在视频时域对齐精度及鲁棒性方面具有一定优势。(4)提出了一种基于运动目标三维轨迹重建的视频序列同步方法。该方法的优点在于对场景及相机运动不做任何约束,也不依赖完整的图像点轨迹或已知的点对应关系。I西北工业大学博士学位论文假设每帧图像的相机投影矩阵已知,首先基于离散余弦变换基函数重建运动目标的三维轨迹。然后提出一种基于轨迹基系数矩阵的秩约束,用于衡量不同序列子段对的空间时间对准程度。最后构建代价矩阵,

7、并利用基于图的搜索算法实现多个视频序列间的非线性同步。在多组仿真数据及真实数据集上的实验结果表明,该方法对相机运动、大视角差异、跟踪误差等具有更好的鲁棒性,同步精度明显优于经典视频对齐方法。最后,本文将上述多目标跟踪及运动相机时域对齐方法集成到社交场景理解实验平台中,完成了动态场景2.5D深度图估计和社交显著性结构三维重建两个典型应用示范,从而验证了相关理论与方法。关键词:社交场景理解,第一人称视角,多目标跟踪,视频对齐,相机同步本研究得到国家自然科学基金“基于摄像机阵列多深度线索的场景深度估计及优化方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。