欢迎来到天天文库
浏览记录
ID:50461271
大小:7.24 MB
页数:130页
时间:2020-03-06
《视频中人的动作分析与理解.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、视频中人的动作分析与理解刘翠微2015年6月中图分类号:TQ028.1UDC分类号:540视频中人的动作分析与理解作者姓名刘翠微学院名称计算机学院指导教师贾云得教授吴心筱副教授答辩委员会主席胡占义研究员申请学位工学博士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2015年6月9日AnalyzingandunderstandinghumanactionsinvideosCandidateName:LIUCuiweiSchoolorDepartment:ComputerScience&Technology
2、FacultyMentor:Prof.JIAYundeProf.WUXinxiaoChair,ThesisCommittee:Prof.HUZhanyiDegreeApplied:DoctorofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologythTheDateofDefence:June9,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所
3、知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学博士学位论文摘要视频中人的动作分析与理解是计算机视觉和模式识别领域的热点问题,广泛应用于智能视频监控、人机交互、视频检索和视频摘要等领域。本文主要研究动作分析与理解中的几个关键问题,包括中层特征的提取表示、长视频中多个动作的联合分割与识别、复杂动
4、作的语义表示和建模、以及动作的识别和定位。本文提出了基于随机森林的中层特征学习框架,在高层语义信息的指导下,融合多种底层特征建立一种具有强判别能力和描述能力的中层特征表示。在基于随机森林的学习框架下,从稠密采样的局部时空块中提取多种底层特征,采用一种新的底层特征融合策略对局部时空块进行分类,将所有时空块的后验概率直方图级联(concatenate)起来构成动作的中层特征表示。本文将时间上下文特征作为描述时空块的底层特征,有效地表示了局部时空块之间的上下文信息。多个动作数据集上的实验表明,该框架中的底层特征融合策略是有
5、效的,能够生成具有强判别能力的中层特征表示。本文研究了长视频中多个动作的联合分割和识别问题,提出了一种带有隐含变量的结构化判别式模型,将包含多个动作的长视频进行分段,同时标注每个视频段的动作类别。在模型中引入一组隐含变量,期望能够挖掘被多个动作共享的、具有判别力和描述能力的潜在语义概念。在基于最大间隔的学习框架下,利用视频段特征、潜在语义概念以及动作类别之间的交互关系表示一个动作,并在动作层面和潜在语义概念层面挖掘不同动作视频段之间的时序上下文关系。对于包含多个动作的测试视频,采用动态规划算法寻找最优的视频分割方式,
6、同时识别每个视频段中的动作。实验表明,该方法能够准确地分割并识别长视频中的多个动作。本文提出了一种基于语义分解的层级描述方法,对于复杂动作视频,从属于“哪种”复杂动作、包含“哪些”原子动作以及原子动作出现在“什么时候”三个方面进行描述。将视频中的复杂动作分解为一组具有单一语义含义的原子动作,提出了一个带有隐含变量的判别式模型来自动检测视频中的复杂动作和原子动作,并分析原子动作的时序结构。提出采用映射矩阵建立视频段与原子动作之间多对一的对应关系,并将其建模为模型中的隐含变量。该方法允许部分训练视频只标注复杂动作类别,采
7、用一种半监督的学习方法自动标注这些视频的原子动作,以减轻训练数据的原子动作标注工作。多个动作数据集上的实验验证了该方法的有效性。I北京理工大学博士学位论文最后,本文提出了基于迁移学习的动作识别和定位方法。提出了一种带有隐含变量的知识迁移模型——TLSVM模型(TransferLatentSVMModel),利用只标注了动作类别的训练视频和少量的网络图像进行动作识别和定位。TLSVM模型将视频中动作发生的位置视为隐含变量,采用一种无监督的方法生成视频中可能包含动作的时空子区域集合,在识别动作类别的同时从候选时空子区域集
8、合中自动搜索动作发生的位置。在模型训练中引入了少量网络图像,将图像中标注的动作位置信息作为一种先验知识,通过约束视频时空子区域和网络图像子区域之间的局部相似性来学习具有强判别力的动作定位模型。由于网络图像和训练视频分别表示为两种不同的异构特征,采用一种基于随机聚类森林的线性变换方法,将图像特征空间映射到视频特征空间。实验表明,通过知识迁移,TL
此文档下载收益归作者所有