多模态特征融合和变量选择的视频语义理解

多模态特征融合和变量选择的视频语义理解

ID:33104510

大小:6.93 MB

页数:138页

时间:2019-02-20

多模态特征融合和变量选择的视频语义理解_第1页
多模态特征融合和变量选择的视频语义理解_第2页
多模态特征融合和变量选择的视频语义理解_第3页
多模态特征融合和变量选择的视频语义理解_第4页
多模态特征融合和变量选择的视频语义理解_第5页
资源描述:

《多模态特征融合和变量选择的视频语义理解》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学计算机科学与技术学院博士学位论文多模态特征融合和变量选择的视频语义理解姓名:刘亚楠申请学位级别:博士专业:计算机科学与技术指导教师:庄越挺;吴飞20100301浙江大学博:1:学伉论文摘要随着计算机技术及互联网应用的迅速发展,多媒体数据特别是视频数据呈海量趋势增长,如何有效存储、管理、传输、检索和使用这些多媒体数据,是摆在人们面前巨大的挑战和亟待解决的研究问题。视频数据蕴含了丰富的语义,同时视频又是时序数据,视频中存在图像、音频和文本三种媒质数据,并呈现时序关联共生特性。本文针对视频数据中多种模态之间的时序

2、关联特性,通过特征融合和变量选择来进行视频语义分析与理解。在视频语义信息理解和挖掘中,充分利用图像、音频和文本等多模态媒质之间的交互关联是非常重要的研究方向。考虑到视频的多模态和时序关联共生特性,提出了一种基于多模态子空间相关性传递的语义概念检测方法来挖掘视频的语义信息。该方法对所提取视频镜头的多模态底层特征,根据共生数据嵌入和相似度融合进行多模态子空间相关性传递而得到镜头之间的相似度关系,接着通过局部不变投影对原始数据进行降维以获得低维语义空间内的坐标,再利用标注信息训练分类模型,从而可对训练集外的测试数据进行语

3、义概念检测,实现视频语义信息挖掘。实验表明这一方法有较高的准确率。传统视频表达所采用的向量模型除了会产生高维向量而导致“维度灾难”问题外,同时在降维过程中,由于特征向量过高的维度及训练样本的数据不足,将不同类型特征进行拼合会引起“过压缩”问题,以致丢失大量信息。另外,不同类型特征通过简单向量拼接也在一定程度上减弱或忽略了视频中这些多种模态特征之间的时序关联共生性。为了解决这一问题,提出了一种基于高阶张量表示的视频语义分析与理解框架。在这个框架中,视频镜头首先被表示成由视频中所包含的文本、视觉和听觉等多模态数据构成的

4、3阶张量;其次,基于此3阶张量表达及视频的时序关联共生特性设计了一种子空间嵌入降维方法,称为“张量镜头";由于半监督学习从已知样本出发能对特定的未知样本进行学习和识别,最后在这个框架中提出了基于“张量镜头”的直推式支持张量机算法以及两种基于浙江大学博十学位论文摘要主动学习的后精化处理策略,其不仅保持了张量镜头所在的流形空间的本征结构,而且能将训练集合外数据直接映射到流形子空间,同时充分利用未标记样本改善分类器的学习性能。实验结果表明本方法能有效地进行视频镜头的语义概念检测。为了更加有效利用标记样本,基于压缩感知和稀

5、疏表示理论,结合稀疏表达、非负矩阵分解和监督学习,提出了基于(非负)组稀疏表示的分类方法对图像和视频进行分类思路。其基本思想是将测试样本表示为训练样本的加权线性组合:即在非负Zl正则化因子约束下,对每个训练样本求取一个回归系数,同时每一类别也求取加权系数,使得在训练过程中能基于稀疏系数对类别中所有样本同时选择或放弃。另外,非“负”回归加权系数使得视频和图像理解过程更加具有町解释性(interpretable)。基于(非负)组稀疏表示的分类方法优势在于能有效利用类别信息对视频和图像进行变量选择,不仅提高了语义分类精度

6、,而且使得这一过程更具可解释性。关键词:多模态,时序关联共生,子空间相关性传递,张量镜头,高阶SVD,主动学习,压缩感知,组稀疏表示,非负garrote,Z1范数最小化WiththerecentadvancesinnumberofmultimediafilesAbstractcomputertechnologiesandInteractapplications,theandarchivesincreasedramatically,andvideodataconstitutethemajority.Therefore

7、,efficientandfastcontent—basedvideostorage,management.indexing,browsingandretrievalhavebecomeimportantresearchtopics·Videodatacomprisesplentifulsemantics,suchaspeople,object,eventandstory,etc·Ingeneral.videodatacomposeofthreelowlevelmodalitiesnamelytheimage,au

8、dio,andtextmodalities.Thesemultiplemodalitiesinvideoareinessencecharacteristicoftemporalassociatedcooccurrence(TAC).ConsideringtheTACofthemultiplemodalitiesofvideodata,thispaperpro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。