基于深度神经网络的视频描述研究

基于深度神经网络的视频描述研究

ID:37062604

大小:4.30 MB

页数:95页

时间:2019-05-17

基于深度神经网络的视频描述研究_第1页
基于深度神经网络的视频描述研究_第2页
基于深度神经网络的视频描述研究_第3页
基于深度神经网络的视频描述研究_第4页
基于深度神经网络的视频描述研究_第5页
资源描述:

《基于深度神经网络的视频描述研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深度神经网络的视频描述研究作者姓名李楚怡学科专业电路与系统指导教师余卫宇副教授所在学院电子与信息学院论文提交日期2018年4月ResearchonVideoDescriptionBasedonDeepNeuralNetworksADissertationSubmittedfortheDegreeofMasterCandidate:LiChuyiSupervisor:Vice-Prof.YuWeiyuSouthChinaUniversityofTechnologyGuangzhou,China分类号:TP183学校代号:10561学号:20152

2、0108263华南理工大学硕士学位论文基于深度神经网络的视频描述研究作者姓名:李楚怡指导教师姓名、职称:余卫宇副教授申请学位级别:工学硕士学科专业名称:电路与系统研究方向:图像处理与模式识别论文提交日期:2018年4月10日论文答辩日期:2018年6月4日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:傅予力教授委员:周智恒教授、李波副教授、向友君副教授、余卫宇副教授摘要视频描述是计算机视觉与自然语言处理领域上的一个新兴研究课题,旨在自动为目标视频生成描述语句。在早期的研究工作中,视频描述生成方法一般采用视觉检测器对视频中的对象信息、场景信

3、息以及对象之间的交互关系进行检测,并用基于模板的语言模型对各元素进行组合构成描述语句。该方法高度依赖于视觉检测器的准确性,另一方面套用模板生成的描述只能简单地陈述事件,而不能表达其中丰富的语义信息。随着深度学习方法在图像分类、视频识别和机器翻译等方向上取得的重大突破,越来越多学者开始关注基于深度神经网络的视频描述方法研究。在近几年视频描述的研究工作中常用编码器-解码器模型框架,通过卷积神经网络和递归神经网络等深度神经网络分别对视频进行特征编码和解码,并利用波束搜索算法排序选出最佳描述语句作为最终输出。本文主要围绕基于深度神经网络的视频描述方法展开了研究。首先,

4、对深度神经网络相关理论知识以及视频描述方向上的核心技术问题进行了详细阐述。其次,本文深入研究了Yao等人提出的基于时序注意力机制的视频描述方法,并设计三组对比实验分别探讨了采用不同的训练学习率初始值、批尺寸和波束宽度对描述生成模型的影响。在Yao等人提出方法的基础上,本文进行了一系列的改进并提出了一种结合丰富语义信息和时空注意力机制的视频描述方法,涉及四点改进:1、融入场景信息和光流特征,分别表征视频内容位置信息和行为形态变化信息。2、嵌入双向LSTM编码器,通过学习视觉特征过去和未来的上下文信息,生成高层语义表达。3、采用时空注意力机制,让模型动态地关注与当

5、前生成单词最相关视频帧子集中的关键特征。4、在波束搜索算法中加入长度归一化的处理。最后,分别在MSVD和MSR-VTT视频数据集上进行实验,结果显示本文提出的改进方法在几项常用的质量评价标准上得分均高于基于时序注意力机制的视频描述方法,同时获得了与当前主流方法相当的评估效果。关键词:视频描述;深度神经网络;丰富语义信息;时空注意力机制;长度归一化IAbstractVideodescriptionisanovelresearchtopicinthefieldsofcomputervisionandnaturallanguageprocessing,aimingt

6、ogeneratedescriptivesentencesforthetargetvideoautomatically.Intheearlyresearchwork,thegenerationofvideodescriptiongenerallyusesthevisualdetectortocapturetheobjectinformation,sceneinformationandtheinteractionrelationshipsbetweenobjectsinthevideo,thengeneratingadescriptivesentencethro

7、ughatemplate-basedlanguagemodel.Thismethodhighlydependsontheaccuracyofthevisualdetector,whilethedescriptiongeneratedbythetemplatescanonlysimplystatetheeventwithoutexpressingrichsemanticinformation.Sincedeeplearninghasmadegreatbreakthroughinthedevelopmentofimageclassification,videore

8、cognitionandmachine

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。