基于深度学习的视觉问答系统研究

基于深度学习的视觉问答系统研究

ID:37065589

大小:2.59 MB

页数:65页

时间:2019-05-17

基于深度学习的视觉问答系统研究_第1页
基于深度学习的视觉问答系统研究_第2页
基于深度学习的视觉问答系统研究_第3页
基于深度学习的视觉问答系统研究_第4页
基于深度学习的视觉问答系统研究_第5页
资源描述:

《基于深度学习的视觉问答系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10183研究生学号:2015532091密级:公开吉林大学硕士学位论文(学术学位)基于深度学习的视觉问答系统研究ResearchonDeepLearningbasedVisualQuestionAnswering作者姓名:王旭专业:计算机应用技术研究方向:机器学习指导教师:管仁初培养单位:计算机科学与技术学院年月基于深度学习的视觉问答系统研究ResearchonDeepLearningbasedVisualQuestionAnswering作者姓名:王旭专业名称:计算机应用技术指导教师:管仁初副教授学位类别:工学

2、硕士答辩日期:年月日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学硕士学位论文原创性声明本人郑重声明:所呈交学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法

3、律结果由本人承担。学位论文作者签名:日期:年月日《中国优秀博硕士学位论文全文数据库》投稿声明研究生院:本人同意《中国优秀博硕士学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托研究生院向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》投稿,希望《中国优秀博硕士学位论文全文数据库》给予出版,并同意在《中国博硕士学位论文评价数据库》和CNKI系列数据库中使用,同意按章程规定享受相关权益。论文级别:√硕士□博士学科专业:计算机应用技术论文题目:基于深度学习的视觉问答系统研究作者签名:指导教师签名:年月日作者联系地址(

4、邮编):吉林省长春市前进大街2699号吉林大学计算机科学与技术学院,130012作者联系电话:18651314788摘要摘要基于深度学习的视觉问答系统研究卷积神经网络在计算机视觉领域取得了突破性的进展,而神经网络语言模型和循环神经网络相关的算法的发展又推动了自然语言处理领域的进步。随着目标识别,神经网络翻译模型等相关研究领域取得了突破,视觉问答系统的研究越来越受到科研人员的重视。视觉问答系统与传统的问答系统不同之处在于,除了要理解文字形式提出的问题,还需要结合图像的内容来进行解答。为了推动视觉问答系统的研究,需要构建适合于训练模型的数据集。现

5、有的数据集有DAQUAR,COCO-QA,VisualGenome,FVQA,VQA1.0等等。这些数据集中的发展方向为增加图片的数量,丰富问题的内容,提高答案的准确度。目前的视觉问答算法可以分为基于传统机器学习的算法,基于联合嵌入的方法,基于注意力机制的算法,使用外部数据库算法等等。在介绍了视觉问答系统的研究现状之后,本文首先介绍了基础的神经网络模型,卷积神经网络模型,循环神经网络模型以及其改进模型长短期记忆模型,随后介绍了注意力机制以及其应用。本文发现不同的卷积神经网络模型对图像特征抽取层次不一样,因此本文使用了深度残差网络来提取图像的全

6、局特征,用MaskR-CNN来提取图像的局部特征。另外,注意力模型来可以用来整合图像特征和问题编码,而使用堆叠的注意力模型可以进一步提高图像特征与问题编码之间的耦合性。基于以上发现,本文从网络架构,图像特征提取方式,问题编码方式以及注意力机制的使用方式详细介绍了本文所提出的两种算法:基于目标特征的视觉问答系统算法和双视角层叠注意力视觉问答系统算法。本文使用了Pytorch编程框架实现了文中提出的算法,并在VQA1.0数据集上使用GPU进行训练以减少训练时间。针对本文提出的算法,首先通过对l2I摘要正则化,Dropout层,循环神经网络隐含层大

7、小以及注意力层数量选取不同设置进行实验,研究其对模型整体效果的影响。实验结果表明,使用l2正则化,添加Dropout层,提高循环神经网络隐藏层大小以及使用两层注意力层有利于提高模型回答的准确度。在测试集上的实验结果表明,本文提出的算法可以从图片中提取出不同层次的信息,理解问题的含义并有效地结合两方面的信息给出合适的答案。与现有的其他模型相比,本文提出的算法在准确度方面有了一定的提升。最后本文给出了算法运行过程中的部分示例并讨论了算法的输出结果。关键词:深度学习,视觉问答系统,卷积神经网络,循环神经网络IIAbstractAbstractRes

8、earchonDeepLearningBasedVisualQuestionAnsweringMethodsbasedonconvolutionalneuralne

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。