基于深度学习的图像描述模型的设计与实现

基于深度学习的图像描述模型的设计与实现

ID:34963653

大小:1.32 MB

页数:61页

时间:2019-03-15

基于深度学习的图像描述模型的设计与实现_第1页
基于深度学习的图像描述模型的设计与实现_第2页
基于深度学习的图像描述模型的设计与实现_第3页
基于深度学习的图像描述模型的设计与实现_第4页
基于深度学习的图像描述模型的设计与实现_第5页
资源描述:

《基于深度学习的图像描述模型的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深度学习的图像描述模型的设计与实现DESIGNANDIMPLEMENTATIONOFIMAGECAPTIONINGMODELBASEDONDEEPLEARNING刘宇哈尔滨工业大学2018年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于深度学习的图像描述模型的设计与实现硕士研究生:刘宇导师:刘远超教授副导师刘远超教授申请学位:工程硕士学科:软件工程所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C:621.3Dissertationfo

2、rtheMasterDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFIMAGECAPTIONINGMODELBASEDONDEEPLEARNINGCandidate:LiuYuSupervisor:Prof.LiuYuanchaoAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofComputerScienceDateofDefence:June,2018Degree-Conferring-Institution:Har

3、binInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要图像描述问题同时涉及计算机视觉和自然语言处理,是近年来深度学习领域一个热门的研究问题。目前,主流的图像描述模型的研究重点在于如何设计更加有效的视觉注意力机制,使得模型能够在生成图像描述语句的过程中更好地提取和利用图像特征。但是,它们在生成描述语句时倾向于采用固定的语言结构模式,即它们生成的描述语句会偏向于由数据集中频繁出现的词汇短语组成的这样一种固定的形式,而不能依据图像中的某些独特的特征,生成更加丰富多样化而且正确描述图像内容的描述语句。本文经过分析,总结出造成上述问题的主要原因:传统的模型普遍采用了长短期记忆

4、网络来生成图像描述语句,从而导致模型未能够学习和利用自然语句内部的句法特征。针对于此,本文提出一个基于自注意力机制和空间注意力机制的图像描述模型。该模型在设计上采用了流行的Encoder-Decoder框架结构,Encoder模块中利用了卷积神经网络来提取图像特征,Decoder中使用了多个由多头空间注意力子层、多头自注意力子层和全连接前馈网络子层堆叠而成的子模块替代传统模型中的长短期记忆网络。其中,多头空间注意力子层是应用空间注意力机制来选取和利用图像特征;多头自注意力子层则是通过自注意力机制来捕获自然语句中句法特征或者语法特征。在提出和设计了一个新的图像描述模型后,本文阐述了该模型各个模块

5、的具体实现方式。除此之外,本文还依据模型在MSCOCO数据集上评估出的各个指标的数据,与其他模型进行了横向比较。其结果表明模型性能较好,相较于只基于各种视觉注意力机制的模型有比较大的提升。关键词:图像描述;卷积神经网络;空间注意力;自注意力-I-AbstractAbstractImageCaptioningisahotresearchissueintheareaofDeepLearningthatconnectscomputervisionandnaturallanguageprocessing.Nowadays,ThemainfocusofImageCaptioningmodelsishow

6、todesignamoreeffectivevisualattentionmechanism,sothatthemodelcanextractandusetheimagefeaturesbetterintheprocessofgeneratingthecaptionsoftheimage.Butmosttraditionalapproachestendtoadoptregularthelanguagestructurepatterns.Thatistosay,theytendtofallintoastereotypeofreplicatingfrequentwordsorphrasesinda

7、taset,andcannotmakethemodelgeneratemorerichandmorevariedimagecaptionsbasedonsomeuniquecharacteristicsoftheimage.Thispaperholdsthatthemainreasonoftheissuesdiscussedaboveisthatthetraditionalmodelsgenera

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。