资源描述:
《基于深度学习的图像语义理解研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
基于深度学习的图像语义理解研究重庆大学硕士学位论文(专业学位)学生姓名:梁欢指导教师:覃剑副教授学位类别:工程硕士(电子与通信工程领域)重庆大学通信工程学院二O一六年四月 ResearchonImageSemanticUnderstandingBasedonDeepLearningAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheProfessionalDegreeByLianghuanSupervisor:AssociateProf.QinJianSpecialty:ME(FieldofElectronicsandCommunicationEngineering)CollegeofCommunicationEngineeringofChongqingUniversity,Chongqing,ChinaApril,2016 重庆大学硕士学位论文中文摘要摘要随着网络上图像的日益激增,图像检索成为研究热点。准确理解图像是迅速检索图片的重要前提。本文研究的内容是使用一句既包含主体又包含场景的语句,理解并标注一幅含有人的图像。传统语义理解方法主要侧重图像理解或自然语言处理,效率低且耗时长。应用海量数据无监督训练并采用有监督调优的深度学习因为在图像分类挑战竞赛表现突出,逐渐成为当前图像处理的主流方法,递归循环神经网络也逐渐成为自然语言处理的主要方法。基于深度学习的图像语义理解尚处研究初期,因此鲜有相关工作发布。本文增加基于深度学习的图像描述生成系统NIC长短时记忆循环网络层,经过预训练得到初始模型、在初始模型基础上有监督调优后,设计了端到端的图像语义理解系统DLNN。使用含有人的图片测试DLNN结果表明,在人物自拍、半身照、全身照等类别图像上均能有效理解出主体和场景。在公开数据集上测试DLNN的BleU指标,验证了DLNN在图像的语义化理解上的有效性。进一步,本文参考MLBL-F改进MLBL-B的方法形成改进的D2LNN,在细节处理解出的表述更好。经测试集上的评估表明,D2LNN在理解出人物图像主体的同时比DLNN可以更好地理解出图像主体的细节。关键词:深度学习,图像理解,语义化,长短时记忆网络I 重庆大学硕士学位论文英文摘要ABSTRACTWiththesharplyincrementofimagesonInternet,imageretrievalhasbecomethefocusofresearch.Itisprerequisitecorrectlyunderstandingimagesforfastimageretrievaling.Afterpullinganimagewithapersonin,theimagesemanticunderstandingsystemweproposeddescriptingthepeopleandsceneinsidetheimagebyusingasentence.Traditionalimagesemanticunderstandingmethodcannotcombineimageunderstandingwithnaturallanguageprocessinginaproperlyway,whichcauseslowefficiencyandhightimeconsuming.DeepLearningbasedonunsurpervisedtrainingandsurpervisedfine-tuningonmillionsofimagesisreplacingthetraditionalmethodinthefieldofimageprocessingforitsperfectperformenceinimageclassificationandrecognitionchallenge,andrecurrentneuralnetworkisbecomingthemainmethodinNaturalLanguageProcessing.Becauseofimagesematicunderstandingatthebeginingstudybasedondeeplearning,thereisfewrelatedworkcurrently.ByextendingLSTMlayertotheNeuralImageCaptionGeneratorwhichbasedonDeepLearning,wegetanend-to-endimagesemanticunderstandingsystemDLNN,afterpre-trainingandsurpervisedfine-tuning.ExperimentsresultsofpullingimagewithpeopleintoDLNNsuggeststhatDLNNcanunderstandpeopleandsceneefficentlyineitherselfies,bustsandimageswithwholepeopleinsidetheimage.BleUscoresonpublicdatasethasalsoprovedthatDLNNcouldbeefficientinsemanticunderstandingimages.Furthermore,WereferencetheimprovementofMLBL-FbyimprovingDLNNtoD2LNN,whichperformesmorebetterindescriptiondetailsoftheimage.BytestingD2LNNontheimageswhichhastestedDLNN,wefindthatD2LNNandDLNNarebothefficientinunderstandingpeopleinsideimages,buttheformeronedoesbetterinunderstandingdetailsoftheimagesbyshowingitinasentence.Keywords:Deeplearning,Imageunderstanding,Semantic,Longshort-termmemoryII 重庆大学硕士学位论文目录目录中文摘要····································································································I英文摘要···································································································II1绪论······································································································11.1课题背景和研究意义··················································································11.2研究现状································································································21.3论文组织框架··························································································32图像理解方法与自然语言处理···························································52.1传统图像理解方法概述···············································································52.2卷积神经网络··························································································62.2.1CNN在图像分类中的应用······································································62.2.2图像的深层特征··················································································72.3自然语言处理··························································································72.3.1自然语言处理概述················································································72.3.2递归循环网络与字符级语言模型·····························································102.3.3长短时记忆循环网络···········································································132.4本章小结······························································································143图像语义理解系统的评估·································································153.1专业人员打分评估···················································································153.2单纯语句评估························································································173.3系统实验平台························································································203.3.1Caffe·······························································································203.3.2Caffe的特点······················································································213.4本章小结······························································································214图像语义理解系统·············································································234.1DLNN系统概述······················································································234.1.1预训练·····························································································264.1.2交叉熵损失的更新··············································································274.2调优和时域连接模型················································································294.2.1调优································································································294.2.2时域连接模型····················································································304.3系统的实现···························································································32III 重庆大学硕士学位论文目录4.4系统实现结果························································································374.5本章小结······························································································425D2LNN系统······················································································435.1改进的D2LNN系统················································································435.2系统的实现···························································································465.3DLNN与D2LNN对比分析········································································495.3.1预训练对比·······················································································495.3.2调优对比··························································································505.3.3直观对比结果····················································································515.3.4BleU和ROUGE评估对比·····································································525.4本章小结······························································································526总结与展望·························································································536.1总结····································································································536.2展望····································································································53致谢··································································································55参考文献··································································································56IV 重庆大学硕士学位论文1绪论1绪论1.1课题背景和研究意义消息传递在远古社会已经存在,传递方式也随着科学技术的进步而不断向前发展。文字和语言是消息传递的基本方式。后来,印刷术的发展使以纸张为载体的消息传播范围大大扩展。电话、广播等的普及使得消息传播范围再次扩展。“百闻不如一见”,图像蕴含了丰富的消息,古往今来,图像一直客观存在,图像可以语言文字不可比的优点形象表达事件、行为、场景和对象等,在便利信息传递过程中,图像具备巨大的潜在推动力。随着拍照手机的廉价化,近年来其在人群中的普及程度越来越高,“随手拍”、自拍正使网络上的图像数量指数级地增长着。伴随图像数量激增,准确迅速地从网络中检索图像成为一个焦点问题。于是,文本标注图像伴随图像检索兴起而诞生,如手工标注照片作者,并简要描述照片内容。伴随着新媒体等等交流方式转变,平板和手机已成为互联网海量图像主要源头,通过WiFi、4G等稳定地将各色图像从移动端源源不断地输入互联网,截至2014年,仅仅facebook就拥有超过2500亿张图片,手工对每张图片标注成为不可能。此外,手工标注图像的主观性是不容忽视的一个现象。进入上世纪90年代后,图像理解成为计算机视觉领域一个热点,大致可分为对图像表达的场景分类、对图像的主体分类、异构模拟视觉特征以及图像非手工标注等。多所世界知名大学、研究机构相继开发出了代表性的基于CBIR[1,2](Content-BasedImageRetrieval,基于内容的图像检索)图像检索系统,除了最早商业化的IBM公司QBIC系统[3],还有UCSD的VIRAGE[4],NEC的AMORE[5]等。随着计算机计算能力的大幅提高、多层神经网络理论的发展,深度学习正有越来越多的运用。微软亚洲研究院使用深度学习算法建立起的一个能自动地识别语音的系统模型,成功于2012年发布者大会上演示将英文演讲几乎同声地译至中文。这是自然语言处理领域具有里程碑意义的一件事。由于语言本身的高维特性使传统的语言处理基本上都是经过复杂的语言学知识构造可供分类器使用的特征。由于有标签数据稀少无标签数据易得,深度学习恰好可以使用自然语言领域的大量数据无监督地进行训练、提取特征。同时,自然语言处理领域的许多问题间具有非常强的关联性,传统的方法往往将这几个问题分开解决,忽略了它们间的关系;深度学习对其中的关联性进行建模,将抽取特征和模型建立统一于这些问题的处理中。1 重庆大学硕士学位论文1绪论近些年在自然语言处理上表现好的系统均是基于可处理时序信息的深度学习,如Mikolov等的语言模型[6],Collobert的自然语言处理系统[7]。进入高速信息社会,运用计算机语义化理解图像,已成为一个涉及计算机视觉与自然语言处理的课题。研究发现,人类理解图像时实际所操作的是抽象出来的语句描述符号。新的图像检索需求迫使计算机视觉领域研究者必须在图像理解上采取新的措施,如设计更贴近人类图像理解过程的图像语义理解系统,同时,图像理解系统也必将进一步推动如生物医学图像建模、遥测遥感图像分析等领域发展。1.2研究现状图像理解研究始于上世纪60年代。图像语义理解是对图像的语句化诠释,它是以图像为对象,知识为核心,用文字呈现图像展示的场景、场景的联系关系及如何运用此场景的。早期的图像语义理解方法尝试通过图像的颜色、纹理和图像中物体轮廓等图像初级的特征,将这些特征通过步骤处理得到语句。后来,将图像划分区域分别识别其中物体并语义化理解图像成为另一种趋势,如姚[8]用实例证明两个相关物体若成对出现在图像中将有助于准确理解图像。描述语句中词语与词语间的关系也侧面反映了图片中内容物的结构关系。BenjaminZ等[8]人使用一种AoG结构化析构单词模型系统,通过从已分好类别,图片数目巨大的图像库中每一类找出500-1000张图像,根据预先训练得到的标签与类别,根据物体间的关联信息(如“自行车”与“车轮”的依存关系),通过文本理解引擎去理解整个图像的场景,而并不去关心这些物品在图像具体出现的位置。这种方法的准确性低且耗时长[9]。实际上的语义化图像理解不同于源起上世纪的图像分析,语义化理解研究的不仅有图像中目标内容物,还有目标内容物与目标内容物的相互关系,属于数字图像处理的高层次操作。其重点是研究图像中各目标的相互关联关系,得出对图像内容含义的理解,包括原来场景的客观解释,进一步规划和指导操作行为。CBIR采用一系列低层视觉特性,应用非手工标注方式给图像打标签,此手段渐渐替代TBIR(Text-basedImageretrieval,基于文本的图像搜索)成为20世纪末研究图像检索的主流方式。CBIR研究具有不需要手工、客观性强等优点。针对CBIR,正如Smeuldrs等[2]在其研究综述中所述,虽然深层次的图像语义理解需要精确的图像识别和图像分割,但是CBIR也可通过图像语义标注、图像语义分类(聚类)等方法代替,尤其是领域知识(DomainKnowledge)和图像上下文信息的辅助利用[10]。深度学习(DeepLearning,DL)于2006年由G.E.Hinton[11]提出后受到空前关2 重庆大学硕士学位论文1绪论注,已经在语音识别、模式识别、自然语言处理(NaturalLanguageProcessing,NLP)等领域取得了许多突破性进展。O.Vinyals[12]使用一个海量图片训练得到的深度卷积神经网络识别图像中物体,然后将神经网络输出作为图像向量表示,按图1.1的方式将向量用递归循环网络解析得出描述语句。DeepLanguageAgroupofpeopleCNNgenerationRNNshoppingatmarket.Therearemanyvegetablesatthefruitstand.图1.1基于深度学习的自然语言处理用于图像理解Fig.1.1ImageunderstandingusingNLPbasedonDeep-learning1.3论文组织框架第一章,绪论。介绍了图像理解的研究背景和研究意义,以及深度学习已经在自然语言处理等领域取得重大进展。介绍了国内外图像语义理解的研究现状。第二章,图像理解方法和自然语言处理的发展。介绍了图像理解的传统方法,随后介绍了深度卷积神经网络在图像分类挑战竞赛中击败传统方法并逐步成为竞赛使用的主流方法。最后,对自然语言处理的发展作了概述,介绍了递归循环神经网络等在自然语言处理领域的应用。第三章,图像语义理解系统评估。介绍了专业人员打分评估。然后,介绍了自然语言处理领域的机译系统评估标准BleU和ROUGE。最后,介绍深度学习工具Caffe。第四章,图像语义理解系统。首先介绍了O.Vinyals等使用深度卷积神经网络连接单层递归循环神经网络构成的图像语义理解系统NIC[12],将NIC的语句编解码层LSTM层加深即形成了本文的基于深度学习设计的图像语义理解系统DLNN。然后,说明了图像语义理解系统DLNN的结构、DLNN的预训练和有监督反向调优等,最后就系统的实现作了具体的介绍,并选取含有人的不同类图片验证了系统。第五章,D2LNN系统。首先介绍了R.Kiros[13]将图像、语音等的特征与含两层语句编解码层的顶层连接取得在细节上更好的表述,因此,本文按照相同的方式改进DLNN形成D2LNN系统。然后,对比了预训练和调优的误差曲线,预训练时的准确率和调优的准确率曲线,最后通过比对含人的不同类型图像经DLNN与D2LNN理解生成的语句对DLNN和D2LNN作分析,使用第3章介绍的BleU标准和ROUGE标准在公开数据库评估,给出了两者对比。第六章,总结和未来发展。对本文的主要内容小结,给出了可提升之处与今3 重庆大学硕士学位论文1绪论后需深入的方向。4 重庆大学硕士学位论文2图像理解方法与自然语言描述发展2图像理解方法与自然语言处理2.1传统图像理解方法概述基于统计和机器学习的理论方法研究成为人工智能领域研究的热点。统计学习、机器学习用于研究图像理解关键问题的传统方法主要有稀疏表达理论与方法、迁移学习、多视图学习和流形学习理论与方法。①稀疏表达理论与方法特征选择被采用来对图像有效“稀疏表达”,最先进行尝试的是利用l1-范数引导稀疏的回归模型lasso[14]。以lasso为代表,一大批强可解释性、高准确性,能对维数远大于样本数目的巨量数据样本特征选择的方法成为主流。如fusedlasso[15]、Grouplasso[16]等被陆续用在图像分类[17]、图像标注[18]。用在图像稀疏表达研究的理论集中在如何设计更好目标函数、更可解释的正则因子和更高效求解算法等方面,并且在不断地向前发展。特征选择和压缩感知方法理论结合来对图像形成更高效的“稀疏表达”近年来成为计算机视觉的热点研究问题,首先取得实质性进展的是NEC加州实验室研究员同伊利诺伊Thomas.Huang课题组合作,在PASCAL(PatternAnalysis,StaticalModelingandComputationalLearning)VOC2009挑战赛折桂[19]。②迁移学习实际中有标签数据数目常常很少,这与基于同一个基础的多数机器学习算法,同时也是训练数据上学习得到的预测模型可直接泛化应用于测试数据的基本前提——“训练数据和测试数据来自同一特征空间或有相同数据分布”[20]的假设相违背。这直接限制了算法应用于实际。半监督的学习在必须满足训练和测试数据来自同一特征空间或有相同数据分布下预测无标签数据[10]。迁移学习[20]是在知识层面沟通任务与数据域的模型,使得当训练数据在目标数据上难以得到的情况下,均能使用前述数据域和任务的模型,做法是在分析某一来源的数据时,图像数据被作为添加的信息达到辅助目的[21]。最近,子空间学习与稀疏编码在迁移学习中被大量运用,前者学习利用无监督或有监督降维方式,后者利用“数据稀疏可压缩”的先验知识重建跨域信号。与仅仅依靠单一来源的数据处理的实验效果相比,迁移学习得到了理想的效果,已有成功案例被应用到图像识别领域[22]。③多视图学习一张图像可提取多种异构的视觉特征,如颜色、纹理、形状等,在多模态融合中多视图特征采用的数据样本表示有多种,分属于不同的数据域或空间,这些特性互补,多视图学习[23]期望最大化使用多种表示间的互补,通过图上定义混合5 重庆大学硕士学位论文2图像理解方法与自然语言描述发展Markov链[24]或图拉普拉斯融合[23,25]进行学习,已有被应用到模式识别等领域的成功案例。④流形学习方法流形学习方法是线性降低维度办法的延伸。图像分类的惯用手法是将图像样本表示为线性空间的特征,用训练样本对预先定下的学习算法或分类算法通过训练抽取出隐含在训练样本中关于各类别的特性,确定准则得到模型后进行分类。考虑到因为训练样本数量与样本特征维度间不可调和的问题可能造成“过学习”,避免因为分类器训练的样本个数的指数级增长引起的“维度灾难”,具有代表性的一些线性方法,如多尺度分析(MDS),主成分分析(PCA)[26]等降维方法因其简单优良的特性被广泛使用。通过局部线性嵌入(LocallyLinearEmbedding)[27]和拉普拉斯特征影射(LaplacianEigenmap)[28]、局部不变影射(LocoallyPreservingProjections)[29]、等距影射(lsometricMapping)[30]等非线性办法较合理地弥补了线性方法难以发现待处理的部分数据具有的非线性结构的不足,在图像检索[31]等领域被成功应用。2.2卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一种深度人工神经网络[11]。CNN将特征提取和分类同时进行,可共享权值减少网络的训练参数。因CNN的适应性强,可将图像等二维数据直接作为输入,且需要的预处理工作极少,已被成功应用于手写字符识别[32],人脸识别,人眼检测,行人检测中[33]。2.2.1CNN在图像分类中的应用为测试识别算法的准确率与性能,图像研究人员开始举办PASCALVOC等竞赛。PASCALVOC举办之初只提供4类带有标签的图像,后来逐步增加图像的类数:2006年增加至10类,2007年增加至20类,这20类图片均是日常中常见的物体类别,其目的是为了体现算法的实用性。由ImageNet举行的图像类别是1000类的大规模识别竞赛项目(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)[34]在2012年以前的Top-5识别错误率最好成绩是25%。2012年,Hinton的弟子A.Krizhevsky等[35]开创性地将CNN应用于ILSVRC2012,在图像分类和目标定位任务取得第一。其中,图像分类任务中,CNN得到的Top-5错误率是15.3%,低于采用传统方法取得第2名的26.2%的错误率;在目标定位任务中,CNN的Top-5错误率是34%,也远低于采用传统方法取得第2名的50%。从2013年起,几乎所有参加竞赛的队伍均或多或少地使用CNN。M.D.Zeiler等[36]采用CNN在ILSVRC2013取得了图像分类任务的第一名,Top-5错误率是11.7%,如果采用ILSVRC2011数据进行预训练,Top-56 重庆大学硕士学位论文2图像理解方法与自然语言描述发展错误率更是降低到11.2%。ILSVRC2014几乎所有的参加队伍更是都采用卷积神经网络:GoogleNet最终以6.7%的分类错误率,取得图像分类“制定数据”组第一名;VGG小组取得目标定位“制定数据”组第一名。2015年ILSVRC,微软和Google将Top-5错误率降低到5%以内,5%的误判率已经超过了人类在图像分类任务上的能力。从深度学习首次于图像挑战赛崭露头角,到所有参赛方法均采用深度学习,从AlexNet的经典8层,到VGG的16层、19层[59],到GoogleNet的22层,CNN网络的深度在逐层特征变换、映射原始样本特征空间到新特征空间中不断加深。利用海量训练数据,训练得到网络权重等参数,与传统图像理解方法不同的CNN,可以提取到图像深层特征,用来作为图像语义理解中使用的特征。2.2.2图像的深层特征深度学习通过组合低层特征形成更加抽象的高层表示、属性类别或特征,给出特征的分层表示[37]。借助深度神经网络学习框架[38],研究人员成功地将深度卷积网络神经元对应的特征可视化了出来。图2.1是通过Alexnet网络前向传播,对一张小狗图像前向处理中,从第一层卷积向上,直到经过最大池化后的第5层卷积层,五个卷积层每一层输出的特征图。2.3自然语言处理2.3.1自然语言处理概述自然语言处理是语言学与人工智能的交叉学科。最初的自然语言处理是设计人为的符号传达给计算机,其中有突出贡献的成果有普林斯顿大学语言学家、心理学家和计算机工作者一起设计的WordNet,麻省理工学院(Massachu-settsInstituteofTechnology,MIT)的ConceptNet和伯克利大学的FrameNet。①WordNetWordNet是基于认知语言学的英语字典,根据词汇含义构成“联系网”用于呈现词汇间的联系[39]。WordNet包含语义信息,区别于描述词汇间的关系。WordNet通常按照词汇含义构成分组,将具有相似、相同含义的词按词性组成同义词合集,每个同义词通过感知语义和词汇关联相连接,WordNet中词与词之间的语义关联构成唯一的语义层次树。WordNet中的节点包含与被包含关系大致如下:目标是实体的下属,人造物品、自然物品和陆生生物、水生生物是目标的下属。如果需要找到对“海豚”更细致的理解,可通过WordNet结构直接搜索出“海豚”的子节点,进而确定出下属词得到目标的属性概念,如海豚的不同动作。7 重庆大学硕士学位论文2图像理解方法与自然语言描述发展(a)原图(b)第一层卷积层输出的前36个特征图(c)第二层卷积层输出的前36个特征图(d)第三层卷积层输出的前384个特征图(e)第四层卷积层输出的前256个特征图(f)第五层卷积层输出的前256个特征图图2.1原图和AlexNet各卷积层输出的特征图Fig.2.1OriginalimageandfeaturemapsofAlexNetconvolutionallayers②ConceptNetConceptNet是较WordNet广泛的语义网络[40]。例如,ConceptNet认为“遥控器”一词通常出现在“茶几”附近,词语间的这种关系不胜枚举。有些词语与词语间却建立不起关系,例如ConceptNet认为“茶几”不能被“叉子”叉起。③FrameNetFrameNet试图用框架对语义归档[41]。框架表示各种各样的概念及其关联的角8 重庆大学硕士学位论文2图像理解方法与自然语言描述发展色。小孩子的生日聚会框架的不同部分有着不同角色,比如娱乐活动、糖果来源和场地。此外,“购买”这个行为,包括买卖方和交易商品,计算机能够通过搜索触发框架的关键词“理解”单词。这些框架需手工创建,它们间的触发词语也需要手工关联。这种方式可以用来表示知识,可是由于内容众多,难以明确写出完全的内容。下面以“Alicewenttothetenniscourt”这句话的理解为例来阐述WordNet、ConceptNet和FrameNet的区别。WordNet只能提供与“went”关联的一组单词,ConceptNet能将“go”和“went”联系,但是实际上不懂得“go”真实含义,FrameNet有一个非常接近的self-motion的框架[42],可还不够,仍然不能用“tenniscourt”回答“Alice在哪里”。Bahdanau等使用深度学习设计了一种神经网络训练数据模拟问答,能用最佳的文字回答问题[43]。这表明神经网络可以编码抽象的逻辑,连接语言逻辑和自然语言。在深度学习出现以前,文字所包含的意思通过人为设计的符号和结构传至计算机。符号可用于创建语言模型,计算某个单词将出现在句中的概率。举例说明,假设刚刚写下“Ihaveeaten”,那么下个词语出现“bread”的概率可以用语料库中“Ihaveeatenslicedbread”出现的次数除以“Ihaveeaten”出现的次数来计算。这类模型相当有用,如“toastbread”与“slicedbread”非常相似,但模型并没有利用相似性的优势。因为词语组合实在太多,存储所有三个单词的短语就需消耗(词语数量的3次幂)的存储空间,这也是使用符号所带来的问题。如果要建模句中连续5个单词的联合分布,这些单词来自一个大小为10000的词典,则所需的自520由参数数目为100001101个。对于连续随机变量,建模时,由于函数通常局部光滑,表示模型时用较少的参数即可。但对离散空间,任何离散变量取值变化都可能导致被预估的函数值产生很大变化,并且当每个变量取值范围很广时,大多数训练范例间的海明距离(HammingDistance)都较远。为了解决经典的统计语言模型中维度灾难问题,Bengio提出了一种利用神经网络和无标签数据学习单词分布式表示的方法[44]。通过学习英文单词的分布式表示,使得训练范例可向模型中输入相对训练范例的个数来说指数级多的语义邻域的信息,他们的这一模型在学习单词分布式表示的同时,也学习得出了概率分布函数。他们还指出,该模型具有较好的泛化能力,其原因在于即使模型在测试中遇见一个训练数据中从未出现过的单词序列,若该单词序列在分布式表示的向量空间中与一个训练数据中出现过的单词序列距离相近,那么模型仍然能够给这一新的单词序列较高的概率。实验结果表明,通过这种方式构造的语言模型比传统的N-gram语言模型有显著性能提升。Bengio的这一工作是目前绝大多数神经网络语言模型的基础。9 重庆大学硕士学位论文2图像理解方法与自然语言描述发展Collobert[44]指出,自然语言处理领域的研究仍无法得到一个计算机可以处理的,并且能够完整无歧义表达自然语言的数据结构。因此,在这一根本性问题被解决前,NLP的研究转而寻求一个简化的目标,即找到一个表达结构来描述文本信息中有限的部分。从这一角度出发,产生了许多应用导向的表示自然语言的方法,如在信息检索领域被广泛应用的词袋(BagofWords,BoW)等。这些自然语言表示模型通常都是片面的,根据具体任务的要求不同,由工程师们手动设计完成,例如BoW由具备大量语言学知识的专家手动设计完成,另外因为其以任务为导向的本质,产生的一个弊端就是为追求某个具体评测数据集上性能的优秀而容易被过度设计。表2.1中展示了自2011年以来深度学习在自然语言处理领域的研究成果。表2.1深度学习在自然语言处理的研究Table2.1NLPresearchusingDeepLearning年份研究者内容Mikolov等基于递归神经网络的语言模型[45]2011Collobert等基于深度神经网络的NLP系统[7]Bordes等基于深度神经网络的语义解析系统[46]2012Socher等基于递归神经网络的组合语义解析系统[47]Dahl等商用的基于深度神经网络的语音识别系统[48]使用向量表示语义的方法被深度学习所运用,概念继而由特征值而并非由庞大的符号表示。符号只有不相同与相同两种情况,向量可以用相似性进行衡量,因此向量表示是概念表示上更有效的方法。2.3.2递归循环网络与字符级语言模型图2.2是一个训练字符递归循环网络(RecurrentNeuralNetwork,RNN)的实例,其中W_xh、W_hh、W_hy分别表示“输入层——隐含层的权重矩阵”、“隐含层——隐含层权重矩阵”、“隐含层——输出层权重矩阵”。图2.2显示了当将“play”输入时前馈的激活化结果,输出层包括了RNN对即将要出现的字符字母(“p”,“l”,“a”,“y”)的置信度。如图2.2中,训练的目的是提高标绿数字值的同时降低标红数字值。具体说来,在执行首次step函数时,RNN读取到字符字母“a”然后将可能在它之后出现的字符字母“p”的置信度设成0.5,可能在它之后出现的字符字母“l”的置信度设成0.3,可能在它之后出现的字符字母“a”的置信度设成-1.0,可能在它之后出现的字符字母“y”的置信度设成1.2。在训练数据过程中,因为最希望10 重庆大学硕士学位论文2图像理解方法与自然语言描述发展下一个出现的字符字母是“p”,所以要提高这个标绿色字符的置信度,与此同时降低标红的其他字符字母的置信度。一般会使用一个交叉熵损失函数,这等于是在每个输出向量上使用softmax分类器,以便将下一个要出现的字符字母的索引分类正确。一旦这个交叉熵反向传播更新了RNN权值,在相同的输入下,下一个被正确预测的字符得到的分数会更高。同样注意到:字符“p”首次输入时候,得到的预测结果是“p”,可第二次预测得到“l”。因此,此RNN不可单独地依靠输入的数据,而必须要使用递归连接,以达到跟踪内容准确得到结果的目的。训练字符级语言概率生成模型的具体过程:只有“play”这四个字符字母组成的词汇,经过对“apply”一番训练训练一个RNN。这个训练实际上是4个独立的过程:①字符字母“p”应该在“a”出现后才可能出现;②字母“p”同样可在“ap”已出现的情况后出现;③字符字母“l”应该出现在“app”出现的情况之下;④字符字母“y”则应该出现在“appl”已现的情况下。训练前用独热编码(1-of-n编码,字符字母被索引的位置除外所有元素都为0)将每个字母编码为一列向量,随后step函数每个时间向RNN输进一个字母字符。我们会得到一个4维的输出列向量(每个字符代表一个维度),从而将此作为RNN分给序列下一个字符字母的置信度值。目标字符pply0.50.10.21.0输0.30.5-1.52.2出-1.01.9-0.1-3.0层1.2-1.12.24.1W_hy隐0.31.00.1W_hh-0.3含-0.10.3-0.50.9层0.90.1-0.30.7W_xh0110输0001入1000层0000输入字符appl图2.2字符概率语言模型的训练示意图Fig2.2TrainingRNNcharacter-levellanguagemodel11 重庆大学硕士学位论文2图像理解方法与自然语言描述发展h0h1h2h3h4Theboyatetacos.图2.3英语单词词向量化Fig2.3EnglishwordstovectorElchicocomiótacos.h4h5h6h7h8图2.4单词词向量转化成西班牙语Fig2.4VectortoSpanishwords图2.3中讲述了原来表示单个词语的向量可以用RNN将“Theboyatetacos.”编码成向量,记作h4。“the”的单词向量记作h0,然后RNN将h0与表示“boy”的单词向量结合,生成新向量h1,然后向量h1继续与下一个单词“ate”结合,生成新向量h2,直到向量h4。向量h4表示的是“Theboyatetacos.”。图2.4中讲述了信息被编码成向量h4后,可以将其解码成另外一种形式,如将h4翻译(解码)成西班牙语,它根据已有的向量h4生成一个最有可能的单词,向量h4与新生成的单词“El”一起又产生了向量h5,在向量h5的基础上,RNN推出下一个最有可能出现的单词,“chico”。重复进行,直到产生句点h8,网络也到此终止。解码的结果可以任何形式输出,例如可作为理解图像的描述等等。R.Kiros[13]等将语音特征或图像特征输入得到多模态神经网络语言模型MLBL-B(Modality-BiasedLog-BilinearModel)。O.Vinyals[12]等的NIC使用一个在海量图片上已训练的神经网络识别图像中物体,将神经网络输出作为图像向量表示,将向量用解码器解析出语句。12 重庆大学硕士学位论文2图像理解方法与自然语言描述发展输出层隐藏层输入层时刻t=1t=2t=3t=4t=5图2.5递归循环神经网络的梯度消失现象Fig.2.5GradientsvanishingintrainingRNN2.3.3长短时记忆循环网络RNN已经在字符模型生成方面有成功表现,从长期的动因来看,为了梯度下降,循环网络的多层迭代会造成“梯度消失”[49]等问题,所以RNN在保持较长时的序列动因稳定上难度很大。长短时记忆循环网络(Longshort-termmemory,LSTM)在每个时间点对初始记忆的敏感度(图2.5中灰色的深度,灰色深度越低,表示敏感度越低)却不像RNN那样变化的十分迅速,因此不会像RNN在“忘记”初始信息上那样随着时间的推移一次次地被覆盖,从而不会很快将这些信息遗忘。LSTM在何时应该忘记前面的隐含状态和何时应该更新隐含提供新的信息的权衡上,给出了将内存单元合并等等新的方案去解决“梯度消失”问题。LSTM与RNN一样也由输入层、隐含层和输出层构成,LSTM的隐含层由一系列递归连接的记忆模块组成,这些模块可以视作系统中特殊的记忆单元,如图2.6中所示,每一个记忆单元包含一个或多个递归联接的记忆细胞(MermoryCell),和三个复合单元:输入门,输出门、遗忘门。输出门复合输出,输入门复合输入,前一时刻的神经元值与遗忘门复合,所有的单元只能通过控制门作出反应。长短时记忆循环网络用记忆模块克服RNN中的“梯度消失”。通过控制门可以限制新信息扰乱神经元中已存信息,这样可以使LSTM模型能够在较长的时间保存以往时间步的信息并向下传递。LSTM通过图2.6中的三个控制门将梯度信息保存在时间序列上继续传递。图中“”表示sigmoid函数,“tanh”是双曲正切函数。13 重庆大学硕士学位论文2图像理解方法与自然语言描述发展输出门tanh页-1记忆细胞忘记门输入门tanh图2.6长短时记忆循环网络记忆单元Fig2.6Longshort-timememoryunit双曲正切函数的数学定义如式(2.1)所示。xxeetanhx(2.1)xxee2.4本章小结本章首先对图像理解的传统方法和CNN进行了概述,随后介绍CNN因在图像分类挑战赛上取得的Top-5错误率远低于传统方法而渐渐成为竞赛的主流方法。应用已有深度学习的框架可视化出了经典CNN网络AlexNet每个卷积层提取出的一幅小狗图像的特征图。然后介绍了自然语言处理的发展,最后介绍了目前有学者采用递归循环网络的自然语言处理方法与卷积神经网络结合生成图像的描述语句,即图像的语义化理解。14 重庆大学硕士学位论文3图像语义理解系统的评估3图像语义理解系统的评估3.1专业人员打分评估专业人员打分评估是指[50]选取以英语为母语的21个本土成人,让他们根据一定的评分细则,在规定的10分钟内为50个“图像——语句”对独立完成打分,同时要求每一幅图像由系统生成的语句要经过3位不同的打分员打分,平均分作为该幅图像的生成语句最终得分。专业人员打分评估要求打分人员必须接受过传统的教育,可以直接从图像语义化理解系统研究者当地的高等院校在读生中寻找。打分采用分层级的方式,分值范围1分到4分。分值越高表明句子对图像理解得越好。图3.1中是专业人员打分评估评分细则示例用图。表3.1是得分为4分的“图像——语句”对评定标准,选取图3.1的a和b。表3.2是得分为3分的“图像——语句”对评定标准,选取图3.1的c和d。表3.3是得分为2分的“图像——语句”对评定标准,选取图3.1的e和f。表3.4是得分为1分的“图像——语句”对评定标准,选取图3.1的g和h。abcdefgh图3.1专业人员打分评估评分细则示例用图Figure3.1Sampleimagesofprofessionalevaluationrules15 重庆大学硕士学位论文3图像语义理解系统的评估表3.1得分为4分的“图像—语句”对Table3.1“Image—Sentence”Pairscoresfour图片语句aAgirlwearingredshirtandglassessmilesbAzebraisstandingonafieldwithazebra.表3.2得分为3分的“图像—语句”对Table3.2“Image—Sentence”Pairscoresthree图片语句cTwolittleboyspraticemartialarts.dAboyjumpsintothepoolwater.表3.3得分为2分的“图像—语句”对Table3.3“Image—Sentence”Pairscorestwo图片语句eAboyisstandingonasurfboardinthewater.fAgroupofpeopleisplayingbaseballonthefield.表3.4得分为1分的“图像—语句”对Table3.4“Image—Sentence”Pairscoresone图片语句gAsnowboarderintheairoverasnowymountain.hAmanisclimbingupasheerwallofice.表3.1所示的“图像——语句”对,得分为4分,表示语句本身无任何错误和不妥,能准确与图像对应,能反映图像视觉端要传达的信息;表3.2所示的“图像——语句”对,得分为3分。指的是语句几乎能反映图像的主要信息,可能在图像中(主体数目,如人的数目)有细微的描述出入,语句稍作改动后可以用作理解图像。表3.3所示的“图像——语句”对,得分为2分,表示只能部分理解图像,此语句不可以用作理解图像;表3.4所示的“图像——语句”对,评分为1分的句子错误百出,或理解出的句子与图像无任何的关联(图h中一盘饭菜被描述为一个人在攀爬冰川)。由于专业人员打分是一种最耗时的评估,仅仅评估在接受语义理解的图像集中排在前面的“图像——语句”对,即接受语义理解的图像集合的16 重庆大学硕士学位论文3图像语义理解系统的评估子集,通常选取得分2分至4分之间的那些图像和系统对其进行理解得到的语句,作概率分布。3.2单纯语句评估人们常通过对比译出句子相较范文例句的保真度和译出句子本身的流利度衡量一个机器翻译系统性能的好与差。一个好的描述语句要尽可能地简洁,在长度和用词选择、词语次序上要求都要好[51]。忠实于源语句的译文可以有许多种翻译方式。翻译同一源语句,即使译文使用的是相同的词,也可能因为词排序的不同造成生成的句子质量的好差。下面是一个将“部队的行为准则是永远跟着党走”译成英语的实际例子。句子1:ItisaguidetoactionwhichensuresthatthemilitaryalwaysobeysthecommandsoftheParty.句子2:ItistoinsurethetroopsforeverhearingtheactivityguidebookthatPartydirect.有过英语学习经历的人浏览一遍可以分辨出第一句话更贴切更符合语法规范。第二句明显不符合英语语法规范。计算机与有过英语学习经历的人不同,计算机不能通过读一遍语句即分辨出其是否是通顺的,符合语法规范与否,忠实于范文例句与否。借助NLP的词语向量化,计算机可以度量翻译出的一句话与范例句子之间的值。一个可以用作评估的标准概括地说需要两个要素:一个度量,去衡量译出句子与范文间的距离值;一个高质量的范例语料库。下文将从单纯语句方面对图像语义化理解系统的评估作介绍。①BleUBleU(Bilingualevaluationunderstudy)是IBM于2002年提出基于范例的机器翻译评估方法[51],其评估的核心思想是:译文越接近于人工翻译,其评估的得分也越高。这种评估方式属于单纯对语句的流利程度和语句是否存在语病的评价准则。BleU的具体计算方法如式(3.1)至式(3.3)所示。NBleUBPexp(wnnlogp)(3.1)n11ifcrBP(3.2)(1rc/)eifcrpnCountnc(元词)/(3.3)译文{}范文n元词译文式(3.1)至(3.3)中,BP表示句子长度的惩罚因子(下文将具体阐明为何要使用这个惩罚因子项),c表示译文的长度,r表示范文的平均长度,N表示所考虑17 重庆大学硕士学位论文3图像语义理解系统的评估的重叠词组的最大长度,N的上限取值是4,wNn1/。BleU基于n元词匹配,n元匹配指的是生成文本语句中与范例语句中任意连续n个单词全相同,n为任意正整数。p是输出译文句子和范例句子词组的平均重合率,表示译文与范例重叠的nn元词组占全部n元词组比率,p是BleU计算中最核心的部分。基于n元词匹配的n方法与常用精准度计算十分类似,先统计译文与范本语句共同出现的n元词匹配个数,除以相应的译文n元词的总数目,比值表示n元准确率。举例说明,翻译“部队的行为准则是永远跟着党走”。句子3:ItisaguidetoactionwhichensuresthatthemilitaryalwaysobeysthecommandsoftheParty.句子4:ItistoinsurethetroopsforeverhearingtheactivityguidebookthatPartydirect.范例1:ItisaguidetoactionthatensuresthatthemilitarywillforeverheedPartycommands.范例2:ItistheguidingprinciplewhichguaranteesthemilitaryforcesalwaysbeingunderthecommandoftheParty.范例3:ItisthepracticalguideforthearmyalwaystoheedthedirectionsoftheParty.句子3中除了“obeys”这个词,其余17词均在范例中出现,因此其一元准确率为17/180.944,二元准确率10/170.588;句子4中有14个单词,其中有8个出现在3个范文中,一元准确率为8/140.571,二元准确率1/130.077。人工评判可得句子3比句子4更加贴合3个范例语句,可见这种n元准确率计算结果高低与人工评判高低是一致的。可是再观察下面的译文语句与范例。句子5:thethethethethethethe.范例4:Thecatisonthemat.范例5:Thereisacatonthemat.按照标准n元准确率计算方法,句子5的每一个词都在范文中出现过,一元准确率为7/7。像句子5这种投机的方法需要在评测时考虑在内,并加以处理,以保证那些已经用于计数的词不被重复计算:统计出n元词在一个句子中可能出现的最大次数,即该词在译文中出现次数中较小值Countclipmin(CountMax-Ref-Count,),Count表示某n元词在译文中出现次数,Max-Ref-Count是该n元词在范例中最大的出现次数,Countclip是取Count和Max-Ref-Count二者间的最小值。从上例中可看到,“the”这个词在句子5中出现7次,但在范例4和范例5中最多也只是出现两次,因此计算一元准确率时只能计2次。这种策略被称作修正n元准确率计算方法。18 重庆大学硕士学位论文3图像语义理解系统的评估将一元匹配修正公式代入公式(3.3)可得到式(3.4)。pnCountclipnCountn(()元词)/元词(3.4)译文{}范{}文nn元词译文译文范文元词译文式中CountclipCountMax-Ref-Countmin(,)。修正后的方法得出句子5的一元准确率是2/7,二元准确率是0。运用修正的n元准确率计算方法的原因可被解释为:对于同一个n元词,如果在同一个范例中出现频次多于译文中的次数,那说明译文很可能缺失了此部分的信息;如情况相反,表明译文给出冗余信息,不该被重复计算。还有一个问题,计算n元准确率是以译文的n元词数作分母,如果译文“取巧”追求高准确度,会使译文变得非常短小。句子6:alwaysto.范例6:ItisaguidetoactionthatensuresthatthemilitarywillforeverheedPartycommands.范例7:ItistheguidingprinciplewhichguaranteesthemilitaryforcesalwaysbeingunderthecommandoftheParty.范例8:ItisthepracticalguideforthearmyalwaystoheedthedirectionsoftheParty.句子6仅仅给出两个词,一元准确率是2/2,二元准确率是1。这样看来需要考虑再加上针对于句子长度的限制:若译文的词数少于范文中的词数,则对分数乘一个系数作惩罚。通常这个长度惩罚是在整个测试的集合上而非句子层面上进行,目的是增加灵活度。上述即BleU方法的基本计算方法。由于BleU是基于n元匹配的,在实际使用n元匹配模型时一般只使用bi-gram(二词匹配)和tri-gram(三词匹配),高于BleU-4的评测因为需更大语料库,精度和参考性不高,因此通常不使用。BleU方法显而易见的优点是只需通过比较译文和多个范例将字面上的相似度即可打分,实施简单,且已有实践证明,使用该种方法对机器翻译的译文质量进行评测,其结果与人工测评结果一致。BleU对于测试自然语言生成系统生成的语句流利性的确是有益的,而对于其中具体陈述的内容却无实质上帮助[52]。②ROUGEROUGE[53](Recall-OrientedUnderstudyforGistingEvaluation)在2004年的文本理解会议(DocumentUnderstandingConference,DUC)中被作为评价方法。ROUGE是基于n元词共现统计方法。ROUGE计算译文与范例之间共现的个数,数学计算如式(3.5)所示。ROUGECountmatch(n元词)/Countn(元词)(3.5)译文{范文}nn元词译文译文{范文}元词译文19 重庆大学硕士学位论文3图像语义理解系统的评估式中,Countn()元词是译文与范文间同现的n元词的个数。match与BleU面向精确率的方法所不同,ROUGE是一种面向召回率的方法,ROUGE也是基于n元词的方法,机译系统生成的译文越长,对范文覆盖度就越高,本文在第5章中使用ROUGE,也仅仅进行了一元匹配。3.3系统实验平台3.3.1Caffe本文设计的系统是在Linux(ubuntu14.04,64位)平台和开源深度学习框架Caffe[38]上设计的。Caffe是一个基于C++的、提供了支持Python,Matlab等语言的接口,采用反向传播算法的高简洁性、强可读性和性能优良的深度神经网络学习框架,由BVLC(BerkeleyVisionandLearningCenter,伯克利视觉学习中心)主要开发和维护。Caffe允许在CPU/GPU间切换,是目前更新速度快,活跃度最高,速度最快的开源神经网络训练工具之一,斯坦福大学MahdiM.Kalayeh等[54]使用型号K40的GPU用Caffe在12小时内成功训练6千万张自拍图片。Caffe提供非商业用途的预训练得出的模型,如为ImageNet竞赛设计并用120万张图片训练得出的AlexNet模型,BVLC还使用Caffe调优(fine-tuning)得到一个在分类1000类图片数据上更为优异的模型bvlc_reference_caffenet。①结构Caffe由Layer、Blob和Net三层结构构成。Blob是Caffe的基本数据结构,Caffe的数据存储、交换等操作都是以Blob形式进行;Layer实现深度网络模型中某个具体的层,包含前向传播和后向传播两部分计算;Net由一系列的Layer构成[55]。②Blob一个4维数组(Num,Channel,Height,Width),其中Num(即batch-size)是输入网络中每个批次包含的图像数量,Channels是图像的特征维度,Height是图像的高度,Width是图像的宽度。Blob采用行优先(Row-major)存储,假设N是输入网络中每个批次包含的图像数量,K是图像的特征维度,H是图像的高度,W是图像的宽度,那么其数据维度是NKHW,(n,k,h,w)的位移量是((nKk)Hh)Ww。Blob的值由当前Layer的类型和配置所决定,同时它具有在CPU和GPU间同步的能力。③Layer每个Layer的底部输入(BottomInput)和顶部输出(TopOutput)都是采用Blob形式。Layer内部有三种操作:20 重庆大学硕士学位论文3图像语义理解系统的评估1)初始化(Setup),在模型建立时进行层的初始化;2)前向传播(ForwardPass),根据底部输入计算顶部输出,并将结果作为上一层的底部输入;3)后向传播(BackwardPass),根据顶部输出反向计算底部输入的梯度(Gradient),如果当前层存有网络模型的参数权值llw和偏差量b,那么Caffe计算这些参数的梯度llw和b并将其保存。Caffe已实现多种常用的Layer层,包括卷积(Convolution)、池化(Pooling)、局部响应归一化(LocalResponseNormalization)、全连接(FullConnection)、损失函数(LossFunction)、数据(Data)等层。其中每个Layer的前向和反向传播都有CPU、GPU两个版本。④NetNet是一系列Layer组成的图,采用ProtocalBuffer的结构化数据存储格式。一个典型的Net从数据层开始,到损失函数层结束,Net在CPU和GPU上都可无障碍运行。3.3.2Caffe的特点Caffe具有强大的计算能力,即使在几千万个参数和几百万个样本上也可以训练[55];Caffe开放的接口使得算法设计者可以十分方便地进行神经元个数、初始化权重参数和网络结构等模型设计,以及调整学习率,优化输入网络中的最小样本数量(mini-batch)等参数。Caffe具有的优势还有:①易用性Caffe以配置文件的方式记录所要训练的网络模型,各种运行时的时间、总耗时等参数,其中的模型解决方案(solver_model)标签位提供了CPU和GPU间的无障碍切换。这种配置文件与源代码分离的方式,屏蔽了Layer内部的实现细节,易于研究者使用,使得研究者可以更加专注于模型设计和参数的调整。②速度快由于高速数据存取库LMDB库的支持,并有数学库NVIDIAcuBLAS、IntelMKL和日志记录Glog等的辅助,Caffe高效的训练性能在学术界和工业界均有体现。③广泛的使用领域截至目前,Github已经有超过2000名开发者对Caffe开源项目进行维护,Caffe的应用领域从最开始的视觉领域,逐步扩大到语音、机器人、神经科学和天文学领域。3.4本章小结本章首先介绍了评估图像语义理解系统的专业人员打分方式,这种评估方式21 重庆大学硕士学位论文3图像语义理解系统的评估准确但是十分耗时,随后介绍了评价机译系统的BleU和ROUGE。最后介绍了本文系统的实现平台和深度学习的框架Caffe。22 重庆大学硕士学位论文4图像语义理解系统4图像语义理解系统O.Vinyals等将CNN的输出与LSTM结合产生语义化理解图像的NIC[12],NIC的模型结构如图4.1。NIC可将静态的图像生成有主语、谓语和宾语的句子。本文设计了图像语义理解系统(Data-to-lstmneuralnetwork,DLNN),DLNN将CNN输出特征连接至具有语句生成功能的两个LSTM层。这区别于NIC在语句编解码阶段所使用的单层LSTM。本章从以下几部分讲述DLNN系统:系统模型预训练,包括交叉熵损失更新机制;DLNN的有监督反向调优;在使用长短时记忆循环网络解码中使用的时域连接模型。本章最后进行了系统实现。logp(Sw1)logp(Sw2)logp(SwN)p1p2pNLSTMLSTMLSTMLSTM.........WeSw0WeSw1WeSwN-1Sw0Sw1SwN-1image图4.1NIC模型图Fig4.1ModelofNeuralImageCaptionGenerator4.1DLNN系统概述图4.2中是DLNN的网络模型图示意图,其中的长短时记忆神经网络层是两层的LSTM。如图4.3所示的是由BVLC对ImagenetILSVRC2012年的大规模分类竞赛中取得优异成绩的AlexNet模型进行有监督调优后得到的模型23 重庆大学硕士学位论文4图像语义理解系统bvlc_reference_caffenet,图4.2中的图像特征(image_features)是每张图像经过bvlc_reference_caffenet,取出第三个全连接层的特征,即fc8。此向量是经过8层的卷积、最大池化[56](OverlappingMax-Pooling,王振等已经验证了选择过大的特征使得训练存储不方便,且在预训练阶段容易产生过拟合[57]。本文中也使用了bvlc_reference_caffenet中的最大池化方式)后得到的一个维度为1000维的向量。图4.2DLNN模型图(使用Caffe绘制)Fig4.2ModelofDLNN(DrewbyCaffe)范例语句的一个单词被表示为向量,具体的做法是将词独热编码。编码得到的词向量长度等于单词本(vocabulary)的词汇量大小。提供适当的标识符指示一句话开始(#START#)与结束()。设计DLNN模型时采用2层的LSTM,被划分顶部和底部层,底层建模图像特征,同时承担词嵌入。图4.4是连接从底部到顶部层的框架。DLNN系统理解图像的过程:①输入图像,将图像裁剪或缩放成为预先设定指定的大小;24 重庆大学硕士学位论文4图像语义理解系统图4.3bvlc_reference_caffenet模型图(使用Caffe绘制)Fig4.3Modelofbvlc_reference_caffenet(DrewbyCaffe)25 重庆大学硕士学位论文4图像语义理解系统logp(Sw1)logp(Sw2)logp(SwN)p1p2pN-1LSTMLSTMLSTMLSTM.........LSTMLSTMLSTMLSTM...WeSw0WeSw1WeSwN-1Sw0Sw1SwN-1image图4.4CNN输出图像特征经DLNN系统两层LSTM处理Fig.4.4ProcessingofimagefeaturemapsofCNNthroughtwo-layers-LSTM②提取调整大小后的图像CNN特征,第三个全连接层的输出fc8;③将输出的CNN特征向量输入LSTM(已经将文字预处理生成可供在语义理解的语句生产阶段查询使用的字典dictionary);④对语句进行独热编码,在字典中将每一个单词表示成为一个与字典的长度相同大小维数的向量,只有一个元素为1,其余元素均为0;⑤用底层LSTM对嵌入的词向量输入编码,同时将图像作为输入,在时刻t=0输入到底层LSTM中,每个元胞共享权值;⑥用顶层LSTM对已编码的图像的特征和已经过两次编码后的语句中的单词向量开始解码,输出预测出的下一个单词。4.1.1预训练DLNN系统模型同以往的深度网络一样采用有监督的反向传播训练,这一被G.E.Hinton于2006年证明可以有效地解决模型过拟合的手段。通过预训练,构造深度神经网络后,采用有监督调优训练(SupervisedTraining)。具体来说即,按需要在最后一个隐藏层后连接一个softmax分类器,softmax分类器负责使用特征抽26 重庆大学硕士学位论文4图像语义理解系统取器抽取出的复杂高层特征完成具体的分类任务。DLNN采用能够有效提高深度神经网络性能的基于梯度的反向传播算法。从优化的角度来说,反向传播算法是一种基于梯度的优化算法,其优化过程是从模型参数空间中的某个初始位置开始,在参数空间中根据梯度寻找目标函数的极值点。但是由于深度模型中的梯度消失问题,如果从模型参数空间的随机位置开始搜索(随机初始化深度模型的参数),这一搜索过程将非常困难,因此反向传播算法无法被有效地直接用于训练深度模型。但DLNN通过预训练可以预先调整模型的参数,使得在基于梯度的搜索开始之前就将模型参数置于参数空间中相对靠近极值点的位置,此时再根据梯度寻找极值点相比于从随机位置开始寻找极值点将容易许多。DLNN系统训练LSTM的过程可理解为编码和解码的过程,编解码过程可以认为是采用1000个单元组成的隐含层作为编码器解码器,对均方误差函数作目标来优化。训练后将原始数据影射到数据集的前8801个主成分构成的空间中。经训练后的编码器的编码部分可以有效地构建出原始数据的分布式表示,然后线性地输出给softmax层,影射成某一时间步的输出概率分布。4.1.2交叉熵损失的更新LSTM网络训练连续的数据时通常参数规模大,收敛速度慢。考虑到实验硬件条件,为了加快收敛速度,使用LSTM时本文设计使用了如下的交叉熵损失更新。步骤如下:①建立两个结构相同的,由两层LSTM层(每层包括1000个隐含胞元)和线性循环影射层构成的深度长短时记忆循环神经网络模块,深度是指每个长短时记忆循环神经网络的输出为下一个长短时记忆神经网络的输入,第二个长短时记忆循环神经网络的输出为整个系统的输出。②分别将范文例句对应的向量和译出语句对应的向量作输入送入上述的两个模块;③对两模块相关联、对应起来的LSTM层的所有参数计算出交叉熵衡量两个模块之间的信息分布差异,通过一个特定的影射层,实现交叉熵参数在每一个时刻更新一次。图像经过深度卷积网络后输出第三层全连接层的向量,结合编码后的语句中词的向量得到x[(1),(2),xx,(t)]x输入,即整个模块的输入。这个LSTM层的输出被作为第一个线性循环影射层的输入;下一个线性循环影射层的输出被作为第二个线性循环影射层输入。范文例句作输入的长短时记忆循环神经网络模块中,第二个线性影射层输出的是整个长短时记忆循环神经网络模块在时刻t的最终输出y[(1),(2),yy,(t)]y,而译文语句为输入的深度长短时记忆循环神经网络模块27 重庆大学硕士学位论文4图像语义理解系统中的最后一个线性循环影射层的输出舍弃。上面所述的LSTM层由记忆细胞、输入门、输出门、忘记门和双曲正切函数及乘法器组成,其中LSTM层在tT1,时刻的LSTM组合的参数按如下公式(4.1)至公式(4.7)算出。yt范文输入译文输入xtmt1G深度长的短时记忆深度长的短时记忆outputf循环神经循环神经bt网络长短时记忆长短时记忆网络层层输出门交叉熵线性循环影线性循环影c射层射层t1xt线性循环影射层mGforget记忆细胞t1x长短时记忆长短时记忆to层层bt忘记门ctm交叉熵Gt1inputibt线性循环影线性循环影射层线性循环影射层输入门射层cxb输出输出tmtt1(a)交叉熵损失更新示意图(b)长短时记忆神经网络输入输出示意图图4.5交叉熵损失更新机制Fig.4.5Updateofcrossentropyloss输入门控制单输入x和前一步输出h进入记忆细胞的信息量,在时刻t的输tt1出如式(4.1)所示。iGinputWxixtWmimttb1(4.1)1x(4.2)x1e式中是sigmoid函数,定义如式(4.2)所示,Ginput为输入门的输入,Wix是输入门it与输入xt间的权重,mt1是线性循环影射层在t1时刻的输出,Wim是输入门在i时刻t的it与mt1间的权重,bt是输入门it的偏差量。忘记门f决定是否清除或者保持单一部分的状态,在时刻t的输出如式(4.3)t所示。fGforgetWxfxtWmfmt1bt(4.3)式中Gforget为忘记门的输出,Wfx是忘记门在时刻t的ft与输入xt间的权重,Wfm是f忘记门在时刻t的f与m间的权重,b是忘记门f的偏差量。tt1tt记忆细胞状态更新,计算下一个时间步的状态使用经过门处理前的状态和输入,式(4.4)至式(4.8)表示了记忆细胞由时刻t1更新至t的过程。28 重庆大学硕士学位论文4图像语义理解系统cctGforgetcGtinputWxcxtWmcmtt11btanh(4.4)式中代表矩阵相乘,tanh函数是双曲正切函数,定义如式(4.9)所示,Wcx是记忆细胞在时刻t的ct与输入xt间的权重,Wcm是记忆细胞在时刻t的ct与mt1间的c权重,b是记忆细胞c的偏差量。ttoGWxWm()b(4.5)outputoxtomt1t式中Goutput为输出门的输出,Wox是输出门在时刻t的ot与输入xt间的权重,Wom是o输出门在时刻t的ot与mt1间的权重,bt是输出门ot的偏差量。yGcm(4.6)t1outputtt式中y为线性循环影射层在时刻t的输入。tmytttanh(4.7)式中m是线性循环影射层在时刻t的输出。tpmttsoftmax(4.8)式中softmax的定义如式(4.10)中所示,p是一个LSTM子模块在时刻t的输出。txxeetanhx(4.9)xxeeexksoftmaxxKx,(4.10)eii1式(4.10)中,x表示softmax函数的第k个输入。k在长短时记忆循环神经网络模块分别取位于同一级的LSTM子模块输出作为一个更新子模块的两个输入,一个更新子模块由交叉熵和线性循环影射层组成,两个更新子模块串联成更新模块,第二个更新子模块的输出作为整个更新模块的输出。更新子模块中的交叉熵按照式(4.11)计算。dx,x=xlnx1212dtxlnx21dt(4.11)式中,d即是交叉熵,x和x是本更新子模块的两个输入,即范例和译句经自动12编码后转化成的语义向量为输入的长短时记忆神经网络模块中的子模块的输出。线性循环影射层的输出按照公式(4.12)计算。p'=softmax(d)(4.12)式中p'是整个更新模块的输出矢量,d代表交叉熵。其中,softmax定义如式(4.10)所示。4.2调优和时域连接模型4.2.1调优在卷积神经网络作图像分类的应用中,为了使bvlc_reference_caffenet网络得29 重庆大学硕士学位论文4图像语义理解系统到更好的效果,在一个仅有猫、网球拍和松鼠的三类图像测试库中取得更好的分类效果,通常想到的方法是训练大量的这三类的图像形成一个三分类的网络。这样往往在预训练阶段耗费大量的时间。因为已有的bvlc_reference_caffenet模型可以初始化训练的参数,调优(fine-tuning)该模型可以使网络在一开始的参数选取上没有那么大的随机性,从而可以快速得到需要的模型。通常在收集好已归类的数据集,配置好网络、设定网络结束的最大迭代次数后,即可对已有权重模型有监督调优。定义调优的Net、Layer时需关注的事项:①初始学习率的修改是否需要对训练原模型时使用的初始学习率进行修改,这取决于样本与原来模型使用的分类图像的迥异。一般来说,例如,要得到能用于门牌号码识别的RNN网络会选取已经有的可用于手写数字识别的MNIST模型调优,初始学习率若为0.01,则修改为0.001即可开始调优。②被修改目标层的命名对要作改动的层在配置文件中重命名以区别于原模型。③最大迭代运行次数的修改一般是选择得到原模型的训练最大迭代次数的1/3至1/2。④模型保存的文件夹位置和模型命名选择一个可在使用阶段顺利找到的空文件夹,模型命名要区分于原模型的名称,如在命名的最后中加入“_finetune”。输入网络的图像大小是任意的,被提取出的特征却固定。理解出的语句是序列化的,语句序列长度不是固定的。对一个LSTM,将图像的特征作为输入,LSTM编码解码后序列生成的单词向量作为输出。CNN+LSTM预训练后,给出了目标句子回传的误差。同时使用CNN与LSTM,而非单独一个LSTM作图像语义化理解,这对于获得良好的语义化理解是很重要的。这里的调优是指对预训练后得到的DLNN模型中长短时记忆循环网络LSTM所代表的语义生成模型调优。对DLNN调优的是图4.6中语句生成模型。4.2.2时域连接模型在语句生成中,训练算法是根据每个时间点计算错误率的,而训练的数据已知是整个vocabulary的标签,并不是基于每个时间点的。使用时域连接模型(ConnectionistTemporalClassification,CTC)连接的作用即是将LSTM网络的输出标签,影射至基于标签序列所有可能性的概率分布,再影射至真值序列标签(词典标签),对词典来说就是一个个的单词。如一个长度为50的输入序列x,有1000个输入、8801个输出的LSTM单层网络,将其权重向量定义为连续的影射TTt10008801yNx为网络输出的序列。y是单元k在时刻t的Nw:RR,令wk30 重庆大学硕士学位论文4图像语义理解系统'T概率,通过长度为T的序列在L的集合上定义一个分布,如式(4.13)。TtT'pxyL|,(4.13)tt1式中是阶乘,LL'={空格},是'T中元素组成的路径。L设不同时间点处神经网络的输出间互相条件独立,给出网络内部状态。定义'TTT影射:BL:L,其中L是可能的标签集合,然后将所有的“空格”标签、重复标签从路径中移除。例如B定义B-(aaabb)B----(aaaab)aab,其中的一个“-”表示一个空格。当标签在神经网络的识别当中从“空格”变非空,或标签从一个转至另一个,TCTC对应地输出一个新标签。最后通过B定义给定标签LL的条件概率是所有与其对应的路径的概率求和,其数学定义如式(4.14)所示。图4.6DLNN中的语句生成模型(使用Caffe绘制)Fig.4.6ModelofDLNNsentencegenerator(DrewbyCaffe)plx||px(4.14)1Blsoftmax分类出的应为输入序列最有可能的标签序列,其数学定义如式(4.15)所示。hxargmaxplx|(4.15)TlL31 重庆大学硕士学位论文4图像语义理解系统4.3系统的实现首先配置DLNN系统网络的一系列训练参数。系统根据用户具体配置,生成DLNN深度神经网络模型,使用DLNN网络完成训练后得出的模型保存在用户指定的文件位置。用户可以使用该模型自行生成语句代表一幅图像的理解。下面将说明DLNN系统的前向传播,在初始输入时刻,将x代表输入图像的卷积-1神经网络第三个全连接层的输出向量,即是从CNN网络的第8层输出的图像深层次特征xVCNN输入底层LSTM,其中V是输入的图像,作为语句生成模型知-1晓图像主体与主体主要特征信息的方式。通过p实例化第一个单词,提供相关以前已嵌入的语句作为输入并实例语义1化p,这样实例化语义直到句子的终点(结束的标志,),将替换成2句号(“.”)。DLNN系统模型在时刻t时,顶层LSTM的最终输出应该是一个概率分布,满足pSVS|,S,,,其中V是输入的图像,S(it0,,)是模型在时间wttww01wi步i输出的词向量。从t0时刻开始,直到tN时刻终止的N步,每一步生成系统认为最贴切的单词,就是将在整个网络的顶层,输入的被作理解图像的语义向量与输入的被向量化后的单词对应向量的负似然损失函数最小化,如式(4.16)所示。NLVS,logpS|,VS,,Stwwwtt11(4.16)t1式中LVS,是负似然损失函数。最后,综合前t1时间步的输出作为当前时间步的解码输出。32 重庆大学硕士学位论文4图像语义理解系统图4.7DLNN系统模型详细预训练网络图(使用Caffe绘制)Fig.4.7DetailsofDLNNpre-training(DrewbyCaffe)33 重庆大学硕士学位论文4图像语义理解系统图4.7(续)DLNN系统模型详细预训练网络图(使用Caffe绘制)Fig.4.7(continued)DetailsofDLNNpre-training(DrewbyCaffe)34 重庆大学硕士学位论文4图像语义理解系统①DLNN系统模型的预训练1)预训练数据预训练模型必须要求大量的图像数据,要求在不同场景的图像至少需要保证有50-100张,按照ILSVRC2012年的分类图像竞赛分类成为1000类的要求,数据集的总体数目要在50000-100000张,基于此,选择COCO2014[58]的数据集作预训练的数据集合。COCO2014的训练集合包含8万余张图像,评估集合包含2万余张图像。COCO2014主要应用于图像重识别、图像分割的图像数据集,由于这个数据集每一个图像都有5个对应相关的注释语句,不仅可以用作生成词典,还可以用作理解图像训练测试使用。每个图像后标注的5个相关语句同时为后期专业人员打分评估和召回率的评估提供参考。每一幅图像的信息均按照表4.1中所示的格式储存在json文本文件中。表4.1图像数据注释文本格式示例Table4.1Annotationformofimages项目名称参数“info”info“images”185904“annotations”Amanridingabluemotocycleontheroad.“licenses”[license]2)模型参数的选取如设定迭代的最大次数、初始化学习率、是否选择使用GPU,由于条件限制,DLNN训练时使用CPU,每一次批量投入网络里进行预训练的图像(batch-size)的数目设为50。表4.2中是在Caffe中使用的DLNN模型预训练时的网络基本配置参数。表4.2DLNN模型预训练时的网络配置基本参数Table4.2BasicparametersforDLNNpre-training名称参数备注是指开始时设定的学习参数,训练卷积网络阶段初始学习率0.01使用与步长联合决定初始学习率在什么时刻乘以学习学习率下降比率0.5下降率得到新的学习率35 重庆大学硕士学位论文4图像语义理解系统名称参数备注每学习20000代,按照下降比率,将学习率乘以步长20000下降比率(这里是0.5)得出继续训练时使用的学习率在训练中,屏幕每隔2000代输出一次训练的损失展示值2000值迭代的最大次数为110000代,或者未达到此迭代最大迭代数目110000的数目已经收敛,即可停止继续训练,并保存权重模型若选取随机梯度下降的方式(本模型使用的即是冲量0.9随机梯度下降法),使用冲量可以使总体方法更快速收敛,趋向稳定的速度更加迅速隔多少代保存一次在训练开始后,每迭代至20000代的倍数即保存20000模型一次.caffemodel如保存的模型的后缀是DLNN_iter_20000.模型的后缀DLNN_itercaffemodel梯度下降方式SGD随机梯度下降网络前半部bvlc_reference_caffenet的权重均不改变,经过训练得到fc8层的特征,按照先后时序(一般认为从时刻t0开始),开始与编码后生成的语句特征向量前向传递训练,将递归循环神经网络的训练说成“前向”,是因为在LSTM的每个元胞中都有三个胞门,这些胞门在此刻处理的信息需要上一时间点三个胞门的输出值作为必要的预知信息。为了训练的顺利进行,除了将语句中的单词进行独热编码成为与字典长度相等的一个向量后,还要定义一个网络认为语义化理解图像的动作应该结束的一个标识符。根据文本自动转换生成句子的经验,标识符的选取需遵循特殊性,相异于有用数据,能够形式化屏蔽数据和诸如“”空格等等敏感单词的原则,这里使用标记在预测时一句话的结束。②调优表4.3是在Caffe中使用的DLNN模型调优时的网络基本配置参数。36 重庆大学硕士学位论文4图像语义理解系统表4.3DLNN有监督调优的网络配置基本参数Table4.3BasicparametersforDLNNfine-tuning项目参数初始学习率0.001学习率下降比率0.5步长20000展示值2000最大迭代数目50000冲量0.9隔多少代保存一次模型20000模型的后缀DLNN_finetune_iter梯度下降方式SGD4.4系统实现结果图4.8是预训练过程中D2LNN系统在训练集误差收敛曲线,图4.9是调优中D2LNN系统的训练集误差收敛曲线。①三类含有人的图像使用DLNN理解这里分别使用含人物胸口以上内容的图像(如图4.10)、完整展现人物的双手臂动作的图像(如图4.11),展现人物全身照的图像(如图4.12)的三类图像。在表4.4中展示了图4.10的每一幅图对应理解出的语句结果,表4.5中展示了图4.11对应理解出的语句结果,表4.6中展示出图4.12对应理解出的语句结果。表4.4图4.10的“图片—语句”对Table4.4“Image--Sentence”resultsofFigure4.10图片语句aAyoungboywithatoothbrushandaredshirt.bAmanwithabeardandasuit.cAyoungboyeatingabananainabun.dAyoungboyiseatingasliceofpizza.eAyounggirlisbrushingherteethwithatoothbrush.fAmanwearingahatandahat.gAwomanistalkingonhercellphone.hAmaninasuitandtiestandingnexttoawall.37 重庆大学硕士学位论文4图像语义理解系统表4.5图4.11的“图片—语句”对结果Table4.5“Image--Sentence”resultsofFigure4.11图片语句aAwomaninawhiteshirtisplayingtennis.bAmanandawomanareeatingahotdog.cAmansittingatatablewithalaptop.dAmanholdingafrisbeeinafield.eAmanandwomanarecuttingacake.fAbaseballplayerholdingabatonafield.gAmanisplayingavideogameonatv.hAmanholdinganintendowiigamecontroller.表4.6图4.12的“图片—语句”对Table4.6“Image-Sentence”resultsofFigure4.12图片语句aAmaninaparkcatchingafrisbee.bAmanandwomanarestandinginfrontofastore.cAwomaninapinkdressisholdingapinkumbrella.dAyoungboyisplayingwithafrisbee.eAgroupofpeopleplayingagameoffrisbee.fAmanisholdingatennisracketonatenniscourt.gAmaninablueshirtandablueshirt.hAmaniswalkingdownastreetwithaskateboard.图4.8预训练时训练集的误差曲线图4.9调优时训练集的误差曲线Fig.4.8Trainlossvs.iterationinpre-trainingFig.4.9Trainlossvs.iterationinfine-tuning38 重庆大学硕士学位论文4图像语义理解系统abcdefgh图4.10含人物胸口以上内容的图像Fig.4.10Sampleimageswithmainlypartaboveperson’sbreast39 重庆大学硕士学位论文4图像语义理解系统abcdefgh图4.11完整展现人物双手手臂动作的图像Fig.4.11Sampleimagesofupperhalfofperson,includinghands40 重庆大学硕士学位论文4图像语义理解系统abcdefgh图4.12展现全身的图像Fig.4.12Sampleimagesofwholebodies41 重庆大学硕士学位论文4图像语义理解系统②DLNN与NIC使用BleU标准评估对比(Flickr8k数据集)表4.7BleU-1分数Table4.7scoresofBleU-1项目BleU-1DLNN0.657NIC0.63[12]文献[12]中NIC使用VGG[59]网络全连接层连接一层语句编码解码层LSTM层,本文考虑到预训练消耗,DLNN增加了一层语句编码解码层LSTM层,同时减少卷积层的深度使用经典8层网络。上表中BleU的得分对比说明加深语句编码层LSTM层可以明显减少卷积层深度对语句流利性可能带来的负面影响。4.5本章小结本章根据含有单语句编解码层LSTM层的NIC系统,设计了使用两层LSTM结合深度卷积网络的一种端到端图像语义理解系统DLNN。首先配置DLNN系统在训练平台Caffe上的预训练参数,描述了交叉熵损失更新和DLNN的调优,然后描述了时域连接模型CTC。最后,选取含人的三类图像测试DLNN,每一类中均选取了不同视角、包含多人物主体和灰度图等图片测试DLNN系统。测试结果说明DLNN语义理解结果可以用作人物主体图像语义理解。42 重庆大学硕士学位论文5D2LNN系统5D2LNN系统R.Kiros设计了将经过卷积神经网络的图像特征作为两层语句编解码层的顶层输入的一种结构MLBL-F(TheFactored3-wayLog-BilinearModel)[13],改进后的MLBL-F在生成的语句细节描述上比原来的MLBL-B(Modality-BiasedLog-BilinearModel)[13]更加具体了。本章首先基于此改进DLNN设计出了D2LNN(Data-to-second-layerlstmneuralnetwork)系统,其次使用D2LNN在上一章DLNN使用的相同测试用例图片上验证,最后比较DLNN与D2LNN在图像语义化理解上的差异性。5.1改进的D2LNN系统与DLNN系统相同的,D2LNN系统在作单词编解码阶段同样使用了两层LSTM,LSTM1和LSTM2。D2LNN相比DLNN作的改进是,LSTM2将图像经过CNN的处理得到的第三个全连接层的输出和上一个时间步LSTM2的输出作本层输入,LSTM1不仅将上一时间步LSTM1的输出作为本层的输入,通过结合上一个时刻预测出的单词的输出作为本层的输入。经过向量化的语料信息作为嵌入向量信息输入,另一个则用来接收上一个LSTM的输出作为本网络的输入,模型最终根据指令()确定何时停止预测语句输出,如图5.1中展示的是图像经过CNN后进入D2LNN的详细过程。图5.1中的“”表示暂时没有图像的特征进入LSTM,LSTM网络正在建立中,“#START#”表示图像的特征开始进入顶层LSTM层,系统开始单词解码,“time”箭头指示LSTM的时间步从左至右。timeAwomanisholdingacellphoneLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMSTARTLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM图5.1图像进入D2LNN系统示意图Fig.5.1DiagramofD2LNN43 重庆大学硕士学位论文5D2LNN系统图5.2D2LNN系统模型详细预训练网络图(使用Caffe绘制)Fig.5.2DetailsofD2LNNpre-training(DrewbyCaffe)44 重庆大学硕士学位论文5D2LNN系统图5.2(续)D2LNN系统模型详细预训练网络图(使用Caffe绘制)Fig.5.2(continued)DetailsofD2LNNpre-training(DrewbyCaffe)45 重庆大学硕士学位论文5D2LNN系统5.2系统的实现①D2LNN系统模型的预训练1)预训练数据与DLNN的预训练数据相同。2)模型参数的选取如设定迭代的最大次数、初始化学习率、是否选择使用GPU等等,D2LNN使用CPU,每一次批量投入网络里进行预训练的图像的数目设为50。表5.1是使用Caffe在D2LNN模型预训练时的网络基本配置参数。表5.1D2LNN模型预训练时的网络配置基本参数Table5.1BasicparametersforD2LNNpre-training名称参数备注是指开始时设定的学习参数,在前期训练卷积网初始学习率0.01络阶段使用与步长联合决定初始学习率在什么时刻按照乘以学习率下降比率0.5学习下降率得到新的学习率每学习20000代,按照下降比率,将学习率乘以步长20000下降比率(这里是0.5)得出继续训练时使用的学习率在训练中,屏幕每隔2000代输出一次训练的损失展示值2000值迭代的最大次数为110000代,或者未达到此迭代最大迭代数目110000的数目已经收敛,即可停止继续训练,并保存权重模型若选取随机梯度下降的方式,本模型使用的即是冲量0.9随机梯度下降法。使用冲量可以使总体方法更快速收敛,趋向稳定的速度更加迅速隔多少代保存一次在训练开始后,每迭代至20000代倍即保存一20000模型次.caffemodel和.statesolver如保存的模型的后缀是D2LNN_iter_20000.模型的后缀D2LNN_itercaffemodel梯度下降方式SGD随机梯度下降46 重庆大学硕士学位论文5D2LNN系统网络前半部bvlc_reference_caffenet的权重均不改变,经过训练得到fc8层的特征,按照先后时序(从t0开始),结合编码后生成的语句特征向量“前向”传递训练,之所以在这里说成是“前向”,是因为在LSTM的每个胞元中都有三个胞门,这些胞门在此刻处理的信息需要上一时间点三个胞门的输出值作为必要的预知信息输入。在训练时除了将语句中的单词进行独热编码成与字典长度相等的向量外,还要定义一个网络认为语义化理解图像的动作应该结束时的一个标识符。根据文本自动转换生成句子结束标识符的选取需遵循特殊性、相异于有用数据,能够形式化屏蔽数据和诸如“”空格等等敏感的单词的原则,这里使用标记在预测时一句话的结束。②调优表5.2是使用Caffe在D2LNN模型进行调优的网络基本配置参数。表5.2D2LNN有监督调优的网络配置基本参数Table5.2BasicparametersforD2LNNfine-tuning项目参数初始学习率0.001学习率下降比率0.5步长20000展示值2000最大迭代数目50000冲量0.9隔多少代保存一次模型20000模型的后缀D2LNN_finetune_iter梯度下降方式SGD③含人图像上的测试结果在表5.3中展示了图4.10的每一幅图对应的理解出的语句结果,表5.4中展示了图4.11对应理解出的语句结果,表5.5中展示出图4.12对应理解出的语句结果。47 重庆大学硕士学位论文5D2LNN系统表5.3图4.10的“图片—语句”对Table5.3“Image--Sentence”PairsofFigure4.10图片语句aAlittleboywithatoothbrushinhismouth.bAmanwearingasuitandtiewithatie.cAwumaneatingabananainaroom.dAyoungboyiseatingapizzawithasliceofpizza.eAwomanistalkingonhercellphone.fAmanwearingatieandatie.gAwomanistalkingonhercellphone.hAmaninasuitandtiestandinginfrontofabuilding.表5.4图4.11的“图片—语句”对Table5.4“Image--Sentence”PairsofFigure4.11图片语句aAmaninawhiteshirtisplayingtennis.bAmanwithabanana.cAmansittingatatablewithalaptopandacupofwine.dAmanholdingakiteinapark.eAmanandawomanaresittingatatablewithacake.fAbaseballplayerisgettingreadytohitaball.gAmanisplayingavideogamewitharemote.hAmaninawhitesuitandtieholdingawiicontroller.表5.5图4.12的“图片—语句”对Table5.5“Image--Sentence”PairsofFigure4.12图片语句aAmaninagreenshirtisplayingfrisbee.bAmanandwomanarestandinginaroom.cAwomansittingonabenchwithapinkumbrella.dAmaninaredshirtisplayingfrisbee.eAmanandawomanpalyingfrisbeeinafield.fAmanstandingonatenniscourtholdingaracquet.gAmanstandingonaskateboardinmiddleofastreet.hAmanridingaskateboarddownastreet.48 重庆大学硕士学位论文5D2LNN系统5.3DLNN与D2LNN对比分析5.3.1预训练对比①耗时在CPU型号Intel至强E3-1231,16G内存,装有SSD,ubuntu14.04(64位)主机上预训练DLNN系统模型耗时2天20小时;预训练D2LNN系统模型耗时2天23小时。在CPU型号Intel酷睿i7-4790,8G内存,机械硬盘,ubuntu14.04(64位)主机预训练DLNN系统模型耗时10天;预训练D2LNN系统模型耗时10天8小时。图5.3预训练时训练集的误差曲线图5.4评估集的误差曲线Fig.5.3Trainlossvs.iterationinpre-trainingFig.5.4Testlossvs.iterationinpre-training图5.5准确率曲线Fig.5.5Testaccuracyvs.iterationinpre-training随着迭代次数的增加,DLNN与D2LNN的预训练误差和有监督调优的误差均在下降,且下降趋势相同;所不同地是,DLNN的testaccuracy从开始迭代即上升,49 重庆大学硕士学位论文5D2LNN系统到20000代以后稳定,D2LNN的testaccuracy从开始迭代时快速上升,学习率的下降并没有使D2LNN的testaccuracy像DLNN般稳定不再上升,反而始终以微弱的趋势升至最终接近0.25。综合误差曲线和testaccuracy曲线得出,DLNN和D2LNN在110000代生成的模型适合调优(fine-tuning),下面即使用这两个模型作为网络训练初始化权重的模型进行调优(fine-tuning)。5.3.2调优对比图5.6调优时训练集的误差曲线图5.7调优时评估集的误差曲线Fig.5.6Trainlossvs.iterationinfine-tuningFig5.7Testlossvs.iterationinfine-tuning图5.8调优时准确率曲线Fig5.8Testaccuracyvs.iterationinfine-tuning调优(fine-tuning)从开始训练直到设定的最大迭代次数50000次,DLNN的误差曲线始终位于D2LNN曲线之上,testaccuracy却在D2LNN之下。从图5.3与图5.6的对比看出,在调优(fine-tuning)阶段的误差曲线比预训练阶段的曲线更具区分性,上下震荡的幅度也大。DLNN与D2LNN的testaccuracy在迭代至5000050 重庆大学硕士学位论文5D2LNN系统次时均达到最优,分别是0.437和0.456。综合分析图5.6至图5.8,DLNN系统和D2LNN系统使用调优(fine-tuning)迭代至第50000代的模型作为最终的系统模型是恰当的。5.3.3直观对比结果①图中有单个人经过直观的对比可以看到,D2LNN理解图像得出的语句长度多数都比DLNN理解出的语句更长,只有这几幅单个人作主体的图像:图4.10的第1幅图像、图4.12的第2幅和第7幅的理解中DLNN与D2LNN均出现了不同程度失实。如图4.10的第1幅图像,DLNN和D2LNN准确理解出图像主体,只能看作部分理解图像。图4.12的第2幅图像,DLNN与D2LNN理解出了图像中有一个男性,却多理解出一个女性,再仔细观察图像,是男性旁有一个套着女性连衣裙的假体衣架。图4.12第7幅图像,DLNN与D2LNN都理解出图像的主体,一个男性,DLNN正确地理解出男性穿着为蓝色衣服,D2LNN也正确地理解出了图像中的滑板。D2LNN理解效果好于DLNN。②图中主体多于一人图4.10、图4.11、图4.12的第5幅图像,图像主体多于一个人,DLNN和D2LNN只在图4.10的第5幅图像不能准确识别出有多个主体,在图4.11的第5幅图像理解上,DLNN理解出的主体是“agroupofpeople”,相较D2LNN的“amanandawoman”的主体详细化理解有差距。从图像的全局理解上说,D2LNN的理解更切合该幅图像。③图示为俯视角图4.11的第5幅图像是一幅自上而下的俯视图,DLNN和D2LNN都能够将男性和便携式电脑准确理解出,D2LNN多理解出图像中未呈现的“acupofwine”。④全身图像特有的坐姿与运动姿态图4.12是全身的图像,主要选取了呈现坐姿的图像和人在户外运动的图像。在第4幅图像中的运动员,姿态较直立行人已经完全形变,DLNN与D2LNN也准确理解出,值得注意,D2LNN在细节处描述更详细,如“inaredshirt”。通过观察对图4.12有关运动的图像的理解可以发现,如在第1幅图像中的主体是一位身着运动短裤,戴墨镜的女性,第6幅图呈现的是身穿中性运动装的的女性网球选手,两个系统均是将唯一主体毫无例外地理解成男性,这与预训练集中,有较多正在运动的男性图像有关。⑤灰度图在测试图像的选取上,每类的第8张图像特意选取灰度图像。直观看出,对此类图像的理解上,D2LNN优于DLNN的效果。51 重庆大学硕士学位论文5D2LNN系统⑥图像中有食物出现图4.10第3幅图像和第4幅图像,图4.11第2幅和第5幅图像,DLNN和D2LNN都能理解出食物,相比较而言,D2LNN可理解出更贴合图像本意的语句。⑦图像呈现郊外的场景图4.11的第4幅图像和第6幅图像,图4.12的第1幅图像和第5幅图像,DLNN和D2LNN理解出可对场景作出描述的语句。例如,在图4.11的第4幅图像场景的理解上,DLNN“inafield”;D2LNN“inapark”。证明D2LNN的理解图像细节更优。图像呈现街景,如图4.12的第7幅和第8幅图像,DLNN理解出第8幅图像,D2LNN则都理解出街道场景。5.3.4BleU和ROUGE评估对比表5.1BleU-1、BleU-2、BleU-3和ROUGE分数Table5.1scoresofBleU-1,BleU-2,BleU-3andROUGE项目BleU-1BleU-2BleU-3ROUGEDLNN0.6570.4770.3350.486D2LNN0.6560.4750.3330.485DLNN与D2LNN在公开数据库Flickr8k使用BleU与ROUGE评估得分并没有太大差别,D2LNN的得分比起DLNN的得分均略低0.1%-0.2%。5.4本章小结参考R.Kiros改进编码解码层连接的方法,本章对DLNN系统中的语言编码解码生成中起到重要作用的两层LSTM的输入进行调整,得出D2LNN系统。然后,本章对D2LNN的具体预训练网络配置作了详细说明。通过预训练和有监督反向调优的误差、testaccuracy曲线对比DLNN和D2LNN。D2LNN在预训练阶段和有监督调优收敛快于DLNN。通过选取含人的三类图像分别使用DLNN和D2LNN理解直观对比,最后从图像中多主体目标、俯视角和不同场景(如有食物、郊外)对比分析了DLNN和D2LNN的理解效果,通过分析得出D2LNN在细节理解上更优。最后定量比较了分别使用DLNN和D2LNN在公开数据集合上参考机译系统评价得分情况。52 重庆大学硕士学位论文6总结与展望6总结与展望6.1总结图像理解在海量图像检索中具备深远的现实意义。本文介绍了传统的图像理解方法,并介绍深度学习在图像挑战赛上正逐步取代传统方法成为主流方法。此外,深度学习在自然语言处理领域的研究也成为主要方法,已有相关方法将图像特征连接语句编解码层产生对图像的语义理解。本文可视化了一副图像经过深层卷积神经网络前向传播过程中每层提取出的特征图,对可解决RNN“梯度消失”问题的一种RNN——长短时记忆循环神经网络进行简要介绍。本文说明了由于专业人员评估的耗时耗力,因此使用在自然语言处理领域可作客观评估的BleU标准和ROUGE标准,需要提出的是,BleU和ROUGE标准不能作为真实的评估自然语言系统和图像语义理解系统的可靠标准。在图像语义理解中使用这两个标准,是因为这两个标准与语句的流畅性有着正相关的关系。本文还介绍了本文系统设计依托的深度学习工具Caffe。深度学习在图像语义化理解领域的应用处于开始阶段,仍有许多工作需要做。参考基于深度学习的图像语义理解系统NIC,本文结合CNN和LSTM设计了DLNN图像语义理解系统,从网络结构到预训练模型中的误差更新,再到有监督调优中的网络设置问题进行了说明。本文还参照R.Kiros在自然语言处理上的有关工作,改进DLNN图像特征的输入,成为D2LNN。D2LNN在预训练阶段的误差下降情况优于DLNN,testaccuracy高于DLNN。在调优时,D2LNN的误差下降和testaccuracy曲线情况也优于DLNN。最后使用含有人的三类有代表性图像测试DLNN和D2LNN,直观结果表明两种系统均可有效地进行图像理解,D2LNN在表述含人图像的细节上较DLNN更好。在Flickr8k测试集上使用BleU和ROUGE评估DLNN与D2LNN的结果也证实了两种系统的有效。6.2展望由于作者水平和时间所限,图像语义化理解仍有许多不足,未来可以尝试从下面几个方面做深入的研究:首先,深度学习的特点即在于网络层数的深,本文使用经典8层的神经网络结合2层LSTM网络,训练八万余张图像数据即进行10天。适当增大每次输进网络的数据的个数,使用层数更高的网络,或叠加更多的LSTM层方面可以作尝试。此外,在预训练中运用性能优秀的显卡并行计算有效缩短训练时间,为调整网络参数赢得更多时间是未来需要做的工作,图像语义理解仍有提升的空间。53 重庆大学硕士学位论文6总结与展望其次,深度学习的优点即允许在模型预训练中利用大规模的无监督数据进行预训练。已有研究证实,无监督地预训练大规模数据可以极大地提升深度模型性能。在本文中,系统模型的预训练仅使用了与监督数据集有关的较小规模的英文语料。今后需要研究添加大规模的无监督英文语料训练出更优质的系统模型。此外,中文的自然语言处理不同于英文的自然语言处理,未来需研究中文NLP方法,设计更适合国情的图像中文语义化理解系统。最后,图像转化文本是一个跨媒体的交叉领域问题,设计的系统在理解图像时也仅仅取得了初步的结果,如理解出图像主体是一个男人或女人。假设有一幅图像反映日常生活中的一种情况,一只导盲犬正在引导一个盲人走路,导盲犬应为图像的主体,DLNN和D2LNN系统将这幅图像理解输出“Amanwalkingwithadog.”这显然不符合图像要传达的真实内容,限于水平和时间原因,本文没能深入研究这个问题。未来的理解系统应该能够准确理解图像的深层含义,真正实现“看图作文”。54 重庆大学硕士学位论文致谢致谢时间荏苒,研究生的三年时光即将成为回忆。三年时光作为学生时代到社会的过渡,我更加深刻认识了自己,这个过程是我人生的宝贵精神财富。我想对所有帮助过我的老师、亲人和朋友致以诚挚谢意。首先,我要感谢我的导师覃剑副教授。覃老师敏锐的洞察力和儒雅学者风范令我敬重。在本文的选题和研究内容上,覃老师给予了全面指导。在学习生活上覃老师给了我最大的帮助和极大的宽容,在我艰辛的求职路上,覃老师总是给我提出最中肯的建议。覃老师治学严谨,诲人不倦,覃老师的谆谆教诲是我人生的宝贵财富,我将一生铭记。其次,感谢实验室安禄师兄、贾阿丽师姐和牛丹丹师姐。每当我学习上遇到困难,师兄师姐都尽己所能帮助我,不仅解开了我的学习疑惑,更扩宽了我的知识面。感谢实验室同年级的袁行猛,易礼君和周丽同学,学习中我们共同讨论,找工作中我们交流彼此的经验,互相加油打气,和你们相处的日子里我学会了准确定位自己,谢谢你们,祝愿你们今后的日子里一切顺利,前程似锦。感谢师妹王美华,张雅俐,肖婷和师弟陈磊,实验室就象一个温暖大家庭,在一起交流分享喜悦的日子令我终生难忘。最后,感谢我的家人,家人的理解和支持是我不懈追求理想的动力,我将会更加努力工作回报家人。梁欢二O一六年四月于重庆55 重庆大学硕士学位论文参考文献参考文献[1]RuiY,HuangTS,ChangS.Imageretrieval:currenttechniques,promisingdirections,andopenissues[J].JournalofVisualCommunicationandImageRepresentation,1999,10(1):39-62.[2]SmeuldersAW,WorringM,SantiniS,etal.Content-basedimageretrievalattheendoftheearlyyears[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2000,22(12):1349-1380.[3]EquitzWH,NiblackW.Retrievingimagesfromadatabaseusingtexture-algorithmsfromtheQBICsystem[M].Armonk:IBMResearchDivision,1994:137-186.[4]DelB,Alberto.Visualinformationretrieval[M].SanFrancisco:MorganandKaufmann,1999:37-66.[5]MukherjeaS,HirataK,HaraY.Amore:aworldwidewebimageretrievalengine[J].WorldWideWeb,1999,2(3):115-132.[6]SocherR,ManningCD,NgAY,etal.Learningcontinuousphraserepresentationsandsyntacticparsingwithrecursiveneuralnetworks[C].Proceedingsofthe24thAnnualConferenceonNeuralInformationProcessingSystems,Vancouver,Canada,2010:1-9.[7]CollobertR,WestonJ,BottouL,etal.Naturallanguageprocessing(almost)fromscratch[J].JournalofMachineLearningResearch,2011,12(1):2493-2537.[8]YaoBZ,YangX,LinL,etal.I2T:imageparsingtotextdescription[J].ProceedingsoftheIEEE,2010,98(8):1485-1508.[9]FarhadiA,HejratiM,SadeghiMA,etal.Everypicturetellsastory:generatingsentencesfromimages[C].Proceedingsofthe11thEuropeanConferenceonComputerVision,Heraklion,Greece,2010:15-29.[10]韩亚洪.基于图模型表达和稀疏特征选择的图像语义理解[D].杭州:浙江大学,2012.[11]HintonGE,OsinderoS,TehY.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.[12]VinyalsO,ToshevA,BengioS,etal.Showandtell:aneuralimagecaptiongenerator[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,Boston,USA,2015:3156-3164.[13]KirosR,SalakhutdinovR,ZemelR.Multimodalneurallanguagemodels[C].Proceedingsofthe31stInternationalConferenceonMachineLearning,Beijing,China,2014:595-603.[14]TibshiraniR.Regressionshrinkageandselectionviathelasso[J].JournaloftheRoyal56 重庆大学硕士学位论文参考文献StatisticalSociety,1996,58(1):267-288.[15]TibshiraniR,SaundersM,RossetS,etal.Sparsityandsmoothnessviathefusedlasso[J].JournaloftheRoyalStatisticalSociety,2005,67(1):91-108.[16]FriedmanJ,HastieT,TibshiraniR.Anoteonthegrouplassoandasparsegrouplasso[J].ComputationalStatistics&DataAnalysis,2010,52(12):5277-5286.[17]YangJ,YuK,GongY,etal.Linearspatialpyramidmatchingusingsparsecodingforimageclassification[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,Miami,USA,2009:1794-1801.[18]WuF,HanY,TianQ,etal.Multi-labelboostingforimageannotationbystructuralgroupingsparsity[C].Proceedingsofthe18thInternationalConferenceonMultimedia,Firenze,Italy,2010:15-24.[19]GongY,HuangT,LvF,etal.ImageclassificationusingGaussianmixtureandlocalcoordinatecoding[C].Proceedingsofthe12thInternationalConferenceonComputerVision,Tokyo,Japan,2009:1694-1701.[20]PanSJ,YangQ.Asurveyontransferlearning[J].IEEETransactionsonKnowledge&DataEngineering,2010,22(10):1345-1359.[21]EvgeniouA,PontilM.Multi-taskfeaturelearning[C].Proceedingsofthe21thAnnualConferenceonNeuralInformationProcessingSystems,Vancouver,Canada,2007:41-48.[22]RainaR,BattleA,LeeH,etal.Self-taughtlearning:transferlearningfromunlabeleddata[C].Proceedingsofthe24thInternationalConferenceonMachineLearning,Corvallis,USA,2007:759-766.[23]LongB,PhilipSY,ZhangZM.Ageneralmodelformultipleviewunsupervisedlearning[C].Proceedingsofthe8thSiamInternationalConferenceonDataMining,Atlanta,USA,2008:822-833.[24]ZhouD,BurgesCJ.Spectralclusteringandtransductivelearningwithmultipleviews[C].Proceedingsofthe24thInternationalConferenceonMachineLearning,Corvallis,USA,2007:1159-1166.[25]WangM,HuaX,YuanX,etal.Optimizingmulti-graphlearning:towardsaunifiedvideoannotationscheme[C].Proceedingsofthe15thInternationalConferenceonMultimedia,Augsburg,Germany,2007:862-871.[26]HastieT,TibshiraniR,FriedmanJ,etal.Theelementsofstatisticallearning:datamining,inferenceandprediction[J].TheMathematicalIntelligencer,2005,27(2):83-85.[27]RoweisST,SaulLK.Nonlineardimensionalityreductionbylocallylinearembedding[J].Science,2000,290(5500):2323-2326.57 重庆大学硕士学位论文参考文献[28]BelkinM,NiyogiP.Laplacianeigenmapsfordimensionalityreductionanddatarepresentation[J].NeuralComputation,2003,15(6):1373-1396.[29]NiyogiX.Localitypreservingprojections[C].Proceedingsofthe18thAnnualConferenceonNeuralInformationProcessingSystems,Vancouver,Canada,2004:153-155.[30]TenenbaumJB,LangfordJC.Aglobalgeometricframeworkfornonlineardimensionalityreduction[J].Science,2000,290(5500):2319-2323.[31]HeX,MaW,ZhangH.Learninganimagemanifoldforretrieval[C].Proceedingsofthe12thInternationalConferenceonMultimedia,NewYork,USA,2004:17-23.[32]LauerF,SuenCY,BlochG.Atrainablefeatureextractorforhandwrittendigitrecognition[J].PatternRecognition,2007,40(6):1816-1824.[33]赵志宏,杨绍普,马增强.基于卷积神经网络LeNet-5的车牌字符识别研究[J].系统仿真学报,2010,22(3):638-641.[34]DengJ,DongW,SocherR,etal.Imagenet:Alarge-scalehierarchicalimagedatabase[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,Miami,USA,2009:17-23.[35]KrizhevskyA,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C].Proceedingsofthe26thAnnualConferenceonNeuralInformationProcessingSystems,CarsonCity,USA,2012:1097-1105.[36]ZeilerMD,FergusR.Visualizingandunderstandingconvolutionalnetworks[M].Berlin:SpringerInternationalPublishing,2014.[37]尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,1(1):48-59.[38]JiaY,ShelhamerE,DonahueJ,etal.Caffe:convolutionalarchitectureforfastfeatureembedding[C].Proceedingsofthe22thInternationalConferenceonMultimedia,Orlando,USA,2014:675-678.[39]SaenkoK,DarrellT.Unsupervisedlearningofvisualsensemodelsforpolysemouswords[C].Proceedingsofthe23thAnnualConferenceonNeuralInformationProcessingSystems,Vancouver,Canada,2009:1393-1400.[40]LiuH,SinghP.ConceptNet-apracticalcommonsensereasoningtool-kit[J].BtTechnologyJournal,2004,22(4):211-226.[41]BakerCF,FillmoreCJ,LoweJB.Theberkeleyframenetproject[C].Proceedingsofthe17thInternationalConferenceonComputationalLinguistics,Montréal,Canada,1998:86-90.[42]AlshehriAM.Theframesemanticsof'SelfMotion'frameinArabicandEnglish[D].SanFrancisco:SanFranciscoStateUniversity,2014.[43]BahdanauD,ChoK,BengioY.Neuralmachinetranslationbyjointlylearningtoalignand58 重庆大学硕士学位论文参考文献translate[C].Proceedingsofthe28thAnnualConferenceonNeuralInformationProcessingSystems,Montréal,Canada,2014:1390-1397.[44]BengioY,SchwenkH,SenécalJ,etal.Neuralprobabilisticlanguagemodels[M].Berlin:SpringerInnovationsinMachineLearningPublishing,2006.[45]MikolovT,KombrinkS,BurgetL,etal.Extensionsofrecurrentneuralnetworklanguagemodel[C].ProceedingsoftheIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,Prague,CzechRepublic,2011:5528-5531.[46]BordesA,GlorotX,WestonJ,etal.Jointlearningofwordsandmeaningrepresentationsforopen-textsemanticparsing[C].Proceedingsofthe15thInternationalConferenceonArtificialIntelligenceandStatistics,LaPalma,Spain,2012:127-135.[47]SocherR,HuvalB,ManningCD,etal.Semanticcompositionalitythroughrecursivematrix-vectorspaces[C].ProceedingsoftheJointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning,JejuIsland,Korea,2012:1201-1211.[48]DahlGE,YuD,DengL,etal.Context-dependentpre-traineddeepneuralnetworksforlarge-vocabularyspeechrecognition[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):30-42.[49]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].NeuralComputation,1997,8(9):1735-1780.[50]HodoshM,YoungP,HockenmaierJ.Framingimagedescriptionasarankingtask:Data,modelsandevaluationmetrics[J].JournalofArtificialIntelligenceResearch,2013,1(1):853-899.[51]PapineniK,RoukosS,WardT,etal.BLEU:amethodforautomaticevaluationofmachinetranslation[C].Proceedingsofthe40thAnnualMeetingonAssociationforComputationalLinguistics,Philadelphia,USA,2002:311-318.[52]WangZ.Translationmemorysystems:ahistoricalsketchandfuturetrends.[J].Compilation&TranslationReview,2011,4(1):133-134.[53]OtterbacherJC,WinkelAJ,RadevDR.TheMichigansingleandmulti-documentsummarizerforDUC2002[C].ProceedingsoftheDocumentUnderstandingConferences,Philadelphia,USA,2002:230-239.[54]KalayehMM,SeifuM,LaLanneW,etal.Howtotakeagoodselfie?[C].Proceedingsofthe23rdAnnualConferenceonMultimediaConference,Brisbane,Australia,2015:923-926.[55]骆涛.面向大数据处理的并行计算模型及性能优化[D].合肥:中国科学技术大学,2015.[56]王斌.基于深度学习的行人检测[D].北京:北京交通大学,2015.59 重庆大学硕士学位论文参考文献[57]王振,高茂庭.基于卷积神经网络的图像识别算法设计与实现[J].现代计算机,2015,2(7):61-66.[58]LinTY,MaireM,BelongieS,etal.MicrosoftCOCO:commonobjectsincontext[M].Berlin:SpringerInternationalPublishing,2014:740-755.[59]SimonyanK,ZissermanA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,Columbus,USA,2014:1409-1415.ProofreadReportThecurrentusestyleis[毕业论文参考文献New]Referenceincurrentdocumentis78Thereis0referencewhichcontainincorrectfield.Allreferencesarecorrect60 学位论文独创性声明本人声明所呈交的_____士学位论文《___________________________________》是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:导师签名:签字日期:学位论文使用授权书本学位论文作者完全了解重庆大学有关保留、使用学位论文的规定。学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权重庆大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存、汇编学位论文,可以以电子、网络及其他数字媒体形式公开出版。非军工项目保密的学位论文在解密后也遵守此规定。(涉密期限至_______年___月___日。)作者签名:_______________导师签名:____________________年月日备注:审核通过的军工涉密论文不得签署“授权书”,须填写以下内容:该论文属于军工涉密论文,其密级是_______,涉密期限至_______年___月___日。