弱标注环境下基于多标签深度学习的加速图像标注

弱标注环境下基于多标签深度学习的加速图像标注

ID:35077488

大小:7.01 MB

页数:73页

时间:2019-03-17

上传者:U-56225
弱标注环境下基于多标签深度学习的加速图像标注_第1页
弱标注环境下基于多标签深度学习的加速图像标注_第2页
弱标注环境下基于多标签深度学习的加速图像标注_第3页
弱标注环境下基于多标签深度学习的加速图像标注_第4页
弱标注环境下基于多标签深度学习的加速图像标注_第5页
资源描述:

《弱标注环境下基于多标签深度学习的加速图像标注》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

:公开学校代码:10004密级如M道乂攀BEIJINGJIAOTONGUNIVERSITY硕±专业学位论文■■V:中-弱标注环境下基于多标签深度学习的加速图像标注作者姓名温翔工程领域控制工程.璋;自指导教师赵林海教授‘-苗培养院系电子信息工程学院;巧巧释M'皆1w:mjnM..掛护.’巧奮嚴摄瑟巧邊巧.. 如交4乂攀硕±专业学位论文弱标注环境下基于多标签深度学习的加速图像标注Fa巧e-rImaeAnnotationBasedonMultiLabelDeeLearninfbrgpgWeaklyLabeledDataset作者:温翔导师:赵林海教授北京交通大学2016年6月 学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供査阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可レッ为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)'学位论文作者签名:渔fw导师签名:签字日期:又刮(年6月日签字日期:《年/月>多日 :0004密:学校代码1级公开北京交通大学硕±专业学位论文弱标注环境下基于多标签深度学习的加速图像标注Fa-sterImaeAnnotationBasedonMultiLabelDeepLearninforggWeaklLabeledDatasety作者姓名:温翔学号;14口5122导师姓名::赵林海职称教授工程硕±专业领域:控制工程学位级别:硕±北京交通大学20化年6月1 致谢本论文的工作是在我的导师赵林海教授的悉也指导下完成的,赵林海教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响、。在此衷屯感谢H年来趁林海老师对我的关也和指导。赵林海教授悉也指导我们完成了实验室的科研工作,在学习上和生活上都给予了我很大的关也和帮助,在此向赵林海老师表示衷也的谢意。赵林海教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷必的感谢。在实验室工作及撰写论文期间一、,孟样松吴蒙、李溪林、徐帆、赵泽等师兄在学习、科研和生活等方面都给予我很大的帮助和指导,冯栋、陈琢、黄国栋、王通等同学对我完成论文研巧工作给予了热倩帮助,在此向他们表达我的感激之情。感谢中科院自动化所模式识别国家重点实验室的董未名老师和腾讯优图团队的张宝,巧晓威等工程师在我实习期间的鼓励和支持。另外也感谢我的家人,感激他们的理解和支持,在我的学业和生活都给予了、大力支持和鼓励,使我能够在学校专屯完成我的学业。ii 北京交通大学硕±专业学位论文摘要随着数字信息技术不断融入人们生活,各种图像的数量増长迅猛,如何对送些海量的图像进行有效的管理并从中挖掘出对用户有用的信息成为亟需解决的问题。图像的多标签语义标注用自然语言来描述图像,将对图像的检索转换为人类。易于理解的文本检索,是解决,!M上问题的有效办法因此图像的多标签语义标注越来越受到重视。一当前多标签图像标注主要遇到两个问题。个来源于算法层面;基于传统机器学习的算法特征提取十分复杂,需要有经验的人进行精也的特征选取;而基于多标签深度学习的图像标注虽然效果好且不需要人工进行特征提取和挑选,但是当前的深度学习模型往往由于计算量巨大导致CPU模式下标注速度过巧而实用性一较差:;个来源于数据层面真实环境中训练数据集广泛存在语义标签集不完整问题,而且低频语义标签和髙频语义标签的图像数据分布十分不均衡,这种数据集称为弱标注数据集,这种数据集的标签不完整和语义分布失衡会严重的影响模型的学习效果。针对上述问题,本文提出了弱标注环境下基于多标签深度学习的图像加速标注方法。论文的主要工作如下:一(-1)针对深度卷积神经网络VGG16速度过巧的问题,构建了种新的深度:通过修改模型卷积核的步长等方法卷积神经网络,巧小每层的输出维度,构建一出个参数计算*约为网络VGG-16近1/7的深度卷积神经网络NewNet;然后再_对本文提出的网络的相应卷积层进行奇异值分解巧VD),并构建出参数计算*约为-6近N网络VGG11/10的分解网络NewSVDet。本文提出的分解网络在测试集上__的平均准确率相比于网络VGG-16降低2.5%,但是在CPU模式下处理单张图片的速度却加快了近6倍,大大提升了深度模型的实用性。(2)针对弱标注数据集环巧的训练数据集,设计了针对弱标注数据集的数据迭代优化算法框架:通过补充低频语义标签的单标签田像数据的方法来提升深度卷积神经网络对低频语义标签的识别巧度;通过得到的最终模型对原始训练集进行预测标注,并与原始标签集进行合并,其中预測标注步巧本文使用特征胜合和KNN分类器替代softmax分类器进行了优化。经实验证明,在相关数据集上,迭7%G-6和代优化后的训练巧据集标签个数相比原始标签集増加近.经网络VG1NewNet进行学习至收敛后,在同样拥试集上的平均准确率提升约1.2%。_论文工作己应用于巧巧优困开放平台围像识剔等商业围巧识别服务,获得良好的效果。关键词S弱标注;图像掠注;多标签深度学习;数巧迭代iii 北京交通大学硕±专业学位论文ABSTRACTABSTRACTWiththerapidwidespreadofdigital化chniques,thenumb舟ofimageshasbeenrisedrapidly.How化manage化eseimagesandgettheuseftilinformationfrom化esemau-igesisanurentroblem.Themltilabelannotationofimaeisaoodsolutionbgpggyusingnaturallanuaetodescribetheimaesothatithasbecomeoneof化ehotestgggtsmanw-researchpoin.Nowthereareyproblemsi化thetaskofmultilabelimageannotation:Thefeatureextractionof的出"onalmachinelearningalgorithmisverycomexunoee--ndouttwhaplandcoldtachievethndtoeuichbadlfectscomm舟cialpjya-pplications.AUhouh化cdeelearninhasbeterKsultofmultilabelimaegpggannotation^butthismethodistooslowforcommCTcialapplicationbecau化ofthedeeplearningodelhasalarenumberofarame化巧.Whatismore,也etrainindatasetsmgpgarealwaysnotcompletely,andhastheproblemofsemantic出stributionimbalanceinrealworlds''Wchnamedweaklylabeleddatasetswo山dbadlafectstheresultof,yimageannotation.Inviewoftheaboveroblems,thisaerroosesamethodof位幻打pppppttt-ttimaeannoaionbasedonmulilabeldeelearninforweakllabeleddaase.Thegpgymainworkofthis化esisisasfollows:forwardamehodof垃-PuttSt舟imageannotationbasedonmultilabeldeeplearning.ThisthesisputanewmodelwhichhasfewerparametersbymodifyingthestrideoftheConvolutionkernelandthenumberofoutputsofeachlayer,whatismore,this化esishasbeendecompo化dsomeconvo山tionlayersbySVDsothatthenewmode--lrunsalmost6times拉sterthanVGG16modelandthemacroaccuracyofmodelustreduced2.5%.jPutforwardaiterativeoptimizationalgorithmframeworkfortheweaklylabeleddataset.Theiterativeoptimizationalgorithmframeworkthroughaddingthesingle-labeledimagesofthelow任equencysemanticlabel化imrove化ereconitionaccuracpgy-of化elowfreencsemantic,whatismorethemothedoffeaturefiisionandKNNquy,classifierwasusedinthepredictionstep.Finally,Thenumberoftagsincreased7%inTencentdata说tandthemacro巧ccuracyofthenewdatasetincreased1.2%■The化workhasbeenappliedinImageUnderstandingofTencentSestimaeOengplatformandWeiYunofTencentachieveoodcomm舟cialalication*p,gppKEYWORDS-:Weakllabeled&sterimaeannotationmultilabeldeelearniny;g;pg;Dataiterationiv 北京交通大学硕±专业学位论文1^目录摘要IIIABSTRACTIV1绪论1.1研巧背景与选题意义111.2图像标注研巧现状31.2.1图像标注方法类别31.2.2图像标注关键问题41.3深度学习的研巧现状516.4本文主要工作及结构安排2图像标注和深度学习相关知识828.1多标签图像标注框架2丄1图像特征提取92.1.2多标签分类算法112丄3弱标注环境下的图像标注132.2深度学习的基本概念15216.2.1巧层学习和深度学习2.3深度学习模型172.3.1卷积神经网络CNN17()2-.32深度卷积神经网络VGG16202.4基于多标签深度学习的国像标注222.4.1基于多标签学习的损失函数232.4.2深度模型的训练242.5图像标注的评价标准262.6本章小节283弱标注环境下基于多标签深度学习的加速困像惊注293.1深度模型的加速方法293丄1主要思路293丄2加速深度卷积神经网络的设计313丄3加速网络卷积层的SVD分解34V 北京交通大学硕±专业学位论文^3.2结合深度学习的弱标注数据的迭代优化393.2.1基本思路393.2.2算法框架模型413.2.3特征融合和分类器优化433.3本章小节474实验验证484.1实验环境的搭建484.2加速模型实验504.2.1实验数据504.2.2实验设计514.2.3实验结果W及分析524.3迭代优化实验534.3.1实验数据534.3.2实验设计544.3.3实验结果W及分析555总结与展望575.1总结575.2未来工作展望58参考文献59作者简历及攻读硕±62/博±学位期间取得的研巧成果独创性声明63学位论文数据集64vi 北巧交通大学硕±专业学位论义绪论1绪论1.1研究背景与选题意义随着数字信息技术的飞速发展,各种数字信息如文本、图像和视频正成为人们获取信息和分享信息的主流载体,不断深入影响着人们的生产和生活。这些与人们的生产和生活息息相关的数字信息在给人们带来便利的时候,也带来了不便管理和检索的麻烦,由于这些海量的数据包含着人们的许多有用信息,因此如何更加有效的管理这些数字信息显得十分重要。这些数字信息中图像信息相比于文,还是视频信息的基础字不仅可W描述对象的客观视觉信息,因此如何有效的对一图像信息进行管理直是多媒体领域的重要的研巧课题,在学术界和工业界也巧来越受到关注。对图像信息管理的应用图像检索为人们检索图像信息带来了极大的便利,因一直驱动着人们进行相关领域的研巧此图像检索的应用。20世纪90年代兴起的基于内容的图像检索系统主要是结合从图像中提取出的底层视觉特征进行对图像的相似检索,如旧M公司的QBIC系统和Virage系统的Virage系统,都是W输出特征相似的图像作为检索结果。但是,这些底层视觉特征包括颜色、纹理和形状等""。与人类对图像内容所理解的含义之间有着很大的差距,即存在着语义鸿沟为了"".解决语义鸿沟问题就需要用自然语言对图像进行描述,使得更加接近人类的理解W因此对图像的语义标注开始广泛引起人们的关注。使用自然语义对图像进行描述就是图像标注,这样每张圍片都可用语义标签来表示,就可W把图像检索转换-1为人类易于接受的文本检索,如图1所示。國-團11多标签圈片H--ure11M山tilabelimaegg1 北京巧通大学硕±专业学位论义绪论该图像被婚纱、欧式建筑、合影等多个语义标签进行了标注,比较完整和准确的描述了该图像包含的信息,人们在使用文字检索便可W十分简便的将该图检索出来一""。虽然这种基于文本检索的图像检索可解决定的语义鸿沟问题,但是却十分依赖于图像的文字描述。图像标注的语义标签质量越高,数量越多,描述W的图像视觉内容就越清晰,人们检索到的图像结果也越准确。这种图像的多标签标注早期主要是采用人工标注的方法来实现的,但是人工一标注存在两个缺点:是人工标注时存在由于人工的主观误差导致的漏标的情况,—是由于需要标注的图像信息数量庞大,达到百万甚至千万级别,而人工标注的速度有限,因此依靠人工进行标注不仅人力需求大,且耗费时间也过长。随着自动图像标注的技术不断发展成巧,出现了很多使用计算模型对图像进行自动标注的方法,这些方法的核也在于通过数学建模来学习图像与语义标签之间的映射关系。因此凰像的多标签标注也被看做是多标签分类过程,即通过模型学习图像与多个语义标签之间的映射关系,最后根据模型学习到的映射关系对图像分配语义标签给團像。图巧语义的多标签自动标注可大呈减少人工的消耗,W。有利于标注数据的累积,也有利于图像检索的大规模实际应用目前针对围像标注的研巧分为深度学习方法和浅层学习方法,深度学习方法由于无巧人工挑选特征而且在多数数据集上都有着明显优于浅层学习方法的表现,因此深度学习方法逐渐成为当前的研巧热点。。深度学习方法虽然有着许《优点,但是其计算参数S十分巨大例如应用广W-GG-泛的深度卷积神经网络VGG16,适然V16的效果显著,但是它的缺点也很-。明显。VGG16模型的计算复杂度达到过百亿FLOPS其中FLOPS代表每秒所执行的浮点运算次数,这种量级的计算复杂度是十分庞大的。虽然现在出现了专口用于深度学习计算的执行复杂数学运算的GPU这种图形处理器,可W使得计算速度大大提升。但是,这种机器它的售价十分昂贵,即使对于大型的互联网公司,要负荷大*的GPU也是一笔不小的开销。因此,想要全部使用GPU来处理海量的图片数据从商业角度来考巧是不可行的,必须考虑使用性价比更商的方案来进行替代。。相对GPU来说,CPU服务器价格便宣很多同样的价位可W部署多个CPU-服务器。但是深度学习模型如VGGnet16在GPU服务器上和在CPU服务器上的一一计算速度相差甚远。在GPU上计算张图片般巧要0.02s左右,而在CPU服务巧上则需要将近2s。假如同样是处理1000000张图片,GPU服务器上需要5个小时5.78天。,而在CPU服务器上则巧要这种差距对于商业应用来说是无法接受的。除此之外,对于用户体验来说,一假设深度学习摸型用于产品体验中,人们处理张困片时,肯定是无法接受2s才2 化京巧通大学硕+专、绪论Ik学位论义有反馈。因此对于需要使用深度学习的工业界企业来说,如何在CPU模式下尽量使深度学习模型可W更加具有可用性,是当前的研巧热点。如果可W在CPU模式下也可用实现深度学习模型达到基本满足用户要求,即模型输出速度加快,则可W大大减少企业的商业成本。除了上述的加速问题,基于深度学习方法的图像标注还面临着训练数据集处一于弱标注环境的问题。由于深度卷积神经网络的学习是个监咨学习的过程,因此深度卷积神经网络的训练需要大童的商质童的训练数据集作为教师信号,训练数据集的好坏直接影响着深度卷积神经网络的预测能为。可是在现实情况下,要获得大量的离质量的训练数据集千分困难,即使是人工标注获得的训练数据集也往往存在着,:标签不完整情况即已标注的语义标签相比于该图像实际包含的语义标签而言不够完整,即商;语义分布不平衡的情况频语义标签的图像数据和低频语义标签的图像数据不平巧,往往低频语义标签的图像数据量相比于高频语义标签的数据量而言近乎可W忽略;这种训练数据集称为弱标注环境下的训练数据集,这种弱标注环境下的训练集不仅会严重巧响模型W的学习?,,大幅度降低模型的團像的标注性能因此如何在弱标注环境下进行图。像标注,具有很强的实际应用意义1.2图巧标注研究现状1.2.1图巧巧注方法类别依据建模方法进行分类,目前图像自动标注的方法可划分为H类,分别是生成模型、判别模型和图模型1基于生成模型的图像标注()生成模型是指利用己有算法,从而生,统计两个或者多个数据集合进行比较成这些数据集合之间的关联模型。应用于图像标注领域的生成模型就是通过统计一?图像和对应的语义标签起出现的联合概率分布,得到用于图像标注的模型最早由Duygu,该巧译模型通过图像分割和区lu等人提出巧译模型就属于生成模型一域聚类的方法,进步生成相对应的字典,从而将,将视觉特征转化为视觉单词留像标注问麽转换巧了词典和视觉特征之间的巧译过程Jeon等人提出用图像聚类的结果来表示困像并统计子区域类型和关键词的额率来实现图像标注的交叉巧W体相关棋型;Lavrenko等人提出用连续的围像区域特征来表示图像并估计单词的]生产概率,这种连续空间相关模型方法相比于交叉媒体模型可1^1防止围像信息丢3i 北京交通大学硕卡专、Ik学位论文绪论W失问题。Feng等人利用多重伯努利分布来估计单词的生成概率,效率相比之前一的方法有明显提髙,但是间接的损失了定主题基于生成模型的图像标注优点在于标注更加准确fW,但是过于复杂导致常用于小规模数据集;2)基于判别模型的图像标注(一一个语义栋签当成是基于判别模型的團像标注是将图像的个类别,即将图像标注问题看作为语义标签的分类问题,起初基于判别模型的图像标注主要为二分类,用于对国像的类别进行区分,如区分城市和非城市风巧、区分室内和室外。但是随着人们对图像检索的需求不断提高,简单的二分类己经不够满足图像的标注需求,因此图像的语义标注问题也趋向为多分类问题。Caraeiro等人提出利用髙斯混合模型对同类图像进行建模,通过估计类间的概fW率得到类分布模型,然后对困像进行标注之后路晶等人提出基于多例学习和;tWSVM的图像标注方法,该方法通过后发式的迭代来最小化分类误差;Fang等人tw判别模型的图像语义标注由于提出结合层次分类的方法对图像进行标注;基于只需要对图像进行分类即可,因此可应用于大规模固像标注,但是缺点在于往往需要高质量的训练数据;(3)基于图模型的图像标注一一围模型是类用图来表示概率分布的类技术的总称。卢汉清等人提出将图像与图像之间的相似性作为依据训练得到图像初始标注,接着结合词语间的语义tWP相关性,通过图学习优化巧始标注实现團像的标注;an等人通过构造出困巧和tW人语义标签的相关图,利用相关图之间的权值关系进行图像的标注;巧晓光等提出将困像的视觉特征代入图模型并采用大规模图像数据集对词典限制进行突破,1【^Liu使得该模型适用于大型数据集;等人在前面的基础上提出了新的图像标注方法,这种方法结合了图像与困像、图像与语义标签、语义栋签和语义标签之间的。关系,最后通过流形式排巧进行信息传播,实现图像标注但是基于图模型的图,像标注模型离度复杂,不仅要对困像集充分了解还要设计存储空间和模式,因tw此不利于海量困像的标注。12.2.图像巧注关键问題tw图像的自动语义标注主要有W下两个关键问题:(1语义鸿沟问屈)国像的视觉特征和人类理解的自然语言之间的差异称为语义鸿沟。围像标注中:,困後特征和巧层语义之间存在巧多种层面的语义鸿沟问麼提取的视觉特征一和图像的视觉内容之间的鸿沟,即两幅视觉上看起来不致的图像视觉特征却十4 北京交通大学硕±专业学位论义绪论一分相似,:视觉内容和高层语义的不致性的鸿巧,如蓝色的天空和蓝色的大海,但是语义则完全不同视觉内容虽然相似;高层语义模糊的鸿沟,用户对图像的一种主观理解语义内容往往是,缺少客观的确切的判断准则。(巧多标签学习问题图像标注是一个多标签分配过程,需要将图像包含的多个语义标签都标注给图像。多标签学习存在着W下问题:语义概念相关性问题,由于语义概念之间并不完全独立,它们之间存在着很强的共现性,因此清晰的学习不同语义概念之间的边界是十分困难的问题fw数据不平衡W及标签集不完整问题;,其中数据不平衡表现在不同语义概念之间的数据不平衡,即现实世界中存在着髙频语义标签和低频语义标签之分,在训练数据集中低频语义标签的图像数据十分低频,而髙频语义标签的围像数据相比而言过多。而标签集不完整体现在图像己标注的语义禄签和该图像实际上该包含的语义标签相比,总是不够完整,由于标注模型训练的准确度和训练数据息息相关,数据的不平衡W及标签不完整等问题给图像标注带来很大困难。1.3深度学习的研究现状、深度学习作为人工智能的新的突破点,通过模巧神经细胞网络,在围巧文本等多个领域都取得了突破。最早的深度学习结构是基于人工神经网络进行构建的,但是效果并不突出,在1989年,YannLeCun等人在深度神经网络中运用反向传播算法,成功运用于手写识别,可是这种网络不但训练时间消巧过长,而且也受到其他简单模型如支持向fi机等巧层模型的拂战。直到2006年,加拿大教授Hinton提出了基于RBM(受限玻尔兹曼机,RestrictBoltzmannmachine,RBM)的深度置信网络(Deepbeliefnetwork.DBN),这种深度网络在手写数识别上实现了惊人的突破:,证明了Hinton教授提出的两个观点多隐层的人工神经网络相比于人工的特征提取,具有更加优异的数据刻画能力,即可W学习到更加本质的巧21’‘‘’11--据特征]通过(laerwiseretriin)。深度神经网络可(^1逐层初始化ypang来实现uif一网络模型的收敛.这开创性的理论为之后的深度学习莫定了扎实的基础。随后Lecun等人提出了针对困像应用领巧的的卷积神经网络(Convolutionneuralnetwo出CNN)它的卷积层结构有利于获得图像特征之间的相对位S信息。,,Krizhev出y等人把深度卷积神经网络AlexNet应用于困像分类,并取得了很好的结23[]果。Simonyan之后提出深度卷积神经网络VGG和Szegedy等人提出的深度卷fW积神经网络GoogleNet都探索了加深网络深度,并取得了显著的成功。卷积神经网络方法的最大的好处就是不再需要人工挑选特征,获得的图像特征都被证明51 北京交通大学硕±专化学位论义绪论比人工挑选的更加底层。,在同样的分类器下,有着更加好的分类效果上述的深度学习方法都是针对的单标签的分类问题,直到2014年Gong等人提出的-Multilabelsoftmax和WARPlt深度卷等基于多标签学习的损失函数,结合AexNe-W积神经网络,在NUSIDE数据集上取得了比传统的多标签分类算法更加优秀的P51效果。随着深度卷积神经网络的不断发展,基于多标签深度学习的图像标注越正成为人们研巧的热点。1.4本文主要工作及结构安排分析W上研巧现状-,本文的主要工作和章节安排如图12所示。研巧背巧与意义提出问睡^^研巧现状^<1^^0=评诚式下5网络处理训练数据美处于弱标注环巧^^^|^^--r妙-im理论基础深度巧巧神经结合深度模型现有的W决强巧理弘论至脂础III眶旧化《化巧-网络VGG16及的《标签学习巧注环巧的方g評其原理I支法I法I本文提出的的深解决办法经I繁神就_異\7_提出特征巧合I、、件IS喔巧R刪架II算法实验验证巧度与巧度巧iiT致据优化程度訟III—-巧总结与展望总结与展里田-2本文主要工作层次结构示意图1巧ure^2StructureofmainWO出hierardiyintheaerppg一:本文针对基于深度学习的西像标注间鹿,拟针对两个问趣进巧优化个是6i 北京交通大学硕±专业学位论义绪论深度卷积神经网络参数过大导致标注图片速度过慢问题;二是多标签训练数据集的弱标注环境问题。本论文的工作主要分为两个一,个是对深度卷积神经网络的改进从而实现加一速,个是通过结合数据补充等策略实现数据迭代优化从而优化弱标注环境的训练数据。第一章是绪论部分;阐述了基,首先介绍了本文的研巧背巧和意义于浅层学习方法图像标注的研巧现状,并介绍了弱标注环境的研巧进展:接着详述了深度学习的发展和现状;最后总结了本文的主要工作W及章节结构。第二章是论文关于图像标注的深度学习的基础知识介绍:首先介绍了图像标一注的基本框架、多标签学习的相关算法レッ及针对弱标注环境的些解决办法;然后介绍了深度学习的概念,着重介绍了卷积神,然后对比了浅层学习和深度学习经网络原理广泛的深度卷积神经网络VGG-16讲解了基,并详细分析了当前应用;于多标签深度学习的图像标注算法框架;最后介绍了常用的应用于图像标注的评。价方法,为之后的章节做基础铺垫第王章是介绍了本文的主要工作:针对基于多标签深度学习在CPU模式下运算过于缓慢的问题,通过修改卷积核的大小和深度,提出参数较少的深度卷积神-经网络Newnet,本文提出的模型在计算参数量上相比深度卷积神经网络VGG16_减少近7倍。在此基础上本文继续对Newnet的相应卷积层进行SVD分解,使得_wSVD-enet参数量相比于VGGnet16模型减少近分解得到的深度卷积神经网络N__10倍;针对训练数据集的弱标注环境,提出了从数据角度出发通过改善训练数据集从而能提升模型巧度的算法框架,分为算法框架的整体介绍,W及在迭代预測时为提升预测结果所提出的多模型特征巧合和KNN分类器替代softmax分类器的方法。第五章是实验验证,首先介绍了Cafe框架的基本运行流程和实验的硬件环巧,接着分别对本文提出的加速模型和数据迭代优化巧法框架进行了实验验证,在腾讯Qzone十万张多标签数据集上进行模型的训练和效果的评价,对比了加速模型一-6Cafe框架下CPU模型的速度和同测试集上多标签图像标和VGGnet1模型在一---ll、nu注的macrorecision、macrorecamacroaccujy的指标I对比了同模型在数p据迭代前后的效果。第六章是本文的总结和展望,系统总结了本文的工作,提出了本文仍可W优一工作进行了展望化和进步的地方?,对下步研巧7 北京巧通大学硕±专化学仿论义图化掠注和深度学习相关知识2图像标注和深度学习相关知识在深度学习理论出现之前,图像标注就己经有了众多学者针对不同的应用场景和领域提出了很多不同的理论和方法。本文提出的方法结合了两者的相关方法,因此本文将分别介绍图像标注和深度学习。由于基于多标签深度学习的图像标注属于基于判别模型的图像标注方法,因此接下来本章将详细分贝介绍基于判别模型的图像标注算法框架和相关的标注知识和深度学习的相关知识,为之后网络和算法框架的提出做铺垫。2.1多巧签图像标注框架-如图21所示,基于判别模型的图像标注的关键步骤分别是图像的特征提取和。模型的多标签分类:将数据集分成H部分,分别为训练集、验证集和测试集在训练过程中,首先提取训练集的图像特征,然后用分类模型学习特征和对应的语义标签的对应关系,直到模型在训练集和验证集上都收敛,就说明分类模型己经训练完毕;在测试过程中,通过同样的图像特征提取方法得到测试数据集的图像特征,分,然后用训练得到的多标签分类模型对测试集图像的图巧特征进行分类。类得到测试集的语义标签类别,就完成了图像标注过程从图像标注框架中可W看出,图像惊注最为关键的两个步巧分别为特征提取和分类模型?,下面本文将详细介绍人王特征提取的方法和相关的多标签分类算法训练图像测试困像I集集王击特征提取轉征提取巧类盛测试模型结果-困21困像标注流程巧u历-heofimaeannotationg21Trocessgp8* 北京交通大学硕±专北学仿论义函復标注和深巧学习相关知识2.1.1图像特征提取图像特征不仅是图像标注的关键之一提取,也是实现图像标注的前提,特征是将一副图像的髙维数据矩阵简化表达。分类算法要从这些简化的矩阵中找到和语义标签的映射关系,因此特征的提取直接决定了效果的好坏。图像特征提取是。图像标注的前提,也是影响图像标注效果的关键因素传统的特征提取需要人工J进行主观挑选,由于图像在各个层面的表现都可^^l提取特定的特征,例如有视觉底层特征如颜色、纹理、形状,而各种特征提取的表达图像的主要信息在面对不同的分类需求时表现也不尽相同。针对如何从图像中提取出有效的特征,众多学者进行了很多的尝试。总体来说、纹理特征、形状特征等底层特征和局部特征等。,图像特征可包括颜色特征一其中颜色、纹理、形状等属于图像的底层特征,是种全局的视觉特征,适合图、,,比如旋光照等,而局部像理解使用比较广泛,但是容易受到环境的干扰转。特征虽然不容易受外界环境干扰,具有很好的稳定但是它只能反映图像的局部。特征,只适合于图像匹配等应用这两种都是传统围像特征提取常用的,下面分别介绍常用的底层特征和局部特征。底层特征主要包含W下:(1)颜色特征颜色是图像中非常重要和使用十分广泛的视觉特征,其和困像的尺寸和方向、物品等息息相。等都不相关,颜色往往可W和图像里面的场巧关颜色特征的提取有下方法,从而表达出不同颜:颜色直方團是通过统计图像中所有的像素值色在图像中所占的比例,有全局、主色,可W通过坐标系或者颜色空间计算得到。调等颜色直方图,常用来描述颜色特征此外、RGB与HSV空间转换等方法,其中颜色巧合向量,还有颜色聚合向量色空间的位置,,优势很明显它将像素分为巧虽然比较繁琐,但是它可W确定颜一民GB与HSV!另外合和非聚合,然后对颜色族的两部分进行比较得到结果种e色彩Saturation饱和度,Vlaue即HSV空间转换,亮度,则是由于人眼对Hu()()()三个分量比较敏感ed红色,Green绿色,,而基本上大部分的團片都是用的R()()B山e蓝色即RGB空间,因此要进行RGB至HSV的转换。RGB转换成HSV颜()简单一H进行,色空间为非线性转换,是可逆的而且十分巧转化之后只需要考巧VRGB低,因此可W提升西像的处理速度运巧,此外HS颜色空间维数相比2纹理特征()。纹理是与图像中物体的表面性质相关的特征,因此十分重要纹理基元具有不变性A不同形变、方向多次出现组成纹理,是空间,它在巧定区域的多个位SU9i 北京交通大学硕±专业学位论义图便标注和巧巧学习相关知识区域里的像素灰度值变化模式。常用的纹理特征的提取方法分为统计、信号处理、结构和模型法四类统计方法是对像素灰度值的特性和规律进行统计分析从而一进行描述,适用于人工纹理和些自然纹理如树、草等纹理。常用的算法主要有灰度-梯度共生矩阵、半方差图和自相关函数等;模型方法的思路是把特征提取当成是一种分布的估计一,主要有两种做法:种是用定量学习得到概率模型参数,再用聚类实现参数更新,这样得到概率就可得到归属的概率一,叫做随机场另外种是确定图像尺度变化时的分形维数,叫做分形法,;PW常用的算法有Gibbs随机场模型法和马尔科夫随机场模型法。(3)形状特征形状特征是与图像中物体边界相关的特征,形状可W很好的对物体进行归纳,比如火车的形状、飞机的形状,它比颜色或者纹理有更好的表达性能。但是目前如何获得国像中物体的形状特征仍然是十分困难的。形状特征包括对形状边界描一述的轮巧特征和对包含区域进行描述的区域特征,它们般都是用形状无关矩和傅里叶变换来描述的。、局部特征常分为斑点和角点两类,其中斑点是指图像中与周围物体的颜色一。灰度等有着明显差异的区域,如湖中央的个小岛而角点则是图像中的物体的。线条相互交叉的部分,因此斑点往往比角点有更好的稳定性本文侧重介绍常用tWPW、SURF于图像标注的斑点局部特征提取方法SIFT恃征提取特征提取:1)SIFT特征(由Lowe提出的SIFT是全称是尺度不变特征变换算法,通过高斯核卷积建立高斯差分空间金字塔,该特征点不仅仅有尺度不变性,在角度旋,再提取特征点转,因此得、图像的光照强度或者图巧视角的情况下依然有很好的特征表达性能到了广泛的使用。SIFT特征提取主要分为H个步巧;构建高斯差分金字塔、捜索特征点、描述一一特征。首先通过阶髙斯差分建立个具有线性关系的金字塔结构,然后对缝隙位置进行插值,,再求极值点的位置即特征点捜索其中巧要注意的是要册除边缘效应的点,得出,最后就是通过统计分析恃征点领域内的点的梯度方向的直方图特征点的主方向。巧SURF特征SURF特征是基于SIFT算法的基础上,针对幻FT巧法计算1:大的缺点进行改一?它进的的加速鲁棒特征,是种斑点检測方法的思巧是在不同尺度上用积分困像计算出近似的Harr小波值。SURF特征提取的不停在于使用了盒子淹波巧,这种裙波器可简化二阶微分,从而相比于SIFT算法能巧少计冀量,缩短计度时间,2--其近似构建的Hessian矩阵如下公式(1)巧口2)所示。10I 、学仿论义北京交通大学硕±专Ik图像标注和深巧学习相关知识萨。〇w)如巧j'=-〇cxa.9D(,y,)()^_2口)'-其中〇、〇和公是近似卷积值,是通过盒子滤波器得到的。公式口2中.)u,,c;ca是用来判断像素关键点的,大于闽值则为关键点,反之不是。对特征点(,y,)进行定位时于SIFT算法近似,就,对关键点领域做非极值抑制然后进行插值运算完成了SURF算法的特征点捜索一向的Harr小。最后用个扇形来统计两个不同方,求得特征点的方向波模板计算的到的梯度,完成SURF算法的特征描述。近些年来随着机器学习的发展一避新的算法不断引入到特征提取的研巧中,S口1P1PS1pw1、、vlad,开始出现对底层特征做比如稀疏编码费舍尔向量编码等做PS1处理之后得到的特征,有空间金字塔用来使用于分类的图像特征具有空间信息一的特征等等件非常费力、费时的事情,不仅需要。但是传统的特征提取依旧是专业知识的步骤。,而且能不能选取效果好的特征很大程度上需要依靠经验和运气2.1.2多标签分类算法对于图像标注来说,有了图像的特征描述,剰下的关键在于标注算法。本章侧重介绍传统的基于多标签学习的标注方法。多标签学习是从每个实例对应多个标签的实例集进行学习的过。一一,D=XXX....其中表示副图像的特征,假设公表示个图像数据集{,,,},,23=...,1"...,其中从表示每幅图假设巧表示图像对应的标签集合,知},}习就是通过构建分类函数/来学习公一^的映射关系。像对应多个标签,多标签学Pq?当前主要的多标签学习方法可W分为两种类型:问巧转换法和巧法适应法问题转换法是基于单标签分类的基础上进行改进,把多标签学习看成是多个单标签?从而能学习图学习的组合。算法适应法则是对单标签分类算法进行适当的修改像和多标签映射关系。下面将介绍这两种类型的主要算法:问题转换法主要如下方法:(1)二元转换法一,二元转换法是使用巧为多的个问超转换法,因为其思路巧单效果也相对一-比较出色个标签都训练出个分类摸型,然后再将这些分类。该方法是针对每?模型进行组合对測试样本进行分类,便得到了測试样本的分类结果但是当数据一。,计算量十分的大比如有千个标的标签很多时,这类方法便显得千分的笨重一不现实的,而且这种方法丝毫没有考巧标签之签,就巧要千个模型,这是十分11i 北京交通大学硕±专业学仿论义图像标注和深巧学习相关知识间的相关性,因此在面对比较复杂的情况时是不适用的。(2)分类器组合链法PWW组合分类器链法顾名思义是依靠分类器链将标签之间的联系考虑进去,它把通过二元关系法得到的多个分类器组合成链一,并把每层分类器的预测结果给下一层用,并采用多条随机产生的纪合链来减小链的顺序对结果的影响,从而达到有效的结合语义标签之间相关性进行分类的效果。(3)标签集融合法一标签融合法是把每张图片的所有标签看作是个标签,这样就把多标签学习tW问题转换成了单标签学习问题,就可单标签分类算法进行解决。但是这(^使用一种方法存在两个比较大的缺点:第个是这种方法可处理训练数据中出现的标一二是由于每张,样的测试集合就无法正确分类签集合但是对于和训练集不:第图片的标签集合分布太过复杂,很容易会使标签集合的空间太大,使得训练难度大大提升,根本无法正常使用。算法适应法主要有如下方法:(1)NN(最近邻算法)一NN算法的基本思想是假设相似的图像倾向于享有样的语义标签。NN算法首先提取图像的地层特征:颜色特征和纹理特征,然后进行距离计算。假设人表’?I张酉片示第I张图片,表示第张图片,并且上个步骤中己经分别提取好了第j=.和第张图片的A...,并且定义表T个特征於,,,,,_/於乃芳乃方4,,*NN算法中定义困片和的距离为示特征乂和乃之间的距离,人式',八2-3叮()NN算法提出一这种距离被称作JECJointEalContribution),接下来种简单的标(qu签预测方法。=.乂假设测试围片为/K张国片为/,112.,这些围片依照距,于其相近的,^,离进行排序:首先对的标签进行排巧?如果中,然后按照下来的步巧进行计算的标签大于《/的巧签,如果小于n则对依据标签,则这些标签就当做是测试图片^【]。/,的标签进行排序,^此类推巧终得到測试困片的标签出现的频率继续对12口)TagProp(标签传播法)标签传巧法是基于带权重的最近邻算法的思想,相比于NN算法,由于给标,在很多数据集上也达到了更好的签加上权重,因此更好的利用了标签的相关性[W,很难用于效果。但是本方法的缺点在于当巧据量十分大时计算童也十分巨大工业界?本方法假设义表示測试图片f是否有W标签,有则为+1,没有-,用索引表示训练图片,1?/则为,定义预满图片的标签是带权重的训综留片的和12 北京交通大学硕±专业学位论义图像标注和深巧学习相关知识有如下公式户=+1==+*14)^1y)口此乙鸣的於)?其中代表图像i的邻近图像来预测标签时的权重y,定义算法的目标就是最大化r,其中r=ch-5ZwpCO口)?',》针对如何确定权重,该算法提出基于排序和基于距离的权重计算方法,其中基于排序的权重算法是定义方.表示测试图像/的第k个近邻,有如下计算公式,1,沁c。_麻pOUI*)-6y(2)抑kI*’而基于距离的权重算法则用rf表示距离矩阵,,其中0是要优化的参数有如下计g算公式设料化饼巧=-7"^口)exp-S/(或化八)标签传播法在通过爸理地权重设置,充分利用了标签和图像之间的关系,在很多的多标签分类的任务里都有着十分良好的表现。2.1.3弱标注环巧下的图巧标注在国像标注任务中,分类模型十分依赖训练数据集,对,对于监容学习来说于这种分类模型来说,最理想的情况便是训练数据集的标签集十分完整和准确,训练数据集信息越清晰,,分类模型学习到的知识越淸晰图像标注的效果也越好。i由于W往需要的数据量相对较小,通过人工的多次标注就可tl获得十分巧确和完整的训练数据集,因此这个问题当时并没有受到重视?但是对于深度学习而。言,对训练数据集的数量需求是越多越好要获得数据量较大的巧质量的训练数据集就无法通过人工标注去实现了,要人工多次标注这些训练数据集过于耗巧时间,而这,效率十分低下。因此往往只能是人工粗略的进行标注样得到的训练数据集就存在着标签集不够完整的问题。-2所示、汽车、广场、树如图2,图片中实际应该包含的语义标签应该有天空一木、人,但是在人工标注时往往由于语义标签太多而导致很那次性把所有标签都正确的标注上,因此大多巧巧况下都会出现标签集不完整的巧况,图中所示便、,这。是这种情况,标注的标签只有天空人就是标签集不完整的情况13i 北京交通大学硕±专业学位论文围復标注和深度学习相关知识..实际标注Groudtruth■P.-、;天空■本f广场汽车I广场—图2-2数据集的标签集不完整情况F-iure22Imaetasetgggisnotcomletep除了上面的情况之外,包含低频语义标签的图像数量相比于包含高频语义标签的图像来说过少,严重影响模型的识别能力。本文实验所用的腾讯Qzone十万张多标签数据集中,低频语义标签的数呈和离频语义标签数量相差十分巨大,其中包含与语义标签树木的图片的数量几乎是包含语义标签火焰的图片数量的6倍之多。上面两种情况,对于多标签图像标注来说,称训练数据集处于弱标注环境。对于绝大部分的多标签图像标注算法来说,含有准确完整和均衡的语义标签集的图像训练集是保证算法有效的前提。但是,要获取大量的完整的用于深度学习模型的多标签图像数据目前必须要由人工标注来完成,而人工标注速度有限且过于耗费成本,因此要有人工来完成几乎是不可能的事情。一总而言之:是训练数据集的图,本文针对的弱标注环境主要包含两个方面一像的标签集不够完整,己经标注的标签集只是真实标签集的个子集;二是语义概念标签数据的不平衡性,依据奇普夫词频分布定理只有少部分的语义标签出现频率很髙,而大部分的语义标签的出现频率都比较小。依据出现的频率可W把语义标签分为常用标签和稀有标签,这是语义标签的不平衡性。因此弱标注环境训练集是指不同语义标签分布不均巧,不完整的标签描述的图像构成的集合,。经证明训练集中髙质量的标签在同样的算法中在同样测试集W上的表现要远远大于处于弱标注环境下的标签在该测试集上的表现。因此弱标注环境的图像数据集不利于属于监暂学习的多标签学习算法的学习I学习的信息不。全就肯定会影响模型能力,因此弱标注环境是不得不去考虑的问题许多学者都展开了针对弱标注环境的研巧42针对训练图像只有一个标,文献[]此算法要求每张图像至少提供一签正确时的情况提高了分类性能,但是个准确的一43语义标签且还需要额外的堅辅助信息;文献[针对像素标签缺失使用了判,而] 北京交通大学硕±专业学仿论义图復标注和巧巧学习相关知识别模型和主题模型的融合方法,虽然结合两种模型的方法效果较好,但是像素标签的获取难度十分大一;但是上这些方法大都要么只着眼于弱标注环境中的个方面的问题,要么对数据有前提要求。文献[44]则针对语义标签包含的图像数据分布不均衡的问题即高频语义标签和低频语义标签的问题使用sigmoid激活函数来相应提髙低频标签的预测概率。文献[45]通过去除坏标签的方法来提升数据质量,这两个方法针对数据问题进行特定的算法改进,并且尝试通过数据质量的提升来实现模型精度的提升,取得了良好的效果。本文的解决思路亦是从数据角度出发,结合深度学习的方法,来处理弱标注环境问题,通过提升训练数据集的质量,不仅有利于数据的积累,而且可通过更髙质量的训练数据集来获得更加精准的模型。2.2深度学习的基本概念深度学习理论是机器学习领域的新的分支,它的概念来源于人们对传统人工2-3。神经网络的深入研究,其典型结构如图所示Q输入层Q潑……―〇〇〇隐藏层输出层0)巧2-3深度学习的典型结构-3fdeelinFiure2Thetypicalstructureopearngg深度学习理论通过模巧人类大脑的多层模型结构,实现逐层提取数据的巧层特征表示的算法。在过去几年发展迅速,不断在在困像、文本等多个领域的成果转化上取得显著效果。深度学习的本质是学习巧据之间的非线性复杂关系的多级的层级结构棋型,15 北京交通大学硕±专业学仿论义图復标巧和深巧学习巧关知识其多级的层级结构使得深度学习可W通过一征中学系列的非线性变换,从低层特习到更加抽象的髙层特征,从而构建出深层次的特征表示。深度学习表现为通过多隐层的机器学习模型抽象表达出大规模训练数据,其中深度模型是深度学习理论的承载工具,并最终达到高级语义概念的特征学习。虽然深度学习的参数复杂,计算量大,但是随着硬件设备如芯片等的计算处理能力不断提升,和使得深度学习得W在各个领域广泛应用。2.2.1浅层学习和深度学习在深度学习之前,机器学习领域中相对于深度学习而言的巧层学习是机器学一习的第次浪潮。区别于深度学习的多隐层模型结构,浅层学习模型是指模型结构的隐层数量只有一层、两层或者没有隐层结构的机器学习模型,如支持向量机巧VM)、逻辑回。归、条件随机场、核回归、传统神经网络等,这些机器学习模型都属于巧层模型它们在处理简单问题时。,在理论研巧和实际应用中都表现良好但是由于浅层模型本身的特征表达能力有限,,泛化能力受到限制,在面对高维的复杂函数时如。处理声音这类事物时,往往表现不佳在2006年之后,深度学习的提出W及在多个领域的成功,使得其成为机器学习领域的第二个浪潮。深度学习是从传统的神经网络演化而来,深度指的就是神,相经网络的深浅,其多隐层的结构更加接近人类大脑的神经层比于巧层学习最明湿的优点就在于可W利用多层的非线性变换来表示更加复杂的函巧集合,也因此深度学习有着更好的特征学习能力,可W从数据中学习到更加本质的东西,如图2*4所示。cos(x)AIIexp(x)log(sin(exp(cos(x))))sin(x)Alog00 ̄jjzsz_resu——tltresul巧2^多层结构巧巧复杂西数原理>rinlmlexmcdonof田ultilaerstructure巧ure24Thecileofsimu妃ngcopAygpp16 北京交通大学硕±专、学仿论义Ik图復标巧和巧巧学习相关知识用一层结构表达出结构复杂的函数显参数复杂过多层的简单函I明,但是通数进行组合,不仅可达到同样的效果。,而且要实现起来也简单的多因此,在用于描述同等情况下的复杂函数时,多层结构的深度学习要优于浅层学习。2.3深度学习模型深度模型是深度学习的承载工具,虽然深度学习由人工神经网络演化而来,レ但是其结构却有多种,而且有各自不同的适用范围和条件,总体可ッ划分为生成tw性、区分性和混合型三种结构。生成性结构的深度模型主要有RBM(限制波尔兹曼机)、DBM(深度波尔兹曼机)、DBN(深度信念网络)等,它们都是通过采样有效的样本生成模型从而实现描述数据的联合概率分布情况。区分性结构主要有CNN(卷积神经网络),用于描述数据的后验分布情况,至于混合型结构则是生成性和区分性结构的合成。本文着重介绍在图像领域应用广泛的区分性结构深度学习模型卷积神经网络。2.3.1卷积神经网络(CNN)由于卷积神经网络来源于传统人工神经网络(ANN),因此首先介绍传统的人工一?种数学模型,用于信息的处理等神经网络,人工神经网络是在计算机领域是其发展源自于人类对在神经元的电生理的研巧的突破,人们通过这些对人脑的认、识开始尝试模仿人类大脑的结构来组成数学模型,从结构实现机理和功能上模连接的神经元构成的自适应非线性动态系统。巧生物神经网络,通过大S这种类似神经元的数学模型通过大*的相互连接的神经元来对输入和输出之。因此,人们对人工神间复杂的非线性关系进行数学建模,具备很强的学习能力经网络的研巧热倩十分髙涨,逐渐发展出现如BP(Backpropagation)神经网络等具?有显著成效的神经网络,在很多领域都有着广泛的应用人工神经网络的基本沮成单元为神经元,是由大量神经元组成的并行分布结一一2-5构的信息处理网络。个神经元的结构如围所示,神经元也成为感知器,个一出连接方法输出,毎个连神经元具有单。每个神经元与其他神经元都有多种输—一二分接的方法对应着个连接的权重系巧?神经元是个线性类器,假设输入是?=?=...,乂^则有公式义...出为,毎个输入都会设*枚重值抑,2^,}扣,2而}谦>2-8()?-=xtioYx28yactm()^)71 北京交3§大学硕±专业学{六市图復标注和深巧学习相关知识其中化丸wrton是激活函数入向量通过它映射成了一,输个杨量输出值,通过权值向量的不断学习使输出不断的逼近期望的输出,这就是感知器的原理和功能。围2-5神经元模型巧-ure25Neuronmodelg其中最常用的激活函数是s-imoid函数g,其计算公式29如下()=2-9客口)点()这样就有了神经元的公式==wxhx2-y{){)(10g^)输入己知,目标就是通过训练数据来学习权重向量W,上述公式可W等价于---J=o-(W)l1lolAW)口11^g、W(y)g(w)对上述公式采用梯度下降法对向Sw求导,令倒数为0,得到=-^wx212{Ky)()这样在之后的每次训练迭代时,就可依据=—-wW£xAw(213)进行迭代计算已得到最优的权重向*W。卷积神经网络属于人王神经网络的一984种,属于前巧网络,其历史最早是1年Fukushima基于Hubei和Wiesel提出的感受野的基础上提出了神经认知化一其中个神经元所反应(支配)的剌澈区域就叫做神经元的感受野,而神经认知。机的核也思想是将视觉模式分解成子模式,实现模型化很多学者由此启发不断改进和优化神经认知机,推广出卷积神经网络?区别于传统人工神经网络的全部连接,卷积神经网络邻近层之间的神经元只是部分连、:局部感受野、空间或时间亚采样等,这些特接,其核也思想主要是权值共享点使得卷积神经网络和生物神经网络类似,大大巧少了网络的计巧量,巧免了传统方法复杂的特征提取等过程,而且局部感受域可W挖掘困像巧据的局部特征,如图2*6所示便是神经元局部感受域的示意困。18 北京交通大学硕±专业学位论义图像标注和深巧学习相关知识神经元^/特征//丄神经元图2-6局部感受野巧ure-g26Localreceptivefield这种局部感受提取到的特征对图像的各种变换如尺度变换等都有高度不变性。这种具有局部感受野的神经元的连接权值各自组成一个滤波器,每个滤波器遍历一m整个二维特征就得到了个新的二维特征,称之为featureap。有N个滤波器就会得到N个featuremap,通过这种方式可提取图像中不同位置的相应特征。每层的每个二维特特国都会对应一个卷积核,注意这里的卷积核信号里面的卷积完全不一样,卷积神经网络里面的卷积代表的是权重,之所称为卷积神经-二维。27所网络是因为这个权重矩阵和特征图的匹配类似于卷积操作如图示,为相应的卷积运算步巧。二巧特征图featuremapMi卷积核I1111Kj输出—-1步长为II||0011rTTT—----— ̄ ̄—二X122|01101I0I'2310110困2-7卷积运算巧re-gu27Convolutionoperation图中可见,输入的二维图像特征是4x4维,卷积核大小是2x2维,当步长为一一4-2+-lx42+3x31时就是说卷积核毎次只移动步时,就会得到个)(大小(リ即一fea。二维特征的大小?卷积层巧到的的turemap步长和卷积核样决定了输出的一—层的featurema通过不同的卷积核作卷积并累加后,每个featuremap都是上p一id函,因此输出矩加个偏a激活后得到,巧活函数为前面巧到的sgmo数阵y与二维输入特征M和卷积核K的计算公式为*-=iswn+bias4moidMK1s(()y)口)ggyXnA,则这层的featuremap假设上层的二维特征map大小是《,卷积核大小是19 北京交通大学硕±专业学仿图像标注和巧巧学习相关知识+一n-A7x-A+大小为j如。般卷积核大小都是通过经验设定LJl(",再由:上计算公式和原理便可W是实现卷积特征的提取了。卷积神经网络的关键还有参数共享的特点,就是说每个输入的二维特征对应多个卷积核W学习更多不同的学习特征。把卷积操作看成是特征提取,则每个卷积核对于整个二维特征上的权值都是一一样,,这就是参数巧享。简单来说从个二维一小块二维输入特征随机选取8x8作为样本,由于这个输入特征用于计算的一所有的权值都是样的,因此可把这个8x8的样本对整个二维特征进行随机探测。在实际的应巧中,往往会使用多层卷积层,并且加上其他用于防止过拟合等一的参数层-。下面就主要介绍目前广泛使用的深度学习模型VGG16,这是个深度为16层的卷积神经网络。-2.3.2深度卷积神经网络VGG16VGG-GG-介绍16模型除了么前介绍的卷积神经网络,还需要介绍V16模型中用到的Pooling(池化)层、民eLu(激活)层、Dropout(随机丢弃)层这些用来减少模型L参数和防止过拟合的参数层,义及在卷积层上处理局部关联问题的卷积深度、巧ze-充值处理(ropad出雌。)理论上当图像通过卷积层之后就可用于训练分类器,例如用于深度模型中常用的softmax分类器,可是如果直接这样经过多层的卷积神经网络,就进行计算,会出现计算宜:千分庞大且容易出现过拟合的现象?假设输入是500个128x口8的二8x8,步长为1时,则每个卷积得到的featuremap都会维特征,卷积核大小是一-。fea-++l那么500turema有(1288l)x(1288)即MMl维的卷积特征共个输入的p3205007百万维^级别的特征用就会有500X14641即7维卷积持征向量,这种1^1上分类器去进行学习是很难实现的。因此在,即使实现也会出现严重的过巧合现象卷积神经网络中加入池化层等用于防止过巧合。一池化就是对上层输入的二维特征的采样处理?由于通过卷积后的特征具有?而这种,因此静态属性,容易出现重香现象考巧使用巧合统计不同位S的特征聚合的操作就叫做池化。它的主要优势不仅仅可降低上层的计算复杂度,更提一供了。种变换不变S2x2的窗口实现就会有3个准确例如对于有8个方向变换的单巧巧,如果用一的结果3/8,而旦窗口经过池化后变成3x3,准确巧率就会提巧至5化,,概率是可见池化操作不仅降低中间维度更是提升了特征的鲁棒性。简单的池化操作如图2-8所示。20 北京交通大学硕±专业学位论义图您标注和深麼学习相关知识二Z二ZZZ池化层特征II::三?1I过卷积层之后输出的二维特征图2-8池化过程F-igure28TherocessofPoolinpg右侧深灰色颜色的小矩阵就是左侧同样颜色大矩阵的平均值或最大值。这就是简单的池化操作。tWDropout层则是有最近几年Hinton提出的,目的是为了防止由于训练样本一太少导致的模型过巧合,原理是在训练模型的时候,每次反向传播时都随机的一样的让部分神经元不工作,只是保存其权重值,每个神经元被暂停的概率都是。至于为什么Droout会有这么好的防止过巧合效果,因为在训练过程中使用drooutpp.当dropo山系数是0.5时,即每次随机让每层的半数神经元不工作,类比于训练很多个半数网络,这样就会有很多个半数网络模拟训练样本和标签之间的非线性关系行,,,就会出现多数的半数网络是正确的少数的是错误的,随着训练的不断进这样就可W很好的防止过巧合。ReLu层使用的主要是线性修正函数,它的作用是让小于0的值变成0,而大于0的值则不变,相比于Sigmoid函数,ReLu函数具备更好。虽然同是激活函数的引导稀疏的能力。,可W使网络加快收敛速度和去除冗余等一,全连接层是用于计算每个类别的概率输出,假设有个类别则这层的输一出为这层区别于卷积层,它的神经元不再是局部感受域,而是连接了一上层的所有神经元。一卷积层中的卷积深度代表的是这卷积层的神经元个数,即卷积深度为32意一一咪着这层有32个神经元和上层的输入进行连接。而填充值处理是为了可W实现完全卷积而又不会导致特征维度过大,因此在原始数据的周围不上值为0的值,一而且这种处理不会影响神经元的局部感受野,是种便于的计算的处理方法。有一了这两种方法后可W发现每卷积层的输出矩阵的计算公式有所改变,输出矩阵。的大小也会由卷积深度和填充值处理而影响,本文在下章会详细介绍^1 北京交通大学硕±专业学位论义图復标注和巧度学习相关知识-接下来介绍VGG16的模型结构-,VGG16为16层的深度卷积神经网络,如2-9所示图。 ̄--C〇nv3Conv364128Maxpool|Relu"*Reluv9Ms9M^''--.Conv364Conv3128,gReluupMaxpoolIIConv-3256RelSoftmax^r-ccConv3256FC_XReuConv3-2567ReluMaxpoolFC-4096Conv3-5-12Conv3512IReluReluRelu-DroC加v352-ptMaxl1MaxpoolConv3512_oupoo-二FC4096扛Rl:Releuu--ReluConv3512Conv3512DropoutReluRelu_2-9ne-困深度学习巧型VGGt16模型结构困Fiure--g29ThemodelstructuraldiagramofVGGnet16nv3-64表示卷积核大小为3X3其中Co,卷积深度为64即输出的featuremap的个数为64,填充值处理为在二维特征的周围填充0,最终输出的维度为224x224x64维,其中还有Re山层是上面介绍的ReLu激活函数,Maxpool层是池化取最大值,一 ̄4096是全连*直到FC接层,输出维1X^4096维,该层经过的Dropout层是在-模型训练的时候才用的用于防止过巧合的函数层,最后经过的FCX是依据类别来设定的全连接层,假设要分类的类别是1000类,那么X就等于1000。最后经过softmax分类器,得到对每个类别的预測概率。其中预测概率大的就表示围巧中巧有可能包含该标签,预测概率小的语义标签则代表图中可能不包含该语义标签。2.4基于多巧签深度学习的图巧标注深度卷积神经网络的分类能力不仅巧多层卷积神经网络抽取得到的高i级抽象一。特征,另外个关键是损失函数损失函数是决定模型能力和实现任务的关巧之一,也,它不仅决定了深度卷积神经网络要学习的方向决定了深度卷积神经网络最终的能力。因此要实现多标签图像巧注,损失函数也必须是能巧实现多标签学习,接下来本文详细介绍基于多标签学习的损失函巧。22 北京交巧大学硕±专业学位论义图復标注和深巧学习相关知识2..41基于多标签学习的损失函数目前应用于深度学习模型的多标签学习损失函数基本都是对传统算法的改进,主要有Softmaxloss、PairwiseRankinlossWeiteroimateg(成对排序损失、hdAx)gpp49RankWARP[]ing(X权重逼近排序片种方法。用于多标签学习的Softmax损失函数思路来自于标签传播算法Tagprop,是在Softmax的基础上进行了适应性的修改。原本Softmax是解决多分类问题的模型,>",>)【>一=;假设训练集0..,其中标签卢是个多标签集合{护,比如,严),知,>)}w=010...,y,1表,0表化,,}代表包含的标签序列号示有示没有这个标签,即包?含的标签分别是0类一,2类。对于给定的测试输入第I张图片,我们定义它的每个类别y的估算概率为''^^--=x0=口-KP&j\\))^iTeX艺/..,然后通过最小化预测概率和Groundtruth即真实类别的KL散度,定义概率巧代表g第’I张图包含第y个标签的巧率,则有如下损失函数-丄-丄丄==-lol〇?/g(g(216ZZ馬如A)()ZZW■WC!+;C其中代表每张图包含的正确的标签,即每张图多栋签的数量。+应用于深度学习的PairwiseRankingloss(成对排序损失函数)是文献50]中的排[序损失的简单修改,该损失画数的思路在于把准确的标签排在错误的标签的前面,2-因此便有公式17)(=-X-?^ax〇,l+217(/乂(,))()心,)ZZi>.f.Mlyi其中c代表是正确标签,c_代表的是错误标签,最小化该损失函数就达到了预測+正确标签的概率最大、预测错误标签的概率最小的目的。使用损失函数结合深度。卷积神经网络时,在反向传巧的时候计算的是子梯度成对排序损失函巧是针对C即ROC曲线面积-k即k优化AU,并不直接优化Top排在前面的个语义标签的,前准确率,但是由于在多标签图像标注中几个标注的标签的准确性显得尤为重要?,因此成对排序损失函巧并不完全适合多标签困像标注WPU一WARP权重逼近排序)首次被eston提出,是种使用随机抽样方法的专(口针对优化Top4c的损失函数,这种算法比较适合深度学习的巧机优化框架,它通过最小化损失函数-=王〇了-?卸1+18ZX(),乂(I)六切)口)Z0W-1723 北京交通大学硕±专业学仿旅义图饭标注和深度学习相关知识一?其中!()是种用于不同排序的加权函数表示第y张图片第。,y个标签的排名加权函数的定义为=2-王含0.(19)(0,巧叫2气-17等于该加权函数可レ:-其中口Jl用于优化Topk语义标签的原理在于如果正确的,一名语义标注排在第,那么加权函数句/〇就会分配给该标签很小的权重,该标签占用的loss就越小。相反,如果正确的语义标注排在靠后,那么加权函数就会给该标签分配较大的权重,损失函数就会较大。最小化损失函数的过程中就会把正确的标签推至排名靠前的位置。最后最关一键的问题就是如何估计排名具体方法便是:为了得到个正确的标签,持续,从错误标注的标签中抽样,直到抽到正确标签然后记录抽样的次数。计算方法有如下公式-r=—220()JSLJ其中C表示C个类别,S表示尝试抽样的次数。在结合深度学习模型迸行优化时此-损失函数计算的是子梯度。考虑到Multilabelsoftmaxloss易于收敛,而且效果也49[]-十分优秀。本文在实验中使用了Multilabelsoftmaxloss损失函数作为深度学习模型的损失函数层进行模型的训练。2.4.2深度模型的训练-法却完全不。虽然深度卷积模型是传统神经网络演化而来,但是训练方样BPBackProaation即反向传播算法实现网络模型的收传统的神经网络主要依巧(pg)图2-0。1,敛,如所示为反向传巧算法的计巧过程反向传巧算法主要分为两个过程:工作信号的正向传递过程,直到计巧出期望输出和实际输出的误差;误差信号的反向传递过程,判断出误差信号是否满足?,要求,如果满足则网络训练完毕如果为满足则将误差信号反馈至网络中反向传巧算法学习能力很强,结构简单,而且能够在网络內部的隐藏层发现有用的中间表示。但是BP神经网络对于深度卷积神经网络是无效的,因为训练值和预測值的差值在进行反向传巧时会出现梯度扩散的问越,导致差值传巧到最初凡层时的值就会变得异常的小。24 北京交通大学硕±专业学仿市_图您栋注和巧麼学习相关知巧开始()吾各权值和闽值为初始古给定输入向量和目标输出[量^I选取比率参数?求隐层和输出层各单元r求期望输出和实际输出r哀差是是否结束)计算权值梯度?I权值学习修正围2-01反向传巧计算流程图-Fiure210-TheSowrtogchafbackpropagationcalculation针对深度模型的训练问题:,陆nton提出了解决办法(1)自下往上逐层训练一一一首先用训练数据训练第层的参数,这是个无监巧学习,然后接着将第层的参数作为第二层的输入进行学习,依次类推不巧学习,这样训练得到的模型就可U尽S的学习到数据的本质特征信息。(巧自上往下微调网络参巧(经过第一个步巧得到了各层初始参数之后,用測练数据集对模型使用-W泌eSleep巧法进行参数调整,具体做法就是把除了巧顶层W外的所有层间的权重都设S为双向权重,在W址e阶段通过梯度下降来实现下行的权重更新,在Sleep?阶段通过更新上行的权重,如此进行微调,使得模型巧终达到收敛,那么具体的对于深度卷巧神经网络有了W上的解决思路,比较关巧的便在于其前向计算和反向计算,前向计算是为了巧到损失值即Loss,反向计算是为了。假设有L层卷积神经网络更新神经元参数,本文着重介绍反向计》,输入为W个(X,乂)样本,输出为/(X,),权重为W,则有巧个後型的损失函数为25 北京交通大学硕±专业学位论文图像标注和巧巧学习相关知识2=-*-放SyloX+/I腫21;g()()口)/,1茲I阿|去技1其中前一项是交叉滴一,后项是惩罚项用于防止过拟合。对于第L层的权值的偏导为=-1*-?+2-22;1()裳(如)八拂/(坤听oWm^对于输出层偏置的偏导数则有--*-=-/口23^(心)(蝴)d〇mL上面两个公式中的却>〇代表样本标签值,/(X)是网络输出值,已经包含所有的训练样本。在确定了模型,损失函数之后,就要开始考虑更新模型权重的方式,权重更新主要有如下两种方式:一:这种方法的做法是随机从训练样本中选取副图像随机梯度下降,送进深一度学习模型进行学习,依据损失函数算出梯度,进行次权重更新,直到所有的一轮的迭代样本都被选取过了再进行下,这种方法适合在线训练,但是由于每次。更新都是单个样本,容易导致过拟合,模型参数收敛的方向不利于整体样本小批量训练(minibatch):为了防止随化梯度下降的过热合风险,人们考虑使用一定数量的训练样本一,泣组训练样本也是经过随机抽取得到的,把这小沮训练一组样本得到的梯度之和进行权重更新习模型依据这,直到所样本送入深度学,有样本完成训练。这种方法相比于随机梯度下巧更加快速,也巧小了模型过拟合的风险。2.5图像巧注的评价标准由于图像标注问题往往看成是多标签算法问题,因此在评价指标上也基本上一是和多标签算法的评价方式致,目前主要的针对多标签算法主要分为基于样本基于样本的多标签评价指巧是先获得每一和基于类别的多标签评价指标,其中个测试样本的结果然后对整体样本做平均,而基于类别的多标签评价指标是获得每一个类别的结果然后整体类别的结果做平均,这两种评价指标都有各自的优点,都从不同的方面对多标签分类的结果进行了评价?下面详细介绍这两种方式的主要评价指标。’一X饥地扣化中第/张困片的对应的巧签集,其中1別^,定统定义G为陆,片,.个数为n:?则基于样本的多标签评价指标有义多标签分类器为/(),标签类别汉明损失amminLoss,是巧预满的语义标签时错误的和应该含有的语义标(Hg)26 北京交通大学硕±专业学位论义图像标注和巧巧学习相关知识签没有被预测这两种情况所占的比例,值越逼近于0表示预测的越准确,计算公式为-=-hammmloss-gjcAG24_(f)/()口),,||^其中aAG表示集合X和集合G一/(〇,/()的对称差,即只属于其中个集合而不属于,,一另外个集合的元素,其中xAG表示的里面两个集合的对称差的个数(。/,),||Sub一setaccurary是种比较苛刻的评价指标,用于评价样本集中完全正确的样本的所占比例,计算公式如下说6旅/可(/)=丄/(x)=口-25),幻|勾I-片11=其中/(x.)表不条件成立则为1反之则为0当讯为1时表示,,||勾I模型的能力最优,但是现实情况下模型能力很难达到于真实标记完全吻合的水平,尤其是当类别数目很大时,这种评价指标更加湿得苛刻。One*error评价指标用于评价模型预测标签概率大的属于相关标记集合的情况,即预测概率越大的属于相关标记集合的越多表示该系统性能越优秀,计算公式如下-=one-errwargmax226(/)/知《)6G()g祐],巧|[H???其中为于多标签分类器/对应的实值函数,此评价指标为0时表示性能最/(,)()优,当类别数目为1时,该评价指标等同于传统的分类误差。基于类别的评价指标由于是针对巧个类别进行评价,有四个统计*来描述对*、模型的对毎个类别的分类性能,分别是TP、HTN、FN,其中TP代表的是被判定为正样本,实际上也是正样本;FP代表的是被判定为正样本,实际上是负样本,TN代表的是被判定为负样本,实际上也是负样本;FN代表的是被判定为负样本,一实际上样本是正样本。通过上四个统计量,可W推导出针对每类别的巧确度precision:rec=-isionTP!TP+FP27p)口()准确率accuracy:accurac=TP+TN/TP+FN+FP+TN-2y()(口^巧召回率recall:ll-reca=TP!TP+FN22){(^-W及常用的Fmeasure指标,送是巧确度和召回率的加权调和平均,计算公式如下^?*(oc+1recisionrecall?)p">,《、F—measure二■-——2-30(;*)a{precision+recall)a1,此时常用的为仍,即当等于时有27 北京交通大学硕±专业学位论义图像标注和巧巧学习巧关知识*precisionrecallprecision+recall一有了每类别的准确率后r--ura,则有macoprecisio。、macrorecall、ma灯^acccy、-Fmacrol评价指标用于评偷整体的类别分类结果,上评偷指标都是是直接相加所有每个类别的相应指标再求平均,计算公式为'-—macrorecision=-recisionm232pp()(^)W-MI"1-=—macro-recallrecall(m)口3之^"1-—=-macroaccuracyaccuracym234^()()W-ml—=macro-35口)巧-m1其中precisionm、recallm、accuracm、Flm分别代表类别m的精确度、召回()()y()()率、准确率W及FI值。由于本文侧重的是函像标注,而图像标注的目的是用于检索,对于检索来说,每个类别的指标更为重要,因此本文使用的评价指标是基于类别的评价方式。2.6本章小节本韋首先简述了多标签图像标注相比于单碌签團像标签的优势和意义,接着,分析了多标签学习的难点,并分别从特征提取和分类算法两个方面入手分别介绍了当前比较常用的传统多标签学习和多标签深度学习的特征提取方法和多标签,标注算法,对这些方法的基本知识作了基础讲解为之后的章节做了铺垫。在本章的第H节本文分析了什么是巧据窠的巧标注环巧,并且概述了当前针对该问煙一些研巧,的,接着第四节介绍了多种多标签巧法中常用的评价方式为之后的实验章节的实验做准备。28 北京交通大学硕±专业学位论义弱标注环巧下基于茗标豁深巧学习的加巧困便标拌3弱标注环境下基于多标签深度学习的加速图像标注3.1深度模型的加速方法深度学习的多层非线性结构虽然有着强大的髙级特征学习能力和对非线性复杂任务的模型重建能力,但是深度学习模型不仅本身的计算参数量巨大,涉及的训练数据集也十分巨大。深度学习的参数训练中,随机梯度下降是最常用的方法,但是由于随机梯度下降本质上是串行的,因此需要十分庞大的计算资源,训练时间也千分漫长。针对深度模型的加速问题,本文下面将详细介绍目前常用的几种方法一,并针对其中种进行改进。3.1.1主要思路针对深度学习模型的加速问题,目前的主要的思路有:(1)硬件思路深度学习模型主要是计算量庞大一,从硬件角度对深度学习进行加速是种十分有效的手段。结合硬件的方法主要有GPU加速和参数服务器架构等。GPU是目前应用于计算加速的常用处理器。GPU(GraphicProcessUnit,围像一处理器)是,包含几千个流处理器种众核体系结构的处理器,通过并行运算大幅缩短计算时间。相比于单核CPU,GPU运行速度往往可提升几十甚至上千倍。训练深度卷积神经网络时GPUW及己经成为了业界的首选解决方案,但是GPU的价格相比于普通单核CPU的价格也时昂贵许多。参数服务器架构主要是CPU集群方案,这种方案包括执行训练任务的Worker、用于分布式存储分发模型的参数服务器(ParameterServer)和控制巧体功能的主程序(Master)。CPU集群方案是面向训练GPU内存不够的超大模型和稀疏连接的神经网络。口)数据、模型并行计算思路数据并行的加速方案是通过将训练数据分成N份,然后并行训练这N份数据从而达到加速的目的?在并行训练时,每份数据训练过程相互独立,对所有并行数据的梯度求平均作为模型的梯度,然后对巧型参数进行更新,如此迭代直到模一型收敛定的缺点,当训练数据太多时,巧要通过小学习率来保?数据并行也有证训练过程的平稳。29 北京交通大学硕±专业学位论义弱标注环巧下巧于《标签深巧学习的加巧图復标注模型并行的思路是将模型的每一层都进行拆分,分开训练,共同协作训练。但是拆分之后,神经元与神经元么间的通信开销会随着拆分的越多而变大,导致模型效率下降。多数情况下模型并行的通信开销和同步开销超过数据并斤,因此加速比往往不如数据并行。(3)模型结构思路深度学习模型的网络结构直接决定其计算参数量大小,因此通过改变模型的网络结构从而减少计算参数量也是一种有效的加速办法,但是如何实现模型参数量的减少的同时又不影响深度学习模型的能力十分重要。本文从改进模型结构的思路入手,通过减少深度学习模型计算参数量,达到一模型加速的目的。对于深度卷积神经网络模型来说,每层的计算参数都由该层所处理的二维特征的维度、卷积核大小及卷积深度决定。因此,通过改变这些参数可W相应的减少模型的计算参数量。不过在此之前首先巧要了解这些因素是如何影响模型的计算参数呈,考虑到偏置的计算量相比于卷积计算而言可W忽略,因此本文在计算计算参数量的过程中并未考虑偏置的计算。如图3-fea1所示为卷积层的输入输出过程,其中省略号代表的是未画出的turemap.k个feature ̄dmap。m起正mn3-巧1卷巧层计算原理-llirindleore31Thecacuatonoflutionlaer巧gconvoppy一围中卷积层的输入是A个featuremap,大小为wx/i,这层的卷积核大小为mxm,则本卷积层的计算参数量大小为,卷积深度即神经元个巧为d*****=nmm-Fnkd31^()一二其中若为第层卷积层即输入的是图像的维特征,则其中k为1,若为全连接层,其神经元个数为,则本全连接层的计算参数量大小为S个3-2心()二一层的计g参巧量大小十分重由W上公式可知,输入的维特征的大小是影响每30 北京交通大学硕±专业学位论义弱标注环巧下基于《标游深巧学习的加巧图傻标注一一要的因素之。此外,因为总计算参数量是每L:层的计算参数量相加得到Jl,所深度卷积神经网络的网络层数也是影响计算参数量大小的重要因素。总而言之,卷积神经网络的输入特征大小和模型深度是控制模型计算参数量的关键所在一。通过改变每层的输入特征大小或者网络深度就可W减小计算参数量。其中卷积层中的卷积深度、步长、填充处理是H个影响输出的特征维度的主要因素。假设原始图像输入特征维度为nxnxj33,其中表示的是RGB的通道,下-层的卷积核大小为AxA,卷积深度为rf,步长为1,填充值处理填充0的个数为〇一,则得到通过这层后的输出矩阵大小计算公式为-*--*-**w=-nk+2dll\\nk+laIU\d{i)){{))33()3-3可知由(,如果相应的加大卷积核的大小、减少卷积深度和加大步长),便可心文使输出矩阵的维度减小。但是单纯的进行这些操作虽然可[^^使的参数减少,但是模型能力却有可能受到很大的影响,如何有效的减少参数并保留模型的能力是关键所在。3.1.2加速深度卷积神经网络的设计-本文结合VGG16中的网络结构和深度,进行了加速改进。依据巧小featuremap大小从而减少网络计算参数量大小的思路,本文设计加速神经网络的过程如一图3-2所示,由于每个卷积层之后都接着Re山层,图中将其省略未画出。一层处理二维特征大小相对较大一考虑到第,因此本文令第层卷积层的大小7x72样输入图像为224x224时一二,第为,并且步长为,这层处理的维特征大-6的fea小为112x112。接着巧循VGG1turemap的规律,分别令处理的featuremap大小为56x56、28x28、14x14、7x7,而且本文将最后的全连接层改成全卷积层,这样得到的网络NewNetl为15层。此时参数依然较大,加速效果不够明显。_featu在此基础上,本文继续通过改变卷积层步长达到巧小remap大小的目的,使得网络处理的二维特征大小分别为109x109、36、17x17、7x7、3x3,网络深度不变,得到网络New_Net2;此时的网络计算量参数大大巧少,但是经实验证明网络效果较差。?将网络深度增加至因此,本文考虑通过增加网络深度来提巧网络性能17层ewN始时网络性能得到了提升,因此继续对网络深度进行加深,直至为N_NewNet4络达到19层时网络性能巧升至巧巧?继续加深至20层甚至更深时,,网_发现网络性能并没有得到明症提高?因此本文巧终设计的加速网络为NewNet4,_本文将巧终得到的巧度卷积神经网络成为New_Net.31 jl:京交j§大学硕±专业学位论义巧掠注环巧下惠子《标答汉巧学习的加巧图便掠注输入田巧大小输入函像大小输入图?大小输入困像大小224X224224X224224X224224X224。"221"-/2…W节0072原V二哉品;就心I:I「I!^P^3P°°12/2!Pool3I亂v—I3128/3!MConvW巧Conv3-28/3?1'"-3C畑V31286c〇nv3-口8就t贯严t器-?C〇nv3-128Conv3128Snvt2fi?^PmI2Poo2/2lPool2*2口八KV3-256/2口口c〇nv3-256/2吁St可。式哉!S:3:256\JS—:S6K0^Conv3-巧6^Conv3-256^1。/9)。,。^]—Pool2/2Poo—' ̄ ̄l2-^^c〇nv3256Conv3-256P°°l2Pool2-UConv3512Co肌3-512/27Conv3-7-洁7512/2Conv35。/2:r詔"严T記?ITrfs可謂r謂r-7Conv3512Conv3-512/2,气P记wl严1Conv3-512-Conv35-12Conv35。--12CoConv35rw3512nv-3512/2,Co_-FcXF-Xc--Conv3512aConv3512/2Sofnax--t!SoftmaxConv3512Conv3512-FcXConv3-512NewNet-lNewNet2FcX__SoftaaxSoftnaaNew_Net3NewNet4_图3-2加速网络设计过程F-woi32Thedesinroce巧ofacceleratintheconvouguregltionnetrkpg-Newnet结构和VGG6的结构-133最终的深度卷积神经网络_对比如图所示。一其中每个卷积层和全连接层后面都连接着Re山激活函数层,函中未显示。图中‘‘’’"Conv3*643x3卷积核,卷积深度为64,其他卷积层^此类推表示的是,P〇〇12["‘‘"/2表示的是用于池化的窗口大小为2x22FC*4096,步长为,表示的是全连接层,神经元个数为4096。一レ-从图中可ッ看出,本文提出的模型主要有H处与原模型VGG16不样,分别是卷积核和Pooling层的核大小和步长,其次是输出的二维特征大小,最后是模型深度的差别。—NewNe-深度卷积神经网络t保留了和VGG16样的直线型结构,但是在层_--6为16层w数上比VGG16要深,VGG1,而本文提出的加速模型Nenet达到了_Ne-19层。此外Newt将VGG16中的全连接层去除,只留下最终输出本文提出的_标签预测概率的全连接层,一-Poolin层的核大小和步长:第层的卷积核大小VGG16首先是卷积核和g,一3x3,是的卷积核,步长为1而本文中的模型第层卷积层的卷积核大小是7x7,一-样的是Poolin层16但是步长为2此外明显不g,VGG的Pooling层大多核大小,I 北京交通大学硕±专业学位论义弱标注环境下基于《标签巧巧学习的加速歯您巧注为2一一个,步长也为2,但是本文提出的模型中第Poolin层核大小为3个g,最后Pooling层大小为1,且全部是步长为1,全部通过卷积核的步长为2来实现二维特征的减小-二维,通过这些改变使得输出的二维特征相比VGG16模型的特征大大减小-二维;其次是模型的输出的二维特征的大小,深度模型VGG16处理的特征大小分别为224x224、112x112、%x56、28x28、14x14,而新模型中二维特征36x%一大小分别为109x109、、17x17、7x7、3x3,相比较可W发现新模型每次输出的二维特征大小都要小于VGG-二维16的输出的特征大小。输入围像大小输入困像大小224X224224X224_og-Conv364lConv764/2Conv3-64Pool336-Pool2/2Conv3128/3I|-_Conv3128Conv3128I|_Conv3Conv-28128313-Pool2/2Conv128-说PooConv3256l2I-256-Conv317Conv32^6/2C ̄256Conv3-256onv3P3-256ool2/2Conv-52-Conv3128Conv3256C ̄52Conv3 ̄256onv31-PooConv3512l2P7-ool2/2Conv3512/2IConv-5-5312Conv312^-Conv3 ̄512Co打v3512Conv3 ̄5-51212Conv3Conv3-12Pool2/25I ̄ ̄Fc二4096Pool1II-Dropt3Conv3512/2—ou-Fc-4096Conv3512v3-5DropoutCon12—" ̄Fcx-IFcXI1Soft職Softmax-fiewVGG化_Net-3-3NewNet困VGG16棋型巧本文巧出的巧的巧型_-化扣d-3emodelVGG化wNetFiu3Thofgre_-Softmax层,VGG1616层,而本最后是模型深度的差异,不算上樓型的层数为-化模型多出三层了《文提出的新模型深度达到19层,相比VGG--132,和新模型的深度虽然増加了,但是计算量参巧却大大巧少了由公式口)()巧 北京交通大学硕±专业学位论义弱标注环巧下基于《标答深巧学习的加速图像标注一层的计算量大小3-可知这两个模型在每1,如表所示,从表中可看出,由于新提出的模型处理的二维特征大小远远小于VGG-二维特征16模型处理的,因此每一-层的计算参数量都远远小于VGG-16,新模型的总计算参数量是VGG16的将近1/7,参数量减少必定会加快模型处理图像的速度,模型能力是否得到相应的保留,一在之后实验验证节会详细验证本文提出的模型和VGG-16在腾讯Qzone空间多标签数据集上的速度和精度,在该实验中,本文提出的深度卷积神经网络NewNet_在测试集上的平均准确率macro-accurac相比于VGG-2%y16虽然降低.5,但是在CPU模式下处理每张图片的平均速度速度却加快了近6倍。表3-VGG-611和NewNet的计算参数量_-labe-l31TheComputationofVGG16andNewNet_FeaturemapVGG-16FeaturemapNewNet_?224X224194*〇9109X1090.112*10.l99112X1122.77*l〇0.669*1〇36x369956X564.62*l〇17X170.767*l〇97X7*?28X284.62*l〇0.52010??14X141.39*103X30.064*10*9*90123l〇0.005l〇全连接层.全连接层993*〇2.137*1〇总和巧.46l总和3.1.3加速网络卷积层的SVD分解NewNe-本文提出的深度卷积神经网络t在计算参数上巧少至VGG16的近_,对NewNet进行相应SVD分解,实现进1/7,本文在提出的加速模型的基础上_一步的巧少计算参数量的目的?SVD即奇异值分解,奇异值分解是用于分解任意矩阵并提取出特征的方法,巧切,因此先介绍恃征值分解:由于奇异值分解和持征值分#关系十分34 北京交通大学硕±专业学位论义弱标注环巧下巧于《标答巧巧学习的加巧图饭标注(1)特征值分解假设矩阵^为方阵nxn一,大小为,且向量0是^是特征向呈,则定有如下公式A0三X0(3^)其中;I就是向量0所对应的特征值,因此方阵^的特征分解可W表示为-'^=103-50()一其中由特征向量组成一0,Z代表个对角线上每个值代表个特征值的对角矩阵。这就是特征值的分解,分解得到的特征向量和特征值是表示这个矩阵的最重要的一特征,特征向量用来表示有多少个特征W及每个特征是什么,而特征值用来表示对于特征的权重,但是特征值分解的前提是用于分解的矩阵必须是方阵,奇异值矩阵就是来解决这个问题。2奇异值分解()针对特征值分解只能用于方阵的问题,奇异值分解在其基础上进行了改进从而实>现了可W分解任意矩阵提取出任意矩阵的特征,分解示意图如困34所示。T二XXVU'B玄bxbaxaaxbaxb3-4函SVD分解示意围H3-4ureTheS浊emadc出agramofSVDdecomositiongp0x6,假设矩阵B为任意矩阵,大小为则其奇异值分解为U是一一个a其中左奇异矩阵个axa的正交方阵,r是x6大小的对角线上为奇^7异值其余皆为〇的矩阵,^是6^6的正交方阵。其中奇异值是奇异值分解的关巧,r跟特征值类似,其对角线上的元素从大到小排列?在大多数巧况下,几乎前10%〇甚至1/〇的奇异值的大小就几乎等于整个奇异值么和的大小,这也是奇异值分解的一些奇异值来近似的描述整个矩阵。因此,可^^用奇。最关键的地方(异值矩阵的前:假设用前*大的奇异值来描述真个矩阵,则有如下的近似奇异值分解公*3-7?。*()一个接近于原始矩阵Bka,其中往往远远小于,这样巧可W通过王个矩阵来表示?同时又可W大大巧少计算量,这也是本文利用到的奇异值分解的优点有了SVD的基础知识后,接下来本文详细介绍如何对深度卷积神经网络进行SVD分解。假设输入t通道的二维特征义*?,,经过C个神经元,输出为;35 北京交通大学硕±专业学位论义弱标注环巧下甚于《巧答深巧学习的加速图饭标注-r=-ffa38()2一其中W是c*s*一个(f+l)维的矩阵,1代表的是每层偏畳单元,可W看出计算2**复杂度约为0(cCs〇).假设输出向虽为低秩子空间,则可W重新有如下计算公式:=rMff:\r+b3-9()=-*?其中6ff是输出向量的均值,而Af可W用两个cc大小的矩阵戶和0r''2*=*表示M,即M戶W=,同时令啼表示csf+大小的矩阵g0,贝!J输出可(U从重新表示为=YX^h-PW310()'*2此时的计算复杂度约为0*(c(*f+l)),可W发现经过这样处理后计算复杂度为原始计算复杂度的d'/d当分相比于d越小则计算复杂度越小。为了得到上面提,到的戶和就使用了SVD分解,即M-=USV311,:/()2则可得到P==。二和e本文考虑到新模型在处理维特征大小为7X巧7、3x3时计算参数i己经千分小,因此本文只针对新模型中二维特征大小为%X36和14x14时进行了相应的SVD分解。在选择前N个奇异值的N值时,本文选择保留能量98%L:Jl上,即首先确定前N个奇异值之和满足占比所有奇异值的比例为98%的这些N的取值,然后从符合条件的前N个奇异值选取出最小的N,这样该层的计算参数量也就相应较小。本文己经训练收敛的模型中的输入二维特征大小为%X%和14x14的卷积层进行尝试,对它们进行SVD分解之后,计算出符。合能i条件的前N个奇异值,并选取了其最小的满足能量要求的N深度卷积神经网络NewNet的featuremap大小为的卷积层经SVD分_解后符合条件的N为76,featuremap大小为14X14的卷积层经SVD分解之后符合条件的N为5得到新的模型如图3-5所示11,最终Co-nV764/2 ̄-Conv3256/2Pooll^^_C畑v3l1SI--Convl256Conv3128/3^-Conv-Conv3115376Poo1l2-2化〇1-lWWConvl256c〇nv35口/2Conv-Conv35。/2^---Conv3"S^Conv3512 ̄Conv3巧Conv3512---Convl256ConvConv35。v3-l128Con5口-Conv3-C-115Conv3512-1ionv376Fc000--Conv-Convl256Conv35"l128SoftnaxNewSVDNet__3-5NewNet进行SVD分解后巧到的樓型NewSVDNct巧___-TheNewSVDNetobtainedbSVDdecomos拍MlofNewNetFiure35yp_g__36 北京交通大学硕±专业学位论古弱标巧巧巧下某子多标《巧巧学习的化巧图您标注由图可W看出,NewSVDNe_t中将原来的输入二8x_维特征为12%x%输出也是128x36x36的卷积层Conv3-二128分解成了两层卷积层,分别是输入维特征为812^6X%输出为76x36X%的卷积层Conv3-76和输入二维特征为76X36x%输出x%x36的卷"为128积层Conv--l128,其中Conv376是经SVD分解之后得到的,一这些参数保留了之前Conv3-128的98%W上的能量。为了保持输出维度的致,在后面接上卷积核大小为lx1,卷积深度为128的卷积层。可レッ发现把这两个卷积层看作整体之后,其输入输出的二维特征和分解前的输入输出的二维特征一致,对卷积核为3输出为256的卷积层保留了前5个奇11-异值。对Conv3128卷积层的分解的原理如图3 ̄6所示。输入二维特征^出二维巧征12836I输XX化1I化II11厂II原始巧巧层—---一输出二维特巧一128X36X36输出二巧特征I?X36X361__巧入二推特征…"?^,2836X36—!1X.厂111|'进行SVD解后―分!!0(I'的两个巧巧层W==-___j-^r1□—br者巧技大小3X3卷积a大小1X1图3-6卷积层分解原理图^-Firiniiigure36Thedecompostioncledaramofconvolutionlaerppgy一通过卷积核大小为1x1的卷积核使得最后的输出与之前是致的,但是在计算参数量上却发生了变化。*-依照公式(31),可得图中原始卷积层的计算参数量大小为128巧6巧6巧3128,而分解之后得到的两个卷积层的计算参数量大小为两个卷积层计算量相加,很明显它们的和要远小于原始卷积层的计算参数量大小。3-2为深度卷积神经网络NewSVDNet和NewNet的计算参数量对比,表___--ewSVDNet和VGG16计算参数量对比表33为深度卷积神经网络N__。由图可WNwSVDNet相比于NewNet的区别在于输出二维特征大小为%X%和,e_看出__*9.17x17过SVD分解后,这两部分的卷积层的计算虽参数从066910的卷积层,经99***化4740.42510。和化%71护分别减少至10和总体而言这两处的计算量参数减37.4%,NewSVDNet的计算参数量减少至New_Net的0.75倍。少了约__ 北京交通大学硕±专业学位论义弱标注环巧下巧于《标答深巧学习的加速困饭标注表3-2NewSVDN幻与NewNet的计算参巧*___Tab-le32Thecomut出pionofNewSVDNetandNcwNet—__FearematupNew_NetFeaturemapNew_SVD_Net9109090X1.112*l〇101090112*1炉9X.9?36X360.6的*1〇36X360.474*109917X17*l〇70425*l〇0.76717X1.9?7X70.520*1〇7X70.520*1093X30.064*1炉3X30.064*l〇99全连接层0.00押l〇全连接层0.005*1〇99总和2.137*1〇总和1.60*1〇-表3-3NewSVDNet于VGG16的计算参巧*__--Table32ThecomutationofNewSVDNetandVGG16p__remawSVDNetFeaturemapNew_NetFeatupNe__?2242241*1091090.112*10X.940炉1X1炉36360炉1222.474*11X11.770*X94*1〇17X口0.425*1炉54X54,620?4*1炉7X70.520*1028X28.620,?3X30*11390K10.0641014X4.9全连接层0.口3*1炉全连巧居0.005*1〇***10总和1.60总和巧.4631炉38 北京交通大学硕±专业学位论义弱标注环巧下基于《标答巧巧学习的加速函復巧注从表-933中可知,此时的NewSVDNet网络计算参数量大小为1.60M0,是__VGG-16深度模型的化1倍,模型的计算参数量大大减少,本文将在第五章实验中验证,并详细对比本文提出的NewSVDNet和分解前的模型^-^?及VGG16__模型准确度和速度。3.2结合深度学习的弱标注数据的迭代优化目前大多数的针对弱巧注环境的改进办法大都是从算法角度进行改进,使得算法更能学习到标签之间的相关性,从而提升模型在弱标注环境下尽量学习到更多的图像与标签之间的对应知识。本文针对弱标注环境的语义标签集不完整问题和语义标签围像数量分布不平衡问题这两个问题,尝试从数据角度,使用少虽完整的标注数据,基于深度学习通过多种策略进行优化迭代,来改菩弱标注环境数据,进而提升模型精度。接下来本文将从思路和具体策略进行详细的介绍。3.2.1基本思路首先针对弱标注环境中的图像的语义标签集不完整问题,本文考虑到由于对于深度卷积神经网络,其本事是通过《层的多个神经元学习图像数据和语义标签之间的非线性映射关系,也就是说训练收敛的深度学习模型对于相似的输入,通过巧度学习学到的映射关系,可W得到相应的输出。^:1=公以。假设多标签图像乂的对应标签集为,..^..^{,,,,句}代表包含标;^,23=X的映射关系签标签集,深度卷积神经网络的就是学习王/。而对于单标签学y()习i,=,假设團像的对应标签为则深度学习的目标就是学习切〇〇的映射关,/系,则;对于弱标注环境可W看成多标签图巧乂的标签集不完巧,即'一Lx=LxZxLx。<...,缺少本应该有的语义巧签卸当模型的参数中包含了某{,,,},,,,那么在面对缺少该语义标签的图像时标签的图像和语义标签之间的映射关系,该图像经过了模型的参巧?,就会相应的映射出该标签习模型可W从别的困片学习到皆=本文假设深度学0的映射关系,那么深/〇度学习模型从新对这张弱标注环巧的图片进行预測,则可W得出较高的标签邸的,可定程度上补充该图片未标注到的语义标签输出概率,,通过对巧值的选取一。如巧3-7所示这样就可^1,深度学习模型从其他图(定程度上优化弱巧注训练集片学习到了图像数据树和语义标签树的映射关系,那么输入相似的树的特征时,深度学习模型就会输出语义标签树。巧 化京交通大学硕:i:专业学位论专弱标注环巧下基于《掠答深巧学习的化速巧值标注Model树木=f1C(图片巧术特征)^、孕子巧,.…树木-'—iInp字子湖六树村(气>1树木特醉心1^團3-7数据迭化原理图:Fiure-g37Theprinciples出agramofdataiteration其次针对弱标注环境中的语义标签图像数量不均衡问题,比如相比于人来说,'金钱豹的图像数据集肯定是低频的,这就是不同语义标签圍像数据分布不均衡的问题。对于大部分传统机器学习和深度学习来说.语义标签的图像数据数量都会大大影响模型对于该语义标签的判别能力一。对于多标签学习来说,对某单惊签的判别能力下降肯定也相应的影响模型整体的巧度,本文考虑到获取单标签图片的成本是远远小于获取多标签图片的成本,因此针对弱惊注环境的这个问题采用添‘'加相应单标签图像数量来减少由于数量多少导致该标签精度过低的影响。当豹子的数量相比人的数量少很多时,模型的预测结果显示豹子的识别能力也相对较低一定数量的豹子的单标签图像数据进训练数据集,此时可W添加,在对模型进行训练,再重新预测时模型对豹子的识别能力就会相应的提升。在这里通过获取相对较容易的单标签图片来实现提升模型对低频语义标签的识别能力,这样的可行性比较高。在本模型中比较关键的在于预测结果的分析和单标签困片的添加,其中预测结果的分析是W标签的平均F1值作为参考,当某个标签的F1值相比于平均F1值-过低时,如图38所示。,则需要相应添加该语义标签的单标签图片 北京交通大学硕±专业学位论义弱巧注巧巧下某于《栋答深巧学习的加巧图化标注人的国像数据远远大于金钱豹的图像数据人有更麵准^巾巾旨金钱豹预测准确率雲自U帛幫晒置肋;爱懿注相比较低图3-8图像数据分布不均衡解决办法F-iure38Thesolutionforhebalhe出ribuiimagtunanceoftsttonofgedata添加的单标签图片需要人工进行筛选,即图像要求尽量只包含该语义标签对应的图案,此外添加数量是循序渐进的添加,每次添加完要相应的分析模型的预测结果,因为若添加过多势必会影响模型对其他语义标签的识别能力,因此当出现模型对其他语义标签的识别能力大幅下滑时即停止加入该单标签图片。如此循一环的进行迭代添加,直到每类的语义标签的F1值都得到相应提升。LJ:l上是针对弱标注环境的标签语义集不完整和数据分布不平衡的两个问题的相对应的改进思路和大致策略,在结合深度学习模型进行数据的迭代优化时还需一要加入些针对深度学习的策略,本文接下来将从算法流程和具体实现来详细介绍如何结合深度学习来实现弱标注训练数据集的迭代优化。3.2.2算法框架模型上面介绍了依靠模型学习別处的图像和标签之间的映射关系来解决标签集不完整问题和増加单个标签数据集处理数据分布不平衡问题。结合深度模型的数据迭代算法框架-,如图39综合之前的解决思路,本节提出、^一所示:是通过补充数据从而提升化频标签的识,算法框架中主要包括两个步骤二是通过预测原始训练集并合并原始标签集和新预测的标签集。通过这别精度;两个步骤算法框架最后输出迭代后的训练数据集。I 化京交通大学硕±专业学位论专弱巧注巧巧下基于《掠游深巧学习的化法亞a标注^SE0学习户因I了f加入而合并Jl的标始标iz^向^+店^為—Y分一巧Vi相巧得 ̄麵对而言每个标1^^fcUBfI一签都己络gipHC兰原始数据集图3-9数据迭代巧法框架-Fiure39Theframeworkofgdatai化rativealgorithm为了获得更精准的模型能力的评价,本文使用的测试集为人工二次标注,即相比于人工一次标注的测试集其标签集要更加完整和可靠,这样才可^心更精准的。其中深度学习模型在训练数据集上进行训练评价模型的标注能力,收敛后在二次标注的测试集上进行测试,,然后分析其预测结果将F1值相比于数据集平均F1值过低的语义标签挑选出来,然后相应的添加该语义标签的单标签图像,按照4.1节中的介绍进行循序渐进的迭代训练,直到模型在二次标注上的预测结果显示每■’-,接着就对原始训练集进行预测类标签对应的F1值都有了较好的提升,预测得到的新标签集合和原始的标签集合进行合并,最终得到迭代后的标签集合。下面详细介绍其中的两个关键步骤。(1)补充数据,提升低频标签的识别精度由于当训练数据集里面的标签数据分布相对比较均匀时,有利于模型更加精一准的预测语义标签集,问题进行了分析预测结。因此本文的框架中首先针对这果和加入数据的步骤一工补充标注从而获得对于标签体系。这步的前提是通过人二每张图片的标签集完整的测试集,即通过人工次标注来获得相对更加精准的测。试数据集,因此耗巧的人工也小很多。由于测试集相比于训练集小得多结果分析是依据每个语义标签的最优F1值,由于模型预测输出是概率值,因I 北京交通大学硕±专业学位论义弱标注环巧下某于《标答深巧学习的加巧图您标注此需要计算出在每一个概率值下的F1值,即预测概率大于或者等于指定概率时该语义标签预测为真。假设测试数据集中包含语义标签L的图片数量为a一,在某概率/下有/张图片预测输出为该标签?,其中/张图片预测正确,则该语义标签的准确率计算为PL=-lt312()r()召回率计算为RL=-r!a313{)()则该标签的最优F1值为F=*=-IPL+RLP(L、RLa+1/2r(314()()L()())由W上公式变可W分析得到每一个语义标签的最大FI值,同时获得其对应的概率。值,称为最优截尾闽值,即大于该巧值才能将标签设置为真如果结果分析发现一语义标签的F某1值过低,则通过补充该标签的单标签图数据来提升模型对该。レ标签的识别能力当然,数据的补充也不是可ッ无限加入,因为加入过多必定会影响其他语义标签的精度。因此,本文每次迭代都依据训练数据的大小先尝试加入两千或,经过数次迭代后,在不过于影响其他标签(^上的不等单标签图片数据一F的精确度的前提下尽*提商了每类语义标签的最优1值。(2)预测原始训练集并合并原始栋签集和新预测的标签集此时的深度卷积神经网络己经收敛一类标签都有着相对较巧的识别,针对每率。接下来本文用此模型对原始训练集进行预测输出,输出时每个标签的闲值选取则是依据之前获得景优F1值时的巧率值。接着再把每张图片预测得到的语义标?签集和原始的语义标签集合进行合并,获得了更加完整的标签集为了验证数据集是否得到了优化,本文用迭代后的数据重新用原始模型进行训练?,在相对完整的验证集上对比在原始数据集上用原始模型训练得到的模型F1,若每个标签的最优值得到了提升,说明模型能力得到提升而且间接说明迭代后的数据得到了优化。经实验证明,也间接证明新的巧据集,数据迭代方法有效的提升了模型巧度获得了更加完整的标签集?3.2.3特征融合和分类器优化?上述数据迭代过程中,其中己收敛网络的预巧输出也十分关巧预測输出的结果越精准意味着可&就更好的补充弱标注训综巧据集的缺失标签集,这直接巧巧巧是否能实现更好的巧据迭代化化。一由于数据的迭代优化巧是在巧线倩巧下完成,不巧要过于考虑速度,因此巧 化宏学硕±专业学弱标注环巧下巧于《标豁深巧学习的加速函像掠注本文在不考虑速度的前提下-,针对预测步骤提出了如图310所示的优化的模型预测的方法。训练数巧集VGG-w16特征ii取NeNe_t特征巧取fc7屠特征(働维)口〔4512Conv43巧维至_层特维征(Sl2维)\7\7几何平均得到巧合特征7Z3LZTKNN分巧器3-困10预測步巧的优化方法-Figure310The)tiinizationmethodofiedicdonstes巧pp(1模型巧合)模型巧合是机器学习中常用的方法,巧于窠成学习方法,是指组合《个巧模一型,,使得最终的模型的泛化能力更强般的巧合方法是使用多个弱模型进行投票或者加权平均。本文借鉴这个思路,尝试使用本文提出的深度卷积神经网络-?NewNet和VGG16进行特征巧合区别于传统的对巧型的预满结果进行巧累或_一VGG-16和NcwNet两个模型的最后层特征进行凡何平者加权平均,本文使用_一x4096-67lxl。NewNet的最后,维度为维均,VGG1的最后层特征名称为位_一4-3^^5层特征名称为0:〇1^,维度为12维。一-7层PCAVGG16的fcPrincial为了使两个模型的锥度致,本文对特征进行p(5一Comtss,12维?PCA是常用的种基于变量ponenAnalyi.主成分分析)巧维巧至协方差矩阵对样本信息进行处理、压缩和抽取的有巧方法?其关巧思想是用更少空间降维的目的?下面本文将介绍的数据特征来描述样本从而实现对数据的特征44 北京交通大学硕±专业学位论义弱标注环巧下基于《标签深度学习的加速困傻标注PCA的计算原理。介绍PCA前先介绍协方差的概念一。协方差是种用来度量两个随机变量关系的统计量。假设两个随机样本分贝为乂、F,个数为《,则有协方差计算公式I- ̄ ̄^cow}——-K(义口)?—1其中克和f分别代表两个样本的均值。协方差是面向二维问题,当数据维度超过二维就需要用协。方差矩阵来度量协方差矩阵计算是不同维度之间的协方差,而不是不同样本之间的。协方差矩阵的定义公式为=cc=-convDimDini316(,(,)),j,,jtj()一其中C代表nxM的矩阵,就是计算矩阵每列与其他列数据的协方差,得到的矩阵就是协方差矩阵。得到矩阵的协方差矩阵之后计算出该矩阵的特征值和特征向量,将特征值按从小到大排列,然后取你希望取的前P个特征值。接着用前P个特征值乘特征向量就得到特征向量矩阵,最后用得到的特征向里矩阵的转置左乘原始矩阵就得到了PCA降维后的矩阵。依据W上PCA降维原理,把提取出的训练数据集的伍7层特征当做是二维矩阵,将4096为特征降维至512维。CA5-用得到的P降维后的12维特征和本文提出的NewNet的Conv43层特征_-6NNt特征进行几何平均,即定义VGG1提取的特征向量为ewe提取的特征_向量为公:,则计算平均的公式为=1-£...317,1晒,^/^1()则由W上计算公式获得新的酷合特征》口)KNN分类器-boK近邻算法KNNKNeareseir,是思路简单的成熟的(tNgh)分类算法也成为货法,它依据特征空间中距巧最小的那些样本的语义标签类别来判定自己所巧的?KNN的计类别,也就是说特征巧相似的两张图片越有可能包含相同的语义标签算步巧主要有:算距离、确定織近K个对象、依据这K个对象确定測试对象的语KNN分类巧的计算步巧:义巧签。下面介绍计算距离的目的计算測试困片的特征巧训练巧据集困片特征的距巧,特征距一一张巧试困片特征为义,张训练巧据集图片离越小代表两证图片越相似,定义《:特征为r,特征维度为?则计算两张图片的距巧的主要方式有余弦距离:=-=^>318?>*<Z义()U义n欧式距离:45 北京交通大学硕±专业学位论义弱巧注环巧下巧于《标签深度学习的加速函復标注击--==y-又19化n忘化[()林柳(3)=il切比雪夫距离:-=-max20Ak(义n(《)口),i。本文使用余弦距离计算两张图片之间的相似度,通过计算距离就可^^得到和测试图片距离最近的K张图片。也就是说,对测试图片进行预测时,先要保存好训练集的图像特征及其对应的语义标签一,然后计算出测试图片和训练集中每张图片的余弦距离,然后按距离的大小进行排序,距离越近的图片表示与测试集的国片越相似,那么距离越近的图片的语义标签是测试集图片的语义标签的概率就越大。KNN算法中如何选取这些距离很近的国片的数量是千分重要的,若选取的图片太多,就会添加过多杂乱的语义标签,选取的图片太少,则会影响使得语义标签标注太少。因此K值的选择对KNN算法十分重要,不同的K值所得到的结果相差十分一巨大旦近邻的实例是噪声则预测结果就会出错,,K值选取过小则会这样使得模型抗噪声能力弱且容易出现过拟爸的现象,而K值选取过大则魚味着过多的近,邻实例影响预测结果,使得模型预测巧度下降在确定K值时本文通过交叉验证的方法进行确定,即依次计算K从小到大时的测试集的平均景优F1值,取效果最好时的K。确定好了K个近邻之后就进入分类投票环节,即通过这K个近邻来确定测试图片的语义标签集,传统的KNN方法是依照少数服从多数进行投票决定,K个近一:邻的权利是样的,则测试图片的概率输出计算公式为PCX=口-2〇(jI)?!!一一化图片的特征向量CI,表示某其中X表示测试图片的特征向*,为近邻中的j?/包含类别C则等于1,若不包含则等于0?个语义标签类别,化C)代表若近邻tjj本文在计算得到测试数据集的语义标签概率之后,同样也分析了毎个语义标签在不同巧值下的F1值,得到最优截尾闲值,此时语义标签输出公式为:--Cx=Dx/cb22y{),〇/(,)口)(j15^^j-i110则为0,即当预測概率大于巧优截尾巧值其中jc大于0则为,小于I)。时该标签即设置为真,代表測试图片包含该标签是添加泣单标签数据集的训练数巧集?KNN时I练数据集本文使用,使用的巧分别得到补充后训综巧据集和二次标注測试堯的巧合持征,然后使用KNN算法得比优化预巧和宋优化的预巧结果,到測试集的标签集。在接下来的实验章节将对。实验证明模型巧合和拉欣分类巧提升了困像标注效果,有利于巧据迭代优化化 化京交通大学硕±专业学仿论义弱标注环巧下基于《标签深巧学习的加速图像标注3.3本章小节-本章首先针对深度模型VGG16由于计算参数量过大导致在CPU模式下预测一一,提出NewNet输出张图片的速度太便种新的改进的深度卷积神经网络,同_时分析了新网络与VGG-N16ewet网络的结构差异。接着在深度卷积神经网络N_的基础上进行SVD分解,得到分解后的深度卷积神经网络NewSVDNet,并比__-较了VGG16、NewNet、NewSVDNet这王个模型的计算参数量。___接着本章详细介绍了如何结合深度学习从数据的角度,解决弱标注环境数据集的两个主要问题。首先描述了弱标注环境的主要问题,然后详细分析了为解决,习的用这两个问题设计的算法框架,并解释了思路流程接着介绍了结合深度学于提升迭代预测时效果的两种方法:多模型特征融合、KNN分类器的替换,多模型特征的思路来源于集成学习,KNN分类器是传统分类器中比较好可W学习到标s签相关性的分类器,因此本文尝试使用KNN替换原始深度学习模型中的oftmax分类器。最后本文在实验试验中,介绍了本文为实现设计的算法迭代框架的实验?zone的本步骤,并用腾讯Q数据集上的效果证明了算法框架的有效性和实用性章中提出的数据优化流程中的提供比较完整的验证集和补充单标签围片数据虽然一,十分的小,也需要耗资定人力,但是耗巧的人力相比于重新惊注训练集来说因此本文对于企业来说实用意义较大,此外优化后的数据获得了更加巧准的模型,间接提升了弱标注环境下的图像标注效果。47 北京巧通大学硕+专业学位论文《验验证4实验验证当前实现深度学习算法的开源软件有很多,各大科技巨头和著名商校都纷纷开源了自己的用于深度学习的计算框架。如Fac洗ook开源的Torch深度学习框架,蒙特利尔理工学院开源的Theano深度学习框架等。这其中最被广泛使用的深度学一f习框架之是来源于加州伯克利分校的贾扬青博±开源的Cae深度学习框架。Cafe是基于C++/CUDA的深度学习框架,架构清晰简单、友好,运算速度快,在CPU模式下运算也可W在GPU模式下计算。最能够运行海量的数据,既可W主要的是由于Cafe深度学习框架的结构模块化,不仅可^心方便自定义模型结构,也方便扩展任务。,利于用户自定义模型和任务因此很多高校甚至企业都选择使用Cafe深度学习框架作为深度学习应用开C。发的基础,本文的实验环节也使用a抵框架作为实验验证的开发框架4.1实验环境的搭建本文使用开源深度学习开源框架Cafe,对CPU模式下本文提出的加速模型进行测试。接下来介绍实验环境W及搭建Cafe的环境准备W及对Cafe源码修改使之适用于多标签学习的方法。Ca筋开源框架有S种语言的接口,包括C++、Python、matlab,本实验中所++口CPU横式。运行的是C的接,在实验巧a中制定为限于RCPUE5-2620v3RXeon;2?40GHz实验的硬件环境:虹teK))(:Centosrelease6.7Final)实验的操作系统(Cafe实验的软件环境;深度学习开源框架-.、Caf要的配S环巧如:bias、atlas、boost155此外本实验安装了其他e框架巧Oencv2.7等。由于本文的前向预測时在CPU模式下迸化因此在前向预測时巧p要指定运行模式为CPU-4-白色箭头表示前向计算,黑色箭头的架构如困1巧示,其中Ca饭深度学习,表示反向传播的计算。框架主要分为两大部分分别是数据转换部分和卷积神经巧标签转换成便于快速读取的格式;卷积网络部分.数据转换部分主要是将图片经网络中的卷积层、民e山层、池化层、Dropout神经网络部分则主要包括卷积神层W及对整个模型起关键作用的Loss层.出当前巧型的预巧结果和实际巧签其中在训练时巧要通过Loss损失函巧计>巧时则只巧要进行前向计算,此时就不巧的差值,并进行反向传巧计而在巧4S 北京交通大学硕±专#学位论义《验验证要Loss层,而是分类器层,模型通过分类器层对预测数据进行分类预测。首先Cafe框架需要首先对图片进行预处理,如尺寸转换,然后把图片和其对应的标签存储为LMDB格式一,这是种键值对的嵌入式数据库管理系统编程库,利于数据的快速读取。^-—"Ii4Pooling—…1f化iReluFCLayer麵巧ConvLaverV〇p?.甘1T/rA_J\」ILMDBf0Da化LayerISoftmaxLossI4-f圍1Cae框架计算流程F-igure41Thecalc山ationrocessofCafep此外,Cafe中数据的读取、运算、存储都是采用GoogleProtocolBufer来实一现的。这是种十分髙效和轻便的结构化数据存储格式,适合语言、平台无关和可扩展的序列化数据格式。模型参数都是依据这种格式进行存储,这也是Cafe框一架运行速度快的主要原因之。数据处理好之后便是输入到定义的网络模型,进B一lobBlob行前向和反向计算,这些数据是按照s的数据结构进行工作的.s是个四维数细,例如对于数据为N、通道数、商度、宽度,对于偏置为N、1、1、1,真中N为二维特征的数量。前向计算是用来计算深度卷积神经网络预测输出的结果,然后计巧与Gloss。。Cafe里面的反向计巧roudtm化的差值得到接着依据误差进行反向计算使用的是前面提到的小批量训练法,即小批量的计算出梯度之和然后反向计算进。loss行权重更新,不断重复直到收敛至不再下降为止在Caf,对于用户来说只需要调整学习速率和确e框架中这些方法都己经内置一轮所有的训练数据集时会前向定小批量训练的批量大小值即可。在训练迭代完验证数据集于训练数据集完全独立,只是数据分布类计算验证数据集的.由于loss证集上的loss大小。似。因此,在深度卷积神经网络的训练中会参考网络在验ss远大于训练集上的lo,则说明深度卷积神经网络己如果验证集上的loss要远止训练:如果验证集上的loss出现震荡或者收敛很巧,则经出现过巧合,需要停需要调整学习速率来使得深度卷积神经网络更好的收敛:如果在训练集和测试集?上的,则说明模型及收敛loss都收敛至不离下降m■ it_s_交通大学硕±专化学位论文实验验证4.2加速模型实验4.2.1实验数据本文的实验数据集为腾讯Qzone上的10万张人工标注的多标签图片,全部是用户公开分享的照片,标签类别数为200,每张图片平均包含标签数为约为2,.14数据集的示例图如图4-2所示。曝酣S麵營圓4-2数据集中的图片和标注的标签F-iure42Someimaesandlabelsindataggset4-数据的统计信息描述如表1所示。4-表1多标签巧据集--Table41Themultilabeldataset数据来源数量标签类别数总标签个数标签平均数人工标注的腾巧1043202002230482.14Qzone空间公开分享图片一0104,随机挑800001E在本次实验中,共有32张己标注的多标签图片选出张H作为训练集,10000张作为测试集,14320张作为验证集,对于验证集,考虑到需I 北京巧通大学硕十专业学仿论义实驗验证要更加准确才能更好的用于评价模型的预测能力一,因为假如些测试集图片少标一注了某语义标签,而模型预测出了该语义标签,即本来模型预测应该是正确的,但是会由于测试集自身的问题导致判定模型错误。,导致对模型的预测评价有误因此本文对送14320张测试集进行了人工二次标注,即在原始的测试集的基础上进行査缺补漏,这样得到的测试集的标签集更加接近于实际的Groudtruth,这样的测试集就可W更好的评价模型能力。4.2实验设计.2为了验证本文提出的加速模型的有效性,更,不仅要验证模型的加速比需要一Caf验证在同数据集上的平均准确率。因此,本文在同样的硬件环境下,使用e-,化、NewNet、NewSVDNet三个深开源框架分别用深度卷积神经网络VGG___。度模型在腾讯Qzone空间多标签数据集上进行训练巧测试直至收效一一然后在同测试集上进行测试,这,测试之前都统先转成全卷积模型样有利于模型处理任意尺度的照片。之后分别计算这王个深度卷积神经网络在测试集一--上的cro-recision、macrorecaU、macroaccuracW及在CPU模式下平均处理mapy张图片的平均时间。。此外,由于模型训练时只使用训练集和验证集,込样就保证了测试集独立模型预测输出的是每个类别的巧率,因此如何选取每个类别的巧值十分重要。因F1值来确定,即计算每个类别在每此,本文在选取每个类别的闲值时是通过最优。F1值,F1个闲值下的最优,然后进行比较最大时对应的巧值即为对应的最优巧值本文分别计巧了间隔为化01的从0到1的巧率,这样每个模型预测输出所取的闲值都是该模型对该类别的预测可^^达到最优?1值时的閣值,使得再闲值选取时兰一个模型处于同选取标准下。在验证CPU模式下的速度时,本文首先将CafeS于CPU模式,由于Cafe一首先巧这在处理第张图片时模型初始化等巧要较长的时间,因此在计算时间时200张巧片,考虑到困片的尺寸个时间去除。然后让不同的王个模型处理相同的,大小对模型前向速度影巧较大,有些围片过于巧满导致全卷积懊型的计算参数一iresze成256巧%大小,这样量过大对测试困片进行预处理,即裕围片,因此统,,也利于速度的提升分别做对模型巧度影响不大,但是有利于模型速度的比较测试H个模型处理200张困片时总时间,再通进计算得到处理每张困片的平均时处理单张困片的平均速度?间,这样就比较均巧的测得模型51 北京交/jj大学硕±韦、11学位论义连验验证4.2.3实验结果P乂及分析本节介绍加速模型在腾讯Qzone空间二次标注的多标签数据测试集14320张图片上进行试验的结果-,W16深度模型在相同条件下的测试结果及VGG,本文选取使用基于类别的评价指标来对模型的预测结果评价-i、,包括macroprecsion-ma订0寸ecall、macroaccurac4-2。y,如表所示4-2表H个模型在测试集上的平均巧准率、召回率和准确率-'?Table42The*macr〇redsionmacro历callandmacroaccuracofhredlsp,ytemoe--模型macro-precisionmacrorecallmacroaccuracyVGG-160.5720.6320.429NewNet0.5570.68044_1.1NewSVDNet0.5480.6060.404__可W发现本文提出的加速模型NewNet在腾讯Qzone空间多标签围片测试集_--上的结果相比于VGG16,macroaccuracy相比巧少了1.5%。ewSVDe-Net进行SVD进行加速的NNtVGG16在针对New_相比于腾讯__-Qzone空间多标签测试集上的macroaccurary巧少了2.5%,也就是说,在腾讯Qzom空间多标签国片数据集上,本文提出的加速模型虽然参数相比巧少,效果也是可W接受?那么在效果相差不大的情况下,本文提出的模型在CPU模型下的加速比如表4-3所示。表4-H个巧型的在CPU懊式下的平均速度3Cafe框架下扣4-3averaemolsinCPUmode化Cafe1116?〇出TableThegseedofthreedep模型困片巧童(张),大小总时间(S)平均速度(S/张)-3巧863VGG00256*256.701s1.162,NewNet200,256*25678.0.394_NSVDNet200,256*256的.6520.3化ew__模型在CPU模式下,J出的深度卷积神经网络由表可!^l看出,本文提巧 北京巧通大学硕±专、Ik学位论文车龄验证在Cafe框架下处理图片的平均速度是深度卷积神经网络VGG-6的平1均速度的约1/5,而NewSVDNet处ewNet的平均速度的基础上加快_理图片的平均速度在N__80ms,当图片数量十分庞大时。,了近,这个时间的节省就会明显的体现出来由此本文提出的NewSVDNet在腾讯Qzone多标签数据集上,平均准确率指标相比__一VGG-6低21,于深度卷积神经网络.5%。但是处理张图片的平均速度却快近6倍大大提高了模型的处理速度?,使得在CPU模式下深度模型的可用性大大提升4.3迭代优化实验4.3.1实验数据一本实验的实验数据依旧是腾讯Qzone的十万张多标签数据集.和上个实验样也是80000张训练集,10000张测试集,14320张验证集,但是区别于上个实验.工的二次标注-3所示。本次实验中的测试集经过了人,如图4巧;;:就F抑*:|〇教1m^"r":月告rI户知特,就;;1P遊ini/^/Iii马-fi.3脯獅二次标注麵试集对比4ttaedandtwicetaed-meimagesoffirsggggFigure43SoH /北京交通大学硕±专、11举仿卞实验驗证图中是人工一次标注的测试集和人工二次标注标注的测试集对比的示例,其一中First表示的是人工次标注的语义标签wi二ITce表示的是人工次标注的语义二一标签,可W发现次标注的语义标签要比次标注的语义标签更加完整,更加的接近真实的标签数据集一一。本实验中的训练集和验证集和上个实验样是人工次标注得到的多标签数据集,并没有改变。除了1^上数据集,数据迭代算法框架中会有单标签图片的补充,用于补充训练数据集中某些低频语义标签的图片数据,在选择补充这些单标签图片时数据来源多来源于网络,并且图片中尽童不出现其他物品,即补充的图片中基本只包含该语义标签。4.3.2实验设计为了得到最优的预测标签,本文特征酷合和KNN分类器替代softmax分类的-优化预测的方法。使用深度卷积神经网络VGG16和本文提出的深度卷积神经网络NewNet连个模型进行特征巧合。_e-N。因此首先需要分别在腾讯Qzon的数据集上分别训练VGG16和Newet_-再训练之前先将这两个模型的softmaxloss修改成multilabelsoftmaxloss。修改好一56之后将所有数据集图像统resize为256x2大小,然后开始进行模型训练,直到收敛。每次训练完之后,需要分析每个语义标签的F1指标,若相对较低则需要补充该语义标签的单标签困片。本文中使用的数据集的平均F1值为化6,因此在实验一时若某语义标签的F1低于0.6时就相应的补充该语义标签的数据?每次补充的一F1000张1值指标出现明显的巧低,数量为,但是若发现在加入之后另标签的-则停止加入该语义标签的单巧签围片。如此循环迭代,直到分别训练出VGG16和NewNet的最终收敛模型。_得到了这两个深度卷积神经网络的最终收敛模型么后,分别对训练集数据进-行特征提取VGG16的fc7层特征和深度卷积神经网络,分别取深度卷积神经网络Conv4-35口-?层是维N43由于技7层是4096维,而,因ewNet的Conv层特征_一此对CA致。fc7层特征进行P巧维使得这两种特征的维度一?然后将这两个维度致的持征进斤几何平均,得到胜合之后的模型持征接了许多单标签围片的数据集,老用KNN分类器进行分类,分类时的训练集是加入即得到最终收敛网络的巧后的数据集?巧试集就是原始的训练集,本实验中KNN?即从开始,逐个计#预满准确率,取70通过交叉验证得到的K取值为,是准确率最髙时的K值,54 3L京交通大学硕+专业学仿古实驗验证然后分别对比模型融合和KNN分类器W及原始的模型的直接预测结果,分别比较这几种方法在二次标注的测试集上的预测结果。最终得到的预测惊签集,再和原始的训练数据集的标签集合进行合并,得到新的迭代后的数据集。由于数据迭代后靠人工去检验迭代后数据的标签是否更加完整相当于人工的第王次标注,过于耗时。因此,为了验证本文提出的数据迭代算法框架的有效性,本文提出使用模型进行验证,即让迭代前的数据和迭代后的数据分别在本文提出的NewSVDNet上面进行训。_训练期间模型参数的配置全_练部一致,直到模型收敛。然后在相同的二次标注的测试集上进行测试,对比这两-个模型在测试集上的macrorecision、-a-pmacrorecll、ma舟〇3(:(:励〇六这兰个指标,如果迭代后的数据训练得到的模型的这王个指标优于迭代前的数据训练得到的模型的这H个指标,则表明迭代后的数据得到了优化,标签集相对更加完整。4.3.3实验结果从及分析在验证迭代后数据的优劣么前,本文先对模型巧合和KNN分类的结合是否比原始的模型直接预测的结果进行了比较*-。表44是深度卷积神经网络VGG16和NewNet经过模型融合和KNN分类器之后iU及未优化预测步巧的结果对比,测试_集为二次标注的测试集。表4-4预测优化与未优化的巧型分别在二次巧注的测试集上的结果巧4-4ureThere出ctionres山tobtainedbotimizationmodelandn加otimizationmodelgpypp---模型macroprecisionmacrorecallmacroaccuracyNewNet0.4800.5410.341_-0VGG16.4950.5520.巧3预測优化0.5110.5730.370可1^^发现,模型巧合和KNN分类器的替换相比于原始横型的提升了预測的准确度。,因此本文提出的这两种方法的结合更有利于数据的迭代-Net上都进行了验VGG16、NewNet、NewSVD__在本次数据迭代的结果在_证,如表4-5所示,分别对比了原始训练巧据集和迭代后的训练数据集的在不同巧*-recal、型上的得到的macro中recis沁n、maoolmacroaccuracy这H个指惊?由表可了一W发现定的的提升,即巧,迭代后的数据集在三个模型上的识别指标巧得到据的优化得到的验证。巧 北京交通大学硕±专、Ik学位论It实验於证表4*6是对比了原始数据集和迭代后的数据集的标签个数,迭代后的数据集的标签个数相比原始数据集増加了17520个,约7%,平均标签个数提升了化17。表4-5原始数据和迭代后数据的模型指标Table4-STheaccuracfthreemodelsobtyozunedbytwodifferentdataset--模型macr〇-precisionmacrorecal1macroaccuracyVGG-16原始数据0.4820.5460.344迭代后巧据0.4980.5610.3巧NeWNet-原始数据0.4740.的80.;337迭代后数据〇.4扣0.5540348.NewSVDNet__原始巧据0.4630.5270.巧7迭代后数据0.4巧0.5410.巧9表4-6原始数据和迭代后的标签巧1及平均标签个数1^-lfriTabel46Thelabesooinaldatasetandnewdatasetg总标签个数平均标签个数原始数据2230482.14迭代后数据240568^56 北京交通大学硕+专化学仿论义总结与展望5总结与展望5.1总结一-本文主要解决了两个问题:个是由于深度卷积神经网络VGG16模型的计算参数量十分巨大,在只有CPU的情况下运算速度十分缓巧。虽然当前GPU计算虽然可分快速的运行深度学习模型,但是成本较商。为了让企业可更充分利用现有CPU资源和降低成本开支,因此研巧可Uil在CPU上运行的深度学习模一型是具有实际意义的。另外个问题是对于多标签图像标注来说,当前大部分互、联网图片都处于标签集不完整语义标签團片数据分布不均巧的弱标注环境,要获得完整标签集的训练数据集十分困难,,依靠人工过于耗时耗力因此如何在这,种弱标注环境下,尽可能的用少量人工付出来实现模型精度的提升和数据的优化是十分具有研究意义的。针对这两个问题,,本文分别通过修改深度模型和数据迭代来尝试解决并经实验验证这两个方法有效:-层的卷积深度,针对深度模型的加速问睡,本文通过改变卷积核步长和每减少网络处理大型输入二维特征的卷积层数,増加处理维度更小的二维持征的卷积层数来补充层数,从而实现计算参数大大巧少;此外,对网络计巧参数*大的卷积层进行SVD分解,得到分解后的模型?虽然分解后模型的平均准确率相比-,CPUVGG16损失2.5%,但是运巧速度却近6倍大大缩短了模式下基于多标签深度学习的围像标注时间,使得基于多标签深度学习的困像标注的实用性大大巧强。针对弱标注环境问题,本文首先分析了从数据角度出发的语义标签不完巧和合深度学习设计了一不同语义标签图片分布不平巧的解决思路,结个实现数据迭片代的算法框架。巧法框架中通过补充模型识别率不巧巧的语义标签的单标签巧来提升模型对该标签的识别能力,接着依据模型可W从它处学习到的语义标签和上的原理,通过得到的比较完巧的深度图片的映射关系应用到缺失该标签的图片模型预测输出处于弱标注环境的训练数据集?此外,预渊输出时为了提升预測结出了基于深度学习的多模型特征巧合和深度特征加KNN分类巧替换果,本文还提,巧原深度特征加oftmax分类器的两个方法,获得新的训练数巧集的语义巧签失s一个新的迭代后的训练巧据集的语义标签失。始的标签集进行合并后,巧终得到经实验验证对比,迭代后的训练巧据集的语义标签在同样的棋型训练下获巧巧 北京交通大学硕±专、心举位论义总结与展望了更加精度的结果,也证明迭代后的数据得到了优化,证明该算法框架的有效性,该算法框架在腾讯Qzone数据集上获得了验证并己经实际应用于内部业务。5.2未来工作展望本文提出的加速深度模型在CPU模型下处理速度虽然接近—0.5s张图片,但是依然有很大的加速和优化的空间,此外本文提出的通过数据迭代处理训练数据集弱巧注环境的方法依然需要很多的人工的步骚,,并没有实现端到端的自动迭代W上的相关研巧工作都有着很大的扩展和延伸空间,主要表现在如下凡点:(1深度模型的持续优化和多标签分类损失函数的优化)由于当前的深度学习引起了大量学者的研巧,因此更加优秀的深度学习模型正源源不断的涌现出来,因此之后可W使用模型精度更高且计巧参数更少的深度模型,此外多标签分类损失函数也是有很大的优化空间进行图像标注,有大量的好的多标签损失函数都可巧深度学习组成新的组合。(巧从算法角度和数据角度的双重角度解决弱标注环境下的困像禄注问题本文设计的数据迭代方法虽然一定程度上优化了大型训练数据集的弱标注环境问题,,过,更,但是还是远远不够而且算法框架不够自动程中不仅需要补充数据i需要人工分析多次结果进行判断,未来可tl结合巧法角度,结合巧签相关性的学一习算法,此外从数据角度可W搭建更,从而进步改奋训练数据集的弱标注环境加智能的实现自动数据迭代标注的算法框架,从而大大较少人工消耗,使得再面对更加庞大的训练数据集时有更好的实用性。3结合分布式计算和模型并行方法()本文的深度学习模型无法实现并行,而当前越来巧多的并行化的深度学习模型结-ark的技术实现并行计算的Cafe框架Cafesark,构被提出来,例如p就是依据sp心习模型使其更加适合并行计算,这样可文因此未来可iiil优化本文的多标签深度学。大大节省深度学习模型的计奠时间,大大优化企业产品体验质量58 北京交通大学硕±专业学位论文参考文献参考文献1DataRJoshiDLi[,JetalJmatriidi],gereevaheasnauencesandtrendsofthenewae,,g.ACMComui…ptngSurves,2008402:ArticleNo.5y,()[21何希圣.留像自动标注方法研巧[D].复旦大学,2010.3王梅?基于多标签学习的图像语义[?2008.]自动标注研巧[D]复旦大学,4Simonan之issermanA.VerDeeConvltiolNf-Scalee[]y氏ypounaetworksorLaieIma]ggRecognition[J].EprimAnd乂2014.一5田巧?[沈旭昆种适合弱标签数据集的图像语义标注方法阴?软件学报2013],,,24-1〇240524():18.6郑政宇.图像自动标注算法研巧及其应用〇.2015.[]内蒙古科技大学,[]7DuuluBarnardFreitasJFGDetal.ObectReconitionasMachineTranslation:[]yg,jgLearninaexiconfoHgLraxedImageVocabulary.EuroeanConferenceonComuter[C]ppV--ision.SrinrVerla2002:97112.pgeg,巧]Jeon,J,Lavrenko,乂Manmatha*氏?Autom泣icimageannot地onandretrievalusingcro巧-Iternatme出a巧levancemodeIsioalCH反ConferenceWGIR.nnACMW*[。2003-6:11912.LavrenkoManmatha民JeonJ.AModelforLearnintheSemanticsof巧cturesJ.Nis巧]乂,g[]p,200453-560.:5"0FenSMamnathaLavrenko乂MultileBernoullirelevancemodelsfbrima巧and]gLpvideoannotationC.ComuterVision姐dPatern民econition2004.CVPR2004.[]pg*Proceedinsofthe2004IEEECo扣uterSocietonferenceoaIEEEgpyC,--11-92010.2.:111002100VolDU祝静文.围像语义自动标注方法的研究[D]?南京理工大学,2013.GtCChanABMorenoPJetal.Suervisedlearninofsemanticclassesforimae[12]usavo,,,pggli皮Miannot地onandretrievalJJ?圧EETransactionsonPatternAnayssachne]94*ntellince200729.I!3:3410ge,,()晶,马少平.使用基于多例学习的肩发式SVM算法的图巧自动标注机计算机研[巧路巧与发乾2009,46(巧:864^1.iYuli.Hierarcalassificatio凸forautom地Cma14巧啤Fan知〇,HanzaiLuodiidge]邸*g[annotaticmC.SIGIR2007:ProceedingsoftheIntemationalACM到GIRConferenceon[]tinInationRetrieval,AmsterdamtheNetherlan也Jul.民ese扭chandDevelopmenft讯n,y-82007.:11111-巧92008311629.?计算化学化㈱1,1?基于围学习的自动困像标巧巧[引卢汉病刘挣-l地HCtaLAutomaticMultimediaCrossmodalCorrcon16JFaloutsoscPanJYYan,[】,,gKd2004巧?658D:6.iscovei,dyWjlhreinforcementmodelforwebimaeannotationC.Biartiten)g]17民山义LLiZeta.liMpgq[],?ConferenoeonMultimedia2007Ausbuiaud*roceesofe5化Intemati,ggP出ngth1--292007:巧5.tember.2007594ermanSe24G,y,puJ。Mal.to巧eam试地onviagraphteaming[Jl.Pate扣Rco^ti啤*UuQ,巧。巧U,59 北京交通大学硕±专业学位论文参考文献2009422-;218228.,()^9]祝静文.围像语义自动标注方法的研巧P.南京理工大学,2013.]20章統晋?基于内容的视觉信息检索[]M].科学出版2003.[化2intonGESalakhui,tdnov民民?Reducinhe出milidihneul[。HgtensonatofatawtraynetworksJ.Science2006313578650-[],,():4507.2intonGOsimieroSTehY.AFLifi[引H,,astearnngAlorithmorDeelefNets[J].Neuralg巧BComutat-ion20061871p,;52754.,()2rizhevskAS胞keverIHintonGE-ImaNetClassiScationwi化De巧Convolutional[引Ky^,geNeuralNetworksy].AdvancesinNeuralInform泌ionProcessingSystems,2012,25口):2012.[24]Sze供dyC,LiuW,JiaY*etal.Goindeeerwi化convol地onsC.Proceedinsofthegp[]g化EEConference-onComputerWsionandPaternRecognition2015:19.口5]义Gong,乂T.K*leung*A.Toshev,andS.Iofe,deepconvolutionalrankingformultilabelimageannotation*化ICLR2014.^26PassGZabihM出erJ.ComarinImaesUsinColorCoherenceVectorsJ.Procof[],氏pggg[]’Acm-Multime出a1996:6573.,[27]孙栋.基于纹理分析的目标图像识别技术研巧[D].南京理工大学,2005.28刘丽,匡纲要.图像纹理特征提取方法综述阴?中国围象图形学报a*2009,[]-144:622635.()Low-口引eDG.DistinctiveImageFe泌uresfromScaleInvariantKeypoints[C.International]-化umalofComuterVision*2004:91110.pobusttures ̄0bH.1404417C.Proc.ofBaTTutelaarsLGool.Surf:Seectedrfea:口]y,,[]yyp啤ECCV2006..31杨則.面向團巧分类和识别的视觉特征表达与学习的研巧[D]?华南理工大学,2014.[]32.2006.尚丽.稀疏编码算法及其应用研巧P]中国科学技术大学[],Perroekrnlsonvisualvocabulariesforimae3iminF,DanceC.Fishreeg口]categoriz地仰[C].ComputerVisionandPaternRecogn拍on>2007.CVPRW.IEEE2007-Confe历neeon:18.?化EE,lreatinlocal化scritorsintoacomactinwc4JSouDouzeMSchmidC,eta.Aggggpp^口g,]EHiCPaternReconitionCVPR2(U(HEon.ComuterVisionandg,representat]p()[-Conf:33043311.erenceon.IEEE,2010ttilmidmatchinforJBebasoffeaures:SaaraLazebnikSSchmidCPonce.ondpyg口引,ygp,turaesC.Comuter\^sionandPatternReconition2006氏cognizingnalscenecategori[]pg,20062-Conference:21692178.-ComuterSocieton.IEEE,IFFFpy,.20M.王占东安巧大学,口W.基于多示例多标签学习的巧像分类标注田].云南民族大学学报:自然科学巧,37黄族.困像多惊签学习综述阴[,孙剑,谷雨]0-496201.16:49()-lliAnorviewJ.IntemadmialJoualkiMulticlassificaton:vernTkasKatasI.abesouma[l口巧G,200733-M:113.&inin,ofWin()Dataarehousgg,--拍sk200595200.llectveMultiLabel口i6cadon.打m?:139GhamrawiMccallumA*Coi机N[],tioo//PeedslieorImaeAnnotaCrocin时marAI*wBasenf[gMkadiaPavS.g]40alovic[]乂-rVision:Part.SnerVeri媒rence畑阳hComputeprigEuroeanConfeofthe10tp60 北京交通大学硕±专化学位论文参考文献20083-16329:.4li[UGdlaumnMMeiT,nsnkVerbeekJetal.TaPro:Dirimin地vemetriclearninin,,gpscgnearestneihbormodef-glsorimaeautoannotationC.ComuterVision2009化EE12thg[]p^InternationalConferenceon.圧EE2009-:309316.,[4引NguyenHCaruana也Classi行cationwhhpartiallabels[C].ACMSIGKDDIntern她onalConferenceonKnowledgeDiscoveiyandDataMining.ACM,2008:551-559.Sun--4YZh[引YangYZhouZ比MultiLabelLearninwithWeakLabel.C.TwentFourth,,g[]yAAAIConferenceonArtificialIntellienceAAAI2010AtlantaGeoriaUsaM.g^^,,^gy2010.44SivaP,RussellC,兒angT.InDe纪neeofNeativeMininforAnnot地nWeakl[]gggyLabeM—lledData.ComuterVisionECCV2012.SrinerBerlinHeidelber[]ppgg,20-12:594608.[45]YoshuaB,AaronC,PascalV.Representationlearning:areviewandnewpe巧pectives?[叮-IEEETransactionsonPatternAnalsis&MachineIntelUence2(H3358:17%828.yg,,()46李海峰,李纯果.深度学习结构和算法比较分析[J.河北大学学巧:自然科学版,2012,[]]32538-544.(巧:47]FukushimaKLTheinte反titialnucleusofCa!anditsroleintheCO打trolofmoveme打tsof[却head-andees.J.ProressinNeurobiolo19巧29:10792.y[]g防,(巧4into打GESrivastavaNKrizhevskAetal.Imrovinneuralnetworksbreventin[引H,,y,pgypgcoadatationoffeaturedetectors口?Improvi打neuralnetworksbreventinp]gypg--de-hGate34coad:s.212223.jtationoffeaturetectorsResearc,2012q,()p4g'地YTAlkinfor的4on広leun&.Toshev処dS.lo嵌.deeconvolonaranmu引YG.J.,[g,成pg虹ICLR2014.labelimageannotadoafiiihiWGK0Joa沈imsmeninesusinclickthroudataC.EhthACMDD口T?zngsearcgg[]g]雌班In地lConKnowledeDiscoverandDataMinin.ACM,ternonaonferencegyg2002-:133142.WBenSAB店:scalin化larvocabularimaeestonJ,gioS,UsunierN.Wg哗geyg口。-ltlthree.annot地onC.Intern地onalJointConferenceonArti巧daInelligenceVoumc[]-2770AAAI.Press2015:2764,61 北京交通大学硕±专业学位论文作者简历及攻读硕±/?±学位期间取得的研巧巧果作者简历及攻读硕±/博±学位期间取得的研究成果温翔,男,1993年9月生,北京交通大学电子信息工程学院硕±研巧生,控制工程专业,研巧方向为智能控制。一、作者简历-本科:2010.92014.7,北京交通大学,电子信息工程学院,自动化专此,获工学学女学位;20 ̄硕±:14.72016.7?北京交通大学佩送电子信息工程学院),控制工程专业,攻读硕,±学位。二、发表论文【1]付文秀李冰温巧.基于自适应巧合後型的运动,,目标巧踪方法J.北京交通大学学[]20-报:自然科学版1438250,:55.,{)62 北京交通大学硕±专业学位论文独创性声明独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研巧工作和取巧的研巧成果,除,了文中特别加标注和致谢之处外,论文中不包含其他人己经发表或巧写过的研巧成果也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料一同工作的。与我同志对本研巧所做的任何贡献均己在论文中作了明确的说明并表示了谢意。<《《学位论文作者签名:签字日期:>/年月日巧 北京交通大学硕±专业学位论文学位论文巧据集学位论文数据集表1.1;数据集页关键词*?密级中图分类号UDC论文资助弱标注;困巧标公开U284656注;多标签深度学习;数据迭代学位授予单位名称****学位授予单位代码学位类别学位级别化京交通大学10004_**论文想名并列趣名论文语种弱标注环境下基于多标签深度学习的加速困像标 ̄-**作者姓名I温巧学号14125122I培养单位名称*培养单位代码*培养单位地址邮编I北京交通大学10004北京市海淀区西直100044n外上园村3号*研充方向*学制*学位授予年?工程领域控制王程智能控制2年2016I|I*论文提交日期2016年4月25曰 ̄—*赵林海职巧*巧授导师姓名I ̄I答巧委员会主席*答辩委员会成员评阐人王剑张巧、上官伟电子版论文提交格式文本(V)困像()视頻()音頻()多媒体()其他()i/dflic/mswordapplicat(?推荐格式:aarion;ppp电子版论义出版(发布)者电子巧论文出巧(发布)地巧巧声明— ̄*论文总页致I巧共33项,其中带*为必填数巧,为21项,64

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭