欢迎来到天天文库
浏览记录
ID:48114331
大小:1.91 MB
页数:11页
时间:2019-11-25
《基于深度学习的目标检测最新研究进展总结概述(DL必看).pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于深度学习的目标检测研究进展2016-05-30深度学习大讲堂深度学习大讲堂开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置。其实刚刚的这个过程就是目标检测,目标检测就是“给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别”。目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫
2、这种高层语义概念,也不清楚目标出现在图像中哪个区域。图像中的目标可能出现在任何位置,目标的形态可能存在各种各样的变化,图像的背景千差万别……,这些因素导致目标检测并不是一个容易解决的任务。得益于深度学习——主要是卷积神经网络(convolutionneuralnetwork:CNN)和候选区域(regionproposal)算法,从2014年开始,目标检测取得了巨大的突破。本文主要对基于深度学习的目标检测算法进行剖析和总结,文章分为四个部分:第一部分大体介绍下传统目标检测的流程,第二部分介绍以R-CNN为代表的结合re
3、gionproposal和CNN分类的目标检测框架(R-CNN,SPP-NET,FastR-CNN,FasterR-CNN);第三部分介绍以YOLO为代表的将目标检测转换为回归问题的目标检测框架(YOLO,SSD);第四部分介绍一些可以提高目标检测性能的技巧和方法。一.传统目标检测方法如上图所示,传统目标检测的方法一般分为三个阶段:首先在给定的图像上选择一些候选的区域,然后对这些区域提取特征,最后使用训练的分类器进行分类。下面我们对这三个阶段分别进行介绍。(1)区域选择这一步是为了对目标的位置进行定位。由于目标可能出现
4、在图像的任何位置,而且目标的大小、长宽比例也不确定,所以最初采用滑动窗口的策略对整幅图像进行遍历,而且需要设置不同的尺度,不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置,但是缺点也是显而易见的:时间复杂度太高,产生冗余窗口太多,这也严重影响后续特征提取和分类的速度和性能。(实际上由于受到时间复杂度的问题,滑动窗口的长宽比一般都是固定的设置几个,所以对于长宽比浮动较大的多类别目标检测,即便是滑动窗口遍历也不能得到很好的区域)(2)特征提取由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒
5、的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准确性。(这个阶段常用的特征有SIFT、HOG等)(3)分类器主要有SVM,Adaboost等。总结:传统目标检测存在的两个主要问题:一个是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。二.基于RegionProposal的深度学习目标检测算法对于传统目标检测任务存在的两个主要问题,我们该如何解决呢?对于滑动窗口存在的问题,regionproposal提供了很好的解决方案。regionpropo
6、sal(候选区域)是预先找出图中目标可能出现的位置。但由于regionproposal利用了图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。这大大降低了后续操作的时间复杂度,并且获取的候选窗口要比滑动窗口的质量更高(滑动窗口固定长宽比)。比较常用的regionproposal算法有selectiveSearch和edgeBoxes,如果想具体了解regionproposal可以看一下PAMI2015的“Whatmakesforeffectivedetectionpro
7、posals?”有了候选区域,剩下的工作实际就是对候选区域进行图像分类的工作(特征提取+分类)。对于图像分类,不得不提的是2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上,机器学习泰斗GeoffreyHinton教授带领学生Krizhevsky使用卷积神经网络将ILSVRC分类任务的Top-5error降低到了15.3%,而使用传统方法的第二名top-5error高达26.2%。此后,卷积神经网络占据了图像分类任务的绝对统治地位,微软最新的ResNet和谷歌的InceptionV4模型的top-5err
8、or降到了4%以内多,这已经超越人在这个特定任务上的能力。所以目标检测得到候选区域后使用CNN对其进行图像分类是一个不错的选择。2014年,RBG(RossB.Girshick)大神使用regionproposal+CNN代替传统目标检测使用的滑动窗口+手工设计特征,设计了R-CNN框架,使得目标检测取得巨大突破,并开启了基于深度
此文档下载收益归作者所有