资源描述:
《计算机视觉进展二十年 (1995~2015)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算机视觉的两大主要板块是:几何和识别,这里我们主要来讲述计算机视觉在1995~2015年间的进展。1.影像特征点检测算子(detector)和描述算子(descriptor)SIFT的诞生(1999,2004)Scaleinvariantfeaturetransform(SIFT)是在1999年由UBC的教授DavidLowe首次提出,并在2004年进一步完善并发表的影像特征点检测(detector)和描述算子(descriptor)。SIFT的诞生是计算机视觉里程碑式的进步,它使得homographyestimation,structurefrommotion,ep
2、ipolargeometry以及机器人(robotics)中的SLAM有了飞跃式的改进,正是因为SIFT好于在它之前的任何描述子,使得匹配更加准确。SIFT不只是在geometry上有应用,它后来广泛应用于目标识别(ObjectRecognition)(见后文)。2.特征工程:描述子(descriptor)的广泛诞生(1995~2010)在深度学习(featurelearning)流行之前,学者们手工设计(manuallycraft)了很多point,imagepatch,spatial-temporalvolumetriccube和3Dmesh的描述子,这些描述子一般
3、都具有抗噪声,对旋转、光照、比例、对比度等等不敏感的特性。除SIFT之外,其它著名的算子有:(1)shapecontext它由CornellTech的SergeBelongie教授于2002年提出,他使用了计算机视觉中常用的binning来描述点周围的shapecontext,在角度方向,使用了均衡的binning,而在半径方向,使用了log-polarbinning,这样直观上就是越近的点对shape影响更大。Shapecontext是很成功的形状描述子,对于2D的形状识别,在当时MNIST手写字识别上达到了最好的效果。(2)HOG它的全称是HistogramofOr
4、ientedGradients,在2005年由Dalal&Triggs提出来,应用到行人检测上。HOG不同于SIFT的地方是:HOG用于描述整块patch,并不像SIFT一样有keypoint的概念;HOG没有rotation-invariant的特性。HOG后来广泛的用于其他目标的识别,最成功的拓展是基于HOG的deformablepartsmodel(DPM,由Felzenszwalb教授在2010年提出),它是deeplearning之前最好的objectdetection&recognition匴法。(3)spinimage它是一种3Dmesh的描述子,由And
5、rewJohnson博士在1997年提出,并在1999年完善的。它用来做surfacematching,如今激光扫描仪(lasterscanner)越来越普遍,价格也越来越便宜,于是点云数据也是越来越常见,spinimage就能直接用于点云的匹配。因为spinimage描述子是基于局部的坐标系–其XY平面是那点的切平面,Z是点的法向(normal),XY坐标轴的方向不需要确定(不像计算SIFTdescriptor时,需要把坐标轴对齐到dorminantdirection)–当两个来自不同全局坐标系点云的点都用shapecontext描述后,就能直接欧式距离比较它们的相似
6、度了。(4)除了这些非常成功的描述子,其它的还有STIP(Space-TimeInterestPoints,2005),HOF(Histogramoforientedopticalflow,2009),MBH(motionboundaryhistogram,2013)。3.目标识别,objectrecognition(2005~2010)在2010年前,也就是deeplearning用于目标识别之前,这个时期还没有大规模的影像数据库(ImageNET2009年采集完成),第一个用于目标识别的数据库是目前斯坦福的Fei-FeiLi教授在caltech读博期间采集的Calt
7、ech101,它有101类目标,每个种类的目标有40~800张影像。虽然相比目前的imageNET,它小得不能再小了,可是它对计算机视觉目标识别有着不可磨灭的贡献,caltech101开启了目标识别的先河,这期间诞生了很多有趣的descriptors和objectrecognitionalgorithms,其中主流的目标识别算法是(1)bag-of-visual-words(BoW);(2)templatematching。BoW受到文本领域topicmodeling的启发,主要思想是在影像上随机的采取一些patches,这些patche