计算机视觉进展二十年 (1995~2015)

ID：42708106

大小：23.01 KB

页数：6页

时间：2019-09-20

资源描述：

《计算机视觉进展二十年 (1995~2015)》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、计算机视觉的两大主要板块是：几何和识别，这里我们主要来讲述计算机视觉在1995～2015年间的进展。1.影像特征点检测算子(detector)和描述算子(descriptor)SIFT的诞生(1999,2004)Scaleinvariantfeaturetransform(SIFT)是在1999年由UBC的教授DavidLowe首次提出，并在2004年进一步完善并发表的影像特征点检测(detector)和描述算子(descriptor)。SIFT的诞生是计算机视觉里程碑式的进步，它使得homographyestimation,structurefrommotion,ep

2、ipolargeometry以及机器人(robotics)中的SLAM有了飞跃式的改进，正是因为SIFT好于在它之前的任何描述子,使得匹配更加准确。SIFT不只是在geometry上有应用，它后来广泛应用于目标识别(ObjectRecognition)（见后文）。2.特征工程：描述子(descriptor)的广泛诞生（1995～2010）在深度学习(featurelearning)流行之前，学者们手工设计(manuallycraft)了很多point,imagepatch,spatial-temporalvolumetriccube和3Dmesh的描述子，这些描述子一般

3、都具有抗噪声，对旋转、光照、比例、对比度等等不敏感的特性。除SIFT之外，其它著名的算子有：(1)shapecontext它由CornellTech的SergeBelongie教授于2002年提出,他使用了计算机视觉中常用的binning来描述点周围的shapecontext,在角度方向,使用了均衡的binning,而在半径方向,使用了log-polarbinning,这样直观上就是越近的点对shape影响更大。Shapecontext是很成功的形状描述子,对于2D的形状识别,在当时MNIST手写字识别上达到了最好的效果。(2)HOG它的全称是HistogramofOr

4、ientedGradients,在2005年由Dalal&Triggs提出来，应用到行人检测上。HOG不同于SIFT的地方是：HOG用于描述整块patch,并不像SIFT一样有keypoint的概念；HOG没有rotation-invariant的特性。HOG后来广泛的用于其他目标的识别，最成功的拓展是基于HOG的deformablepartsmodel(DPM,由Felzenszwalb教授在2010年提出)，它是deeplearning之前最好的objectdetection&recognition匴法。(3)spinimage它是一种3Dmesh的描述子,由And

5、rewJohnson博士在1997年提出，并在1999年完善的。它用来做surfacematching,如今激光扫描仪(lasterscanner)越来越普遍，价格也越来越便宜，于是点云数据也是越来越常见,spinimage就能直接用于点云的匹配。因为spinimage描述子是基于局部的坐标系–其XY平面是那点的切平面，Z是点的法向(normal),XY坐标轴的方向不需要确定（不像计算SIFTdescriptor时，需要把坐标轴对齐到dorminantdirection)–当两个来自不同全局坐标系点云的点都用shapecontext描述后,就能直接欧式距离比较它们的相似

6、度了。(4)除了这些非常成功的描述子，其它的还有STIP(Space-TimeInterestPoints,2005),HOF(Histogramoforientedopticalflow,2009),MBH(motionboundaryhistogram,2013)。3.目标识别,objectrecognition（2005～2010）在2010年前，也就是deeplearning用于目标识别之前，这个时期还没有大规模的影像数据库（ImageNET2009年采集完成），第一个用于目标识别的数据库是目前斯坦福的Fei-FeiLi教授在caltech读博期间采集的Calt

7、ech101，它有101类目标，每个种类的目标有40～800张影像。虽然相比目前的imageNET，它小得不能再小了，可是它对计算机视觉目标识别有着不可磨灭的贡献，caltech101开启了目标识别的先河，这期间诞生了很多有趣的descriptors和objectrecognitionalgorithms,其中主流的目标识别算法是（1）bag-of-visual-words(BoW);(2)templatematching。BoW受到文本领域topicmodeling的启发，主要思想是在影像上随机的采取一些patches,这些patche

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

计算机视觉进展二十年 (1995~2015)

计算机视觉进展二十年 (1995~2015)

相关文章

相关标签