资源描述:
《人类视觉与计算机视觉的比较》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、自然杂志24卷1期探索·假说人类视觉与计算机视觉的比较孔斌(中国科学技术大学自动化系,中国科学院合肥智能机械研究所)关键词知觉视错觉计算机视觉从视错觉等视觉生理现象以及知觉的特性出发,对人类视觉与计算机视觉进行比较,并根据目前对人类知觉活动(特别是视知觉活动)的认识程度讨论计算机视觉目前的状况和今后的发展.[1-3]人类自古以来一直在进行着认识自然和改造自然觉(图4)等.的活动,创造和发展了各种科学技术.随着对自然(包括人本身)的认识的不断加深,人们发明和制造了许多工具和机器,用来提高自己各种活动的效率以及代替自己的部分活动.人们甚至希望能用机器来代替自己的思维活动,从简单、机械的数值运
2、算到复杂、多变的知觉和思[1]考、判断.公元前6世纪中国人发明了算盘,20世纪40年代在美国诞生了第一台电子计算机.计算机视觉和人图1长短错觉工智能的研究于20世纪60年代初露端倪.目前,机器人和计算机已能执行有一定复杂程度的知觉任务和推理判断.比如机器人足球赛、计算机下国际象棋等.有不少科幻小说和电影描写了在未来某个时候,计算机已经拥有了人类的全部智能,并且控制奴役着人类;而人类的精英分子则为了反抗计算机、拯救人类,进行了艰难的斗争.这里,我们不去讨论未来的计算机是否真的能拥有人类的全部知觉和思维能力从而代替人脑,本文仅从图2大小错觉视错觉、视觉两义性等一些视觉生理现象以及知觉的特性出
3、发,对目前计算机所能拥有的能力视觉与人类的视觉进行比较,并根据目前对人类知觉活动(特别是视知觉活动)的认识程度,讨论计算机视觉目前的状况和今后的发展.一、视错觉现象图3平行错觉一般来说,在人类的五种基本感觉中,视觉提供了人类对周围世界了解的大部分信息.常言道:“眼见为实.”果真如此吗?有很多情况下“眼见”的并不一定都是“实”的.原因在于,通过我们的眼睛(以及其他感觉器官)而感觉到的外界事物的形象和特性,需要经过大脑的加工处理才能形成相应的知觉和判断.在一定的条件下,大脑会对所看到的形象形成不正确的知觉和判断,即产生视错觉.较为大家熟知的几种视错觉现象包括长图4弯曲错觉短错觉(图1)、大小
4、错觉(图2)、平行错觉(图3)、弯曲错·51·探索·假说ZiranZazhiVol.24No.1视错觉有很多实际用途.例如肥胖的人穿直条图案[2,3]请看图5,注意黑白两部分在不同的观察下发生的衣服会使身材显得比实际瘦一些;在房间的墙壁上装了怎样的变化.当你的眼睛盯住白色部分时,杯子呈现几面镜子就会产生空间变大了的感觉.在眼前;而当你的眼睛盯住黑色部分时,两张左右对称那么,像上述的各种视错觉现象在计算机视觉中会[2,3]的面孔便突现出来.在图6中你是看到了一个背朝着不会发生呢?答案是否定的.这是因为,在上述的知觉你向外张望的少妇,还是看到了一个老得掉了牙、下巴过程中,所求的仅仅是平面形状
5、几何参数的比较或是几垂到了皮领子里的老妪?(提示:老妪的右眼、鼻尖、嘴何特性,如长短、大小、方向、曲直等.人类在执行这类视[4]巴分别是少妇的耳朵、下巴、项链.)图7被称作“威尔知觉任务时并没有明显的计算过程,而且对各个形状也不是单独地进行感知.人类视觉所发生的错觉,都是因为受到其他线条(有时也加上在其他情况下得来的经验)的影响而产生的.在计算机视觉中,平面形状的几何参数和特性通过数值的计算便能获得.一旦找出了某个形状,对其参数的测量就将单独地进行,因而可以不受图中其他形状的影响.所以,计算机在找到两个形状并计算出其对应的参数之后,经过简单的比较便能给出正确的结论.但是,我们是生活在一个
6、三维的空间中,视知觉不图5彼得-保尔高脚杯仅涉及平面形状,而且大量涉及的是立体形状.因此,计算机视觉不仅研究平面形状的识别,也研究立体形状的识别.而它的形状参数测量的独立性特点应用于平面形状时是优点,应用于立体形状时却有可能出现问题.举一个立方体辨认的例子.机器人可以根据立方体的数学模型学会认识立方体的各种透视变形并判断其相应的方位,并进行拾起立方体放到指定地方的操作.这在目前已经不是难事了.如果呈现给它的是一个从某个角度看很像立方体但实际不是的物体,只有一个固定视觉传感器(即摄像机)的机器人在加工其视觉信号时就会把这个处于特定角度的物体当成立方体.由于对物体形状的错误判断,机器人有可能
7、不能拾起该物体;或者虽然拾起了也放到了指定的地方,但在执行下一步的任务时图6老妪?少妇?就会有很大可能导致系统性的错误(例如在进行装配任务时).从这个意义上讲,计算机视觉比人的视觉更容易受到干扰,错觉更为严重.计算机双眼视觉和多视图视觉的发展解决了这个问题.二、视觉两义性现象另一类有趣的视觉生理现象是视觉两义性.在一般情况下,对物体或图形的视觉感知只有一个惟一的答案.然而有的时候,作用于眼睛的同一幅刺激图像在不同时刻或不同的条件下可