欢迎来到天天文库
浏览记录
ID:15337778
大小:2.36 MB
页数:32页
时间:2018-08-02
《(计算机视觉)第章基于推理的视觉理解》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第三章 基于推理的视觉理解3.1基于推理的视觉理解概述3.1.1逆向和不适定问题3.1.2感知组织现象3.1.3视觉识别和推理3.2感知组织的基本原理3.2.1根据图象关系的显要性进行聚类3.2.1.1图象关系非偶然性产生的概率3.2.1.2限制计算的复杂性3.2.2通过求能量极小进行聚类3.2.2.1计算策略3.2.2.2感知聚类中的表象3.2.2.3聚类能量的计算3.2.3根据图象特征推论三维空间结构3.3景物结构的模型3.3.1部件模型和自然形状表示法3.3.2部件识别理论(Recognition-By-Comp
2、onent,RBC)3.1基于推理的视觉理解 在研究基于推理的视觉理解以前先要对视觉信息处理和理解中的一些主要特点和特性有基本的了解。其中最主要的是要认识到视觉问题从本质上说是不适定的(ill-posed),如果没有附加信息就不能找到解答。这在很大程度上是由于许多视觉任务从本质上来说是逆向的问题。例如,图象是三维景物的二维投影,如果已知景物的三维模型,在一定的几何条件下通过投影(正向过程)产生的图象是唯一的。但是同一幅图象可以是无穷多种三维物体的投影的结果。因此根据图象不可能唯一地确定它是什么景物投影的结果。例如,图
3、3.1中所示的M形图象,它可以是由图3.1(a)中的空间某M形物体投影的结果,但它同样也可以是图3.1(b)中所示的三根在空间互不相交的一些空间曲线投影的结果。32图3.1 不同的形体产生相同的图象 但是当人们看到(a)中所示的图象时,并不感到它是多义的,这说明人类视觉在理解这样的图象时要么是利用了附加的高层信息(例如,知道图中是哪一类物体的知识),要么是利用了某些可以去除多义性解释的通用约束。心理物理学研究的结果表明人类同时使用了这两种策略,但令人惊奇的是在消除多义性方面,高层知识提供的信息要比低层的通用约束提供的
4、少。这说明人类视觉在理解图象时必定利用了某些通用的约束。当然这些通用约束中包括景物和物体成象的基本物理性能,但还不止这些。其中很可能还包括所谓的感知组织(perceptualorganization)。如果不对这些约束有透彻的了解,要建立通用的视觉系统是困难的。以下对逆向和不适定问题,以及感知组织作简要介绍。3.1.1逆向和不适定问题 通常逆向问题涉及在只知道输出和所进行处理的本质的条件下,重构由于某种操作所畸变的数据。例如,已知x+y=17;求解满足上述公式的x和y,就是一个逆向问题。这时所进行的处理是已知的(加法
5、),操作输出是已知的(17),但其输入x和y是未知的。许多低层计算机视觉问题是逆向的,因为这些问题要求根据从三维到二维变换后的输出(例如灰度图象),重构三维形状、边缘位置或运动等。1.适定性定义 1923年Hadamard定义当一个数学问题满足下述条件时是适定的: (1)存在一个解;(2)这个解是唯一的;(3)解连续地取决于输入数据,即输入数据的很小变化对输出也只引起一个小的变化。虽然许多逆向问题是不适定的,如上述简单例子所示。这是因为在这些问题中存在许多可能的解,因此不满足条件(2)。此外,实际中只能得到观察数据
6、,而不是实际数据,所以不能保证满足(3),因此需要附加的信息来使这问题成为适定的。附加信息可以是定量的,这就得到近似解(quasisolution)。另一种方法是使问题正则化,这时需要应用诸如解的特征这样的定性信息。2.正则理论 正则理论提供一个解决不适定问题的框架。这涉及通过扩展问题的定义来限制解的空间,具体方法是增加体现解所希望特性的约束。这些附加的约束被称为稳定函数(stabilizingfunction),设:A是已知线性算子,y是已知数据,g是要恢复的未知数据。逆向问题定义为恢复g,使得:通常,y是由测量得
7、到,但伴随着噪声。所以,只知道它的近似值y*,因此,所能得到的是由下式求得近似解:这个近似解可通过寻找使得下式为极小的g来求得:其中是合适的模。设:g*是体现解的所希望特性的通解。因此,所希望的解g应使下式为极小:32P(g)被称为稳定函数(stabilizingfunction)。设:P(g)至少是半单调的(quasimonotone),把上述两条件综合起来,求解就可表示为寻找使下式为极小的g其中lp是控制上述两项相对重要性的正则化参数。这里第一项描述所求解经变换后的符合程度,第二项说明所求解与所希望的解的特性的接近
8、程度。通过应用稳定函数,在某种程度的数据范围内,可保证解的唯一性和强制所得结果连续地取于所观察的数据。这样就使问题成为适定的并在现在这种极小化问题形式下可求解。3.1.2感知组织 感知组织是指人类视觉系统所具有的在不知道图象内容的先验知识条件下,从图象获得相对的聚类和结构的能力。例如,人能从随机分布的图象元素的背景中迅速地检测出
此文档下载收益归作者所有