欢迎来到天天文库
浏览记录
ID:31357608
大小:109.50 KB
页数:8页
时间:2019-01-09
《对象级特征引导的显著性视觉注意方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、对象级特征引导的显著性视觉注意方法 摘要:针对已有视觉注意模型在整合对象特征方面的不足,提出一种新的结合高层对象特征和低层像素特征的视觉注意方法。首先,利用已训练的卷积神经网(CNN)对多类目标的强大理解能力,获取待处理图像中对象的高层次特征图;然后结合实际的眼动跟踪数据,训练多个对象特征图的加权系数,给出对象级突出图;紧接着提取像素级突出图,并和对象级突出图融合获得显著图;最后,在OSIE和MIT数据集上验证了该方法,并与国际上流行的视觉注意方法进行对比,结果显示该算法在OSIE数据集上获得的AUC值相对更高。实验结果表明,所提方法能够更加充分地利用
2、图像中对象信息,提高显著性预测的准确率。 关键词:视觉注意;自顶向下;显著性;对象信息;卷积神经网 中图分类号:TP391.41 文献标志码:A 文章编号:1001-9081(2016)11-3217-05 0引言8 视觉注意机制的研究是探索人眼视觉感知的重要一环。在过去几十年中,如何用计算模型模拟人眼视觉注意过程一直是核心问题。尽管取得了很大的进步,但是快速准确地在自然场景中预测人眼视觉注意区域仍然具有很高的挑战性。显著性是视觉注意的一项重要研究内容,它反映了区域受关注的程度。本文的研究着眼于显著性计算模型,更多模型对比和模型分类可以参考B
3、orji等[1]的文章。视觉注意存在两种机制:自底向上(Bottom-up)和自顶向下(Top-down)。过去的研究中,大多数的计算模型是基于自底向上的信息,即直接从图像像素获取特征。 自底向上显著性计算模型开创性工作源自于文献[2]的Itti模型,该模型是很多其他模型的基础和对照基准,它通过整合多种低层次特征,如颜色、亮度、方向等,给出一个显著度的概率分布图。Harel等[3]在Itti模型的基础上引入图算法,通过计算节点间特征值相似性和空间位置距离进行差异性度量获取显著图。近年来随着深度学习技术在目标识别领域的成功应用[4],研究者们对特征学习产
4、生了更多的兴趣。Borji等[5]通过稀疏编码方法获取特征,使用图像块的稀疏表示结合局部和全局统计特性计算图像块的稀有性(rarity),稀有性反映了当前图像块中心位置的显著性。Vig等[6]通过训练多个神经网络获取层次特征,然后自动优化特征组合。特征提取的过程可以看作是一种隐式空间映射,在映射空间中使用简单的线性模型进行显著或非显著的分类。以上学习方法获得的特征都是一些低层次特征,对图像中的边缘和特定纹理结构敏感。此外,部分研究人员希望从数学统计和信号处理的角度来度量显著性。Bruce等[7]根据最大化信息采样的原则构建显著性模型。Li等[8]总结了多
5、种基于频域的视觉注意研究工作,提出了一种基于超复数傅里叶变换(HypercomplexFourierTransform)的视觉注意模型,并展示了其他多种基于频域的模型在某种程度上都是此模型的特例。8 以上模型均为数据驱动的显著性模型,模拟人眼视觉注意过程中自底向上的机制。由于人眼视觉注意过程中不可避免地受到知识、任务、经验、情感等因素的影响,因而整合自底向上和自顶向下信息的视觉注意研究受到更多的关注。现有模型整合的自顶向下信息可以分为三类:任务需求、场景上下文和对象特征。 Borji等[9]提出了一种构建任务驱动的视觉注意模型的联合贝叶斯方法。Zha
6、ng等[10]提出了一种使用贝叶斯框架整合自底向上和自顶向下显著性信息的方法。Siagian等[11]利用多种低层次特征对场景主旨进行建模,使用场景主旨引导视觉注意的转移。考虑到任务需求和场景上下文建模的复杂性,研究人员将对象特征视为一种高层次的知识表示形式引入视觉注意模型中。Judd等[12]和Zhao等[13]通过将低层次特征和对象特征整合在一个学习框架下来获得特征整合过程中每张特征图的叠加权重,但是模型使用的对象特征只有人脸、行人、车辆等有限的几种。Borji等[14]遵循了同样的方法,但是在整合过程中添加了更多特征并且结合了其他显著性模型的结果,
7、最后用回归、支撑向量机(SupportVectorMachine,SVM)、AdaBoost等多种机器学习算法结合眼动跟踪数据进行训练。实验结果表明对象特征引入较大地提高了模型性能。Xu等[15]将特征划分为像素级、对象级和语义级三个层次,并重点探索对象信息和语义属性对视觉注意的作用;然而,模型中的对象级和语义级特征是手工标定的,因而不是一种完全意义上的计算模型。8 总的来看,虽然部分模型已经使用对象特征作为自顶向下的引导信息,但是在对象特征的获取和整合上仍有很大的局限性。首先,对不包含特定对象的场景适应性较差;其次,对象特征描述困难,通常是通过特定目
8、标检测方法获取对象特征,计算效率低下;此外,对象特征的简单整合方式不符合人眼的视
此文档下载收益归作者所有