图像语义理解的关键技术研究

图像语义理解的关键技术研究

ID:35054117

大小:6.57 MB

页数:147页

时间:2019-03-17

图像语义理解的关键技术研究_第1页
图像语义理解的关键技术研究_第2页
图像语义理解的关键技术研究_第3页
图像语义理解的关键技术研究_第4页
图像语义理解的关键技术研究_第5页
资源描述:

《图像语义理解的关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、太原理工大学博士研究生学位论文图像语义理解的关键技术研究摘要人类视觉系统感知和识别图像的过程是一个从形象到抽象的过程,而且在该过程中加入了丰富的先验知识作为指导。与此对应地,图像理解研究可以分成底层、中层和高层三个层次。针对图像理解的三个层次中面临的主要技术挑战,本文重点研究三个关键技术:图像视觉特征的有效表述、图像多区域的合理分割、以及图像语义标注中上下文信息的扩大化。在每个关键技术的研究中,本文分别提出了新的数学模型与表达形式,设计了新的算法并得以应用。具体而言,本文的研究内容归纳如下:(1)针对视觉特征的有效表述问题,利用模糊逻辑推理的原理与结构

2、提取颜色视觉特征,提出一种结合视觉感知的空间模糊链接颜色直方图(SpatialFuzzyLinkingHistogram,SFLCH)。SFLCH考虑了不同种颜色特征之间的相似性和同种颜色特征之间的差异性,并记录了图像不同区域内像素的颜色分布信息,具有较好的图像内容表述能力,以及操作简单、容易实现等优点。此外,还定义了“颜色复杂度”概念来描述图像局部区域内像素颜色的变化程度,将人类视觉感知作用融入到计算机对图像的分类与识别的过程中,构造了基于颜色复杂度的加权相似度测量机制,进一步提高了视觉特征的表述能力,取得了良好的图像分类效果。(2)针对使用FCM算

3、法进行图像分割时存在对初始条件和噪声敏感的问题,提出了一种基于区域显著色初始策略的聚类分割算法。利用彩色图像的颜色信息作为确定聚类初始条件的依据,通过相邻像素颜色差异度I太原理工大学博士研究生学位论文的约束,限制了噪声对判定显著色的干扰,增强了该方法的准确性,克服了FCM算法对聚类初始条件和噪声的敏感性。通过在简单的颜色数据集合中寻找显著色的实验,结果表明区域显著色初始策略确定的区域代表颜色与实际视觉效果一致,初始聚类中心分别包含在各个区域内,具有较好的代表性。并且定义了模糊因子,将像素的邻域空间关系融入到聚类过程中,由于模糊因子是一个随着像素空间位置

4、的不同而发生变化的变量,使得空间信息的融合方式具有自适应性,提高了算法的鲁棒性,获得了较高的分割精度。(3)为了进一步提高分割区域的稳定性,并实现图像的自动分割,提出了一种无监督图割算法。通过图像数据向高维特征空间的映射,扩展了分段常数模型的实际使用范围,实现了复杂图像数据的线性可分,不仅提高了图像区域的分割效果,还降低了计算量。同时,在平滑项中增加了边缘梯度信息,提高了边缘的划分精度,减少了过分割的出现,并且采用多标签交换算法,通过迭代逼近能量函数最小值的方法,解决了包含多类标签的能量函数优化问题,得到图像所有像素的区域标签的最优分配结果。这种图像分

5、割方法具有较好的多区域分割效果,符合人类视觉感知图像的要求,并且无需预先设定区域标签类别的种子点像素,实现了计算机对图像进行多区域的自动分割,取得了以语义理解为前提的图像多区域分割的理想效果。(4)针对单独标注像素会引起语义标注结果不一致的问题,充分利用像素之间存在的上下文信息,提出了一种融合多粒度上下文的条件随机场模型(Multi-granularContextConditionalRandomField,MGCCRF)。通过II太原理工大学博士研究生学位论文构造多粒度邻域集合,获得了不同粒度的上下文窗口,为像素标注提供不同尺度的上下文信息。在像素级

6、图像语义标注的过程中,细粒度上下文信息通过描述近距离的邻域位置之间的局部相互作用,用来保持目标的精确边界,生成连续的目标表面;而粗粒度上下文信息则用来描述语义类别之间的空间共生关系,目的是提高图像中目标的识别率。该语义标注模型既表征了语义标签在局部区域内具有的传递特性,同时还融入了图像中蕴含的语义类别的共生关系,使得标注模型融合了丰富的图像信息,具有较高的图像标注精确度。在模型训练过程中采用分支定界参数优化算法与并行式分段相结合的训练方法,提高了模型的训练效率。本文的创新性成果总结如下:(1)提出了SFLCH,将颜色特征的模糊表征与空间分布信息相结合,

7、并构建了基于颜色复杂度的相似度量机制,提高了视觉特征的表述能力。(2)提出了基于区域显著色初始策略的空间FCM算法,改进了聚类分割算法的初始化操作,算法抑制了噪声对判定显著色的干扰,融入了具有自适应性的空间信息,提高了图像分割的准确率。(3)提出了无监督图割方法,该方法采用核函数对数据项进行隐性的非线性映射,在平滑项中融入了边缘梯度约束,既提高了复杂区域的分割效果,又减少了过分割现象。同时,采用无监督方法设置初始参数,避免了交互操作,实现了图像的自动分割。(4)提出了MGCCRF,利用粒计算的粒化思想,扩大了像素标注模型中的上下文信息获取范围,提高了像

8、素标注的准确率和目标识别率。这一方法已申报国家发明专利“融合多粒度上下文的图像像素语义标注方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。