资源描述:
《基于弱监督的图像区域自动标注算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于弱监督的图像区域自动标注算法研究-->第一章绪论由于本文中标签预测和分析是以超像素为单位的,为了防止混淆,在本文中,我们称正在预测目标标签或者分析标签的超像素的为目标超像素,包含这个目标像素的图像为目标图像。由于在数据库中,我们只知道每个图像具有的图像层标签,但是不知道任何关于图像层标签的具体位置信息,所不能通过任何单独一图像得到具体的目标超像素的标签信息。所以为了给每个超像素分配一个正确的标签,需要使用上下文相关(context-related)的图像信息。我们称上下文相关图像(或像素)为那些具有和目标图像(或像素)具有相似
2、的视觉特征或者与目标图像(或像素)包含了至少一个公共的图像层标签。超像素的图像层标签为包含该超像素的图像所具有的图像层标签。上下文相关图像能够为目标像素的标签预测提供非常有价值的信息。一般而言,图像(或超像素)的上下文相关信息可以分为两类一一视觉上下文信息和语义上下文信息。若是图像(或超像素)之间含有相似的视觉内容,则称他们为视觉上下文相关,如果说图像(或超像素)之间含有至少一个公共的图像层标签,则称他们为语义上下文相关。传统的工作一般会同时考虑视觉相关性和语义相关性。它们假设视觉相关性和语义相关性在一定程度上是一致的。例如,目标
3、超像素的视觉恃征向量能够被那些来自语义上下文相关的图像中的超像素的特征向量稀疏重构。......第二章图像区域的获取和表示2.1图像区域获取当然,对于第四点一直有矛盾之处。由于SLIC是综合考虑颜色信息以及位置信息,所以势必会有两者权重,原论文中将权值设置为了预先定义值,这样只需要设置超像素个数或者超像素大小就可以。但是很多软件实现时将这个参数开放给用户,用户可自己设置权值来衡量颜色和位置的比重。大部分图像分割方式基于聚类方法,每个像素需要寻找最近的超像素中心,然后将该像素划为该类,类似于K-Means方法,不断迭代,直到每个超像
4、素的中心位置不再变化,这说明每个像素的归属超像素不再变化,分割终止。2.2图像区域的描述直方图,又叫做分布直方图,是数据在不同离散空间的概率分布。颜色分布直方图就是计算颜色数据在颜色的某些量化空间的分布。颜色直方图也是基于聚类的思想,先找出类的中心,或者一般习惯上叫做类的区间,然后对每个数据点进行判断,判断该点是位于哪个数据中心附近或者三哪个区间内,称为量化,最后得到位于该区间的所有的像素个数,然后进行归一化,得到像素在离散颜色空间的分布。颜色直方图的计算的具体步骤,首先是选择颜色直方图的类型,这里我们将颜色直方图分为了彩色直方图
5、和灰度直方图。由于一般图像是三通道的,所以灰度直方图首先要将三通道颜色数据转化为单通道的灰度图像数据,称为灰度化。从彩色图像到灰度图像有不同的转化方法.第三章弱监督困像区域标注相关方法......163.1常用符号....163.2弱监督中图像区域的协同标注....183.3基于图的标签传播方法....22第四章基于判别语义图方法....274.1判别语义图的构建....274.2判别式标签传播....3143标签推断分配....324.4本章小结....33第五章实验与分析....355.1数据集合实验设置....355.2评测
6、标准分析....365.3标注结果....365.4时间复杂度分析....375.5本章小结....38第五章实验与分祈5.1数据集合实验设置我们使用像素级别的标注可对最终结果的单一类别精度及平均类别精度进行评价。通过像素级别的标注可以得到图像级别的标注,并且我们假设只有图像级别的标注是在判别语义图的构建及标签传播过程是己知的。所有的图像都使用图像分割方法SLIC进行过分割来得到比较规则化的超像素。我们使用基于视觉词袋(bag-of-visual-SRC-21中的类别"grass"以及数据集PASCALVOC2007中的类别"ba
7、ckground"),严重影响了总的分类精度。关于每个类别的详细的超像素个数可以在图5-1中看到。从图中可以看出,类别"background"占据了大部分的空间。所以我们需要一个评测标准,能够准确反映每个类别的分类准确率,所以在我们的最终评价中,我们使用了单一类别准确率以及平均类别准确率,平均类别准确率作为描述图像区域标注的主要指标。平均类别准确率的计算,先对属于每一个类别的超像素,计算单一类别准确率,然后对所有单一类别准确率求均值。我们在表5-1以及表5-2中展示了我们方法在两个数据集上的表现,列出了单一类别准确率以及平均类别准
8、确率,与该领域的领先方法做对比。......第六章结论与展望在本文中,我们研究了基于弱监督的图像区域标注问题,在弱监督学习中,数据介于监督和非监督之间,每个实例有多个候选的标签,但是其中只有一个是正确标签,具有模糊性和不确定性。传统方法需要借助上下