基于图学习的自动图像标注

基于图学习的自动图像标注

ID:33478776

大小:954.40 KB

页数:11页

时间:2019-02-26

基于图学习的自动图像标注_第1页
基于图学习的自动图像标注_第2页
基于图学习的自动图像标注_第3页
基于图学习的自动图像标注_第4页
基于图学习的自动图像标注_第5页
资源描述:

《基于图学习的自动图像标注》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第31卷第9期计算机学报Vol.31No.92008年9月CHINESEJOURNALOFCOMPUTERSSept.2008基于图学习的自动图像标注卢汉清刘静(中国科学院自动化研究所北京100190)摘要自动图像标注是图像检索任务中重要而具有挑战性的工作.文中首先讨论并解释了自动图像标注问题,通过总结现有的研究工作,提出了一种基于图学习的图像标注框架.在该框架下,图像标注被分为两个阶段来完成,即基本图像标注与图像标注改善.其中,前者是通过以图像间相似性为依据的图学习过程来提供图像的初始标注,而后者是通过

2、以词汇间语义相关性为依据的图学习过程来改善前者取得的标注结果.该框架主要涉及到图像与文本词汇两种媒体的内部和相互之间的各种关系的估计问题.基于此,作者又给出了针对上述各子问题的改进方法,并将它们综合起来实现了有效的图像标注.最后,通过Corel图像集与网络数据集上一系列实验结果,验证了该模型框架及所提出解决方案的有效性.关键词图像标注;图学习;图像相似性;词义相关性中图法分类号TP391ImageAnnotationBasedonGraphLearningLUHan2QingLIUJing(Institu

3、teofAutomation,ChineseAcademyofSciences,Beijing100190)AbstractImageannotationisanimportantandchallengingtaskinimageretrieval.Thispaperdiscussestheannotationprocesstheoreticallybyreviewingsomerelatedwork,andproposesaunifiedannotationframeworkviagraphlearni

4、ng.Theframeworkincludestwosub2processes,i.e.,basicimageannotationandannotationrefinement.Inthebasicannotationprocess,theim2age2basedgraphlearningisutilizedtoobtainthecandidateannotations.Intheannotationrefine2mentprocess,theword2basedgraphlearningisusedto

5、refinethosecandidateannotationsfromthepriorprocess.Thispaperalsoproposessomeimprovementsonsub2problemsinvolvedintheframeworkandexpecttheircombinationtoenhancetheoverallperformance.Finally,experi2mentsconductedontheCoreldatasetandWebimagedatasetdemonstrate

6、theeffectivenessoftheunifiedframeworkandtheproposedimprovements.Keywordsimageannotation;graphlearning;imagesimilarity;wordcorrelation术应运而生,并且受到了广泛关注.1引言现有的图像检索方式主要分为两种:基于内容的图像检索(Content2BasedImageRetrieval,CBIR)和随着数字影像技术与互联网技术的迅速发展,基于文本的图像检索(Text2BasedIma

7、geRetrieval,用户可以轻松地获取大量网络图像.为了有效地组TBIR).通常,CBIR要求用户提交一幅图像或简图织、查询与浏览如此大规模的图像资源,图像检索技作为查询,采用图像的视觉特征(如颜色、纹理和形收稿日期:2008207211.本课题得到国家自然科学基金(60723005)、国家“八六三”高技术研究发展计划项目基金(2006AA01Z315)资助.卢汉清,男,1961年生,博士,研究员,博士生导师,主要研究领域为多媒体信息的分析与理解、医学信息处理、模式识别和计算机视觉.刘静,女,1979

8、年生,博士研究生,助理研究员,主要研究方向为多媒体信息的内容分析与检索、模式识别与机器学习方面的理论研究.1630计算机学报2008年状等)建立索引,然后根据图像与查询间的视觉相似性度量来实现检索.由于底层视觉特征与高层语义2框架的提出与分析概念之间“语义鸿沟(semanticgap)”的存在,CRIR的检索性能难以令人满意.而对TBIR来说,它要求2.1图像标注问题的分析用户提交文本作为查询,对图像需要事先建立文本图像标注的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。