欢迎来到天天文库
浏览记录
ID:5266499
大小:311.60 KB
页数:7页
时间:2017-12-07
《基于网页上下文分析的图片检索》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于网页上下文分析的图片检索刘金松于浩西野文人富士通研究开发中心,北京100016E-mail:jinsong日ffdc.fujitag.coin摘要:基于网页上下文分析的图片检索是指利用HTML文档源代码,通过分析文档结构自动获取图片的说明,并以此创建图片索引的一种图片检索方法.在本篇论文中我们提出了一种能更加有效的创建图片索引的新方法.本方法在传统的计算图片与文本的距离的方法的基础上提出了利用识别出的主要文本块和重复图片块来提高说明文字提取精度,将图片说明分为个别图片说明和公共图片说明。并识别图片与BTML文档标题之间的联系的新设想.经过试验验
2、证该方法能够显著提高系统性能,精度和召回率由原来的57%和90S,提高到86%和95%.关键词:图片检索,主要文本块,重复图片块,个别图片说明,公共图片说明,HTML标题Web—basedImageRetrievaIbyImageContextAnaIyzingLiUJinsong,YuHao,NishineFumihitoFujitsuR&DCenter,geljing100016E-mail:jinsongafrdc.fujitsuCOgtAbstract:Web—basedImageRetrievaIistoretrieveimagefrom
3、WWWbytextindexautomaticallYc011ectedbyImageCentextanalyzing.InthispaperweproposeanewmethodofextractingtheexplanatiOilofContentImageonwebpage.IncludingthetraditiooalmethodwhichrecogniZeStheexplanationofimagemainlybydistance,wetrytogettheexplanationbyrecognitionofMainTextB10ckan
4、dRepeatingImageBIock.WiththismethodwecannotonlYextractimage’SexplanationwithhigherpreciSion,buta1socanextracttheCommonExplanatiOffofimageandfindOUttherelationshipbetweenHTMLTitleandContentImage.BythismethodWeimprovethepreciSionfrom57%to86%andrecallfrom90%to95%.Keyword:Web—base
5、dImageRotrieval,ContentImage,MainTextBlock,RepeatingImageB10ck,IndiVidualExplanation,CommonExplanationExtraction,HTMLTitle.1简介随着网络技术的迅速发展,网上的图片信息越来越多。有大量的公司在网上发布各种版权图片如著名卡通形象,著名影星的照片等。但由于复制和发布非常容易,网上的盗版现象也越来越猖獗。这极大地损害了原创机构的利益,为了打击此类违法行为,维护公司的正当权益,强烈需要能够迅速追踪发现此类违法行为的软件工具。基于这样的应
6、用背景我们开发完成了“非法图片检索系统”用于搜索网上的非法图片。它的核心技术是图片检索。自从上世纪70年代以来,图片检索一直是广大学者研究的热点。该领域技术发展经历了两个阶段,早期以AnnaBjarnestan为代表,通过人工为图片添加标注,然后以这些标注为索引来进行图片检索[1】。但是,对图片进行人工标注需要消耗大量的人力物力,成本太高,而且不同的人对同一张图片会有不同的理解,标注的结果很难统一,导致检索精度较低。同时随着网络的迅猛发展,图片数量的急剧上升,人工标注方法已逐渐被淘汰。取而代之的是上世纪90年代兴起的基于图片内容的检索。该方法根据图
7、片自身的属性包括颜色、纹理、形状等特征来检索图片[2】。该方法主要优点在于可以自动创建图片索引,节省了人工标注的时间和成本,取得了很大的成功。但它也同样存在着检索精度低的致命弱点。综合以上对图片检索技术的描述可以发现它们的共同缺点是没有充分利用网络技术迅速发展所带来的便利。事实上,网页中存在很多与图片相关的有用信息。网页图片随机调查[3】发现网页中93%的图片有一个以上的说明,仅有7%的图片没有对应的说明性文字。因此,近来越来越多的学者开始关注基于网页的图片检索。他们利用网页中的各种信息如HTML文档标题、图片的文件名、URL地址、别名、链接[4、
8、5、6J,并综合图片颜色、纹理、形状信息【7、8、9】来进行网页图片检索。这些尝试取得了很好的成果,很多商业图片检索系统也
此文档下载收益归作者所有