基于内容与情感语义图像检索系统的设计与实现.pdf

基于内容与情感语义图像检索系统的设计与实现.pdf

ID:34543518

大小:1.24 MB

页数:86页

时间:2019-03-07

上传者:文档小小白
基于内容与情感语义图像检索系统的设计与实现.pdf_第1页
基于内容与情感语义图像检索系统的设计与实现.pdf_第2页
基于内容与情感语义图像检索系统的设计与实现.pdf_第3页
基于内容与情感语义图像检索系统的设计与实现.pdf_第4页
基于内容与情感语义图像检索系统的设计与实现.pdf_第5页
资源描述:

《基于内容与情感语义图像检索系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

论文题目基于内容与情感语义图像检索系统的设计与实现工程领域软件工程指导教师何国良副教授作者姓名韦海珊学号201091100311万方数据 分类号密级注1UDC学位论文基于内容与情感语义图像检索系统的设计与实现(题名和副题名)韦海珊(作者姓名)指导教师姓名何国良副教授电子科技大学成都李天万高工华北计算技术研究所北京(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2012-04论文答辩日期2012-06学位授予单位和日期电子科技大学答辩委员会主席评阅人2012年月日注1:注明《国际十进分类法UDC》的类号万方数据 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据 摘要摘要人类获取信息的感官中,视觉感官处于首要地位。人类视觉信息的80%来源于图像。在计算机与网络技术迅猛发展的二十一世纪,图像的存储与检索处理已成为目前占据人们工作与生活重要地位的应用技术之一。现今已有的基于文本的图像检索系统由于手工标注等落后的技术因素影响已远远无法满足人们对图像的检索要求。而基于内容的图像检索技术则是一种刚刚兴起的热门技术,其基于图像底层特征的提取、比对,获取相似性匹配率最高的图像序列作为输出结果的检索手段,极大地弥补了基于文本手工标注带来的不足,提高了对图像的检索精度与速度。但基于内容的图像检索由于忽略了人们观看图像时的主观感受以及图像中本身蕴含的大量情感语义因而造成巨大的“语义鸿沟”,造成检索精度与准确率都受到影响。如何缩小这些“语义鸿沟”,实现人机智能对话,实现用户和多媒体信息之间的无缝对接,是近年来无数学者为之致力的一个热点。其中,在基于内容的图像检索系统中增添缺失的情感语义识别模块,使图像底层特征与高层情感语义完美结合不失为一种减小“语义鸿沟”的有效方法。基于内容与情感语义图像检索系统的研究正是基于此的一个新的尝试与探索点。众多学者对此进行了大量的研究与实验,得到许多独特的见解与极其宝贵的实验数据。但迄今为止,基于内容与情感语义的图像检索技术尚未形成系统的研究,真正投入到应用中也还需要更多的理论研究与实验数据的支持。作者用“缺什么补什么”的观点来提出在基于内容图像检索系统中添加情感语义识别模块,比较独到新颖,且通俗形象。围绕观点展开论述“如何补”的问题,即如何补偿基于内容图像检索系统情感缺失造成的检索偏差,真正减小由此产生的“语义鸿沟”。首先比较全面地分析了基于内容图像检索系统的检索原理与图像底层特征提取技术,重点介绍了颜色、纹理与形状特征提取的主流算法。融进了图像的高层情感语义识别模块,尝试提出基于内容与情感语义的图像检索系统的构建框架,依托框架详细分析介绍情感、情感计算、情感建模到情感空间的建立。从标准的高度创新性地提出了应建立图像底层特征与高层情感语义之间的对应关系,进而建立情感语义识别机制。并从梳理众多的图像底层特征与情感语义的映射方法中发现了LFCM-SVM是最适宜的映射方法。最后依托Matlab平台,I万方数据 摘要展开了行之有效的实验,得到较为满意的实验结果,获取了一定的实验数据。为减小“语义鸿沟”做出有意义的尝试。关键词:图像检索,特征提取,情感语义,情感空间,映射,标准II万方数据 ABSTRACTABSTRACTVisualsensesplayanimportantroleintheprocessofhumanobtaininginformationand80%human′svisualsensoryinformationcomefromimage.Nowadays,withtherapiddevelopmentofcomputerscienceandtechnology,theimagestorageandretrievaldominatepeople′sdailylife.however,theexistingtext-basedimageretrievalsystemcan′tmeetpeople′srequirementduetothebackwardtechnologybymanualmapping.Thecontent-basedimageretrievaltechnology,anewlyemergingtechnology,however,hasgreatlyenhancedtheaccuracyandspeedofimageretrievalbymakingupthedeficienciesresultedfrommanualmapping,whichischaracteredbytheabstractionofthehighestsimilaritymatchesofimagesequence.Nevertheless,neglectofpeople′ssubjectivitywhenlookingattheimagewhichisofrichsemanticmeaningcallsedbythecontentbasedimageretrievalwillresultintheinaccuracyandincorrectnessfeaturedby“semanticgap”.Inrecentyears,manyscholarshavedevotedtorealizethepeopletomachineintellectualdialogueandtheseamlessdockingbetweencustomersandmulti-mediabynarrowingthe“semanticgap”.Oneeffectivemethodistoaddarecognitionmoduletothevacantemotionalsematicinthecontent-basedimageretrievalsystem,makingthebottomlayerimagefeatureintegratedwiththehighlayeremotionalsematics.Manyscholarshavemaderesearchandexperimentinthisnewareabystudyingthecontentandemotionalsematicsimageretrievalsystemandtheyhavegotmanyuniqueperspectiveandvaluableexperiment.however,thecontentandemotionalsemanticbasedimageretrievaltechnologyhavetobesystematizedandmoretheoreticalresearchandexperimentaldataareneededwhentheyarereallyputintopractice.Basedontheconceptof“tomakeupwhichisvacant”,theauthorofthethesisrendersainnovativebutsimpleviewpointfeaturedbyaddingemotionalsematicsrecognitionmoduleinthecontent-basedimageretrievalsystem.focusingontheproblemof“howtomakeupvacant”,thethesisaimstofindawaytoreducethe“semanticgap”bycompensatingtheretivaldeviationcausedbythecontent-basedimageretrievalsystem.First,theauthorofthethesishasgivenacomprehensiveanalysisIII万方数据 ABSTRACTofprincipleofthecontent-basedimageretrievalsystemandthebottomlayerfeatureabstractionskill,withthecentersonthemainalgorithmoftheabstractionofcolour,textureandshape.thepeopleisalsowellstructuredbymanagingtoofferaframeworkforthecontentandemotionalsemanticbasedimageretrievalsystemthroughtheintegrationofthehigherlevalemotionalsemanticrecognitionmodule;and,bydintoftheframework,thepaperelaboratestheestablishmentoftheemotiom,thealgorithmofemotiom,emotiomalmoduleaswellasemotiomalspace.Furthermore,theestablishmentofthecorrespondencerelationshipofthebottomimagefeatureandthehigheremotionalsemantichavebeenputforwardinastandardhighlevaltoentrenchtheemotionalsemanticrecognitionmechanism.LFCM-SVMisfoundtobethebestreflectionmethodthroughtheclarificationofvariousreflectionmethodofthebottomimagefeaturesandtheemotionalsemantic.Last,bothasatisfactoryresultisacquiredbytheeffectiveexperimentandsomeexperimentdatasareobtainedbydependingontheMatlabplatform,whichhasmadeameaningfulattempttothereductionof“semanticgap”.Keywords:imageretrival,featureabstraction,emotionalsemantics,emotionalspace,reflection,standardIV万方数据 目录目录第一章绪论........................................................................................................................................11.1引言.......................................................................................................................................11.2选题背景与意义....................................................................................................................11.3国内外研究的现状和趋势....................................................................................................41.4论文内容与结构.....................................................................................................................6第二章基于内容图像检索系统.........................................................................................................82.1基于内容图像检索原理........................................................................................................82.2图像底层特征提取算法.......................................................................................................102.2.1颜色特征提取算法....................................................................................................102.2.1.1颜色空间........................................................................................................112.2.1.2颜色直方图....................................................................................................122.2.1.3颜色矩.............................................................................................................132.2.1.4颜色集.............................................................................................................142.2.1.5颜色聚合向量.................................................................................................152.2.1.6颜色相关图.....................................................................................................152.2.2形状特征提取算法....................................................................................................152.2.2.1傅立叶描述子.................................................................................................152.2.2.2小波轮廓表示法.............................................................................................162.2.2.3边缘方向直方图.............................................................................................162.2.2.4不变矩法.........................................................................................................172.2.3纹理特征提取算法....................................................................................................182.2.3.1基于统计的方法.............................................................................................182.2.3.2基于结构的方法.............................................................................................192.2.3.3基于频谱的方法.............................................................................................202.2.3.4.基于模型的方法.............................................................................................212.3相似性匹配.........................................................................................................................212.3.1欧拉距离(Minkowsky)...........................................................................................222.3.2直方图相交法.........................................................................................................22V万方数据 目录2.3.3二次式距离...............................................................................................................232.3.4马氏距离(Mahalanobis).......................................................................................232.4相关反馈.............................................................................................................................232.5本章小结.............................................................................................................................24第三章基于内容与情感语义的图像检索系统构建.......................................................................253.1基于内容与情感语义图像检索系统设计思想..................................................................253.1.1用户需求分析............................................................................................................253.1.2设计思想....................................................................................................................263.2基于内容与情感语义图像检索系统结构图......................................................................273.3基于内容与情感语义图像检索系统建构原理..................................................................283.4本章小结.............................................................................................................................28第四章情感空间............................................................................................................................294.1情感概述..............................................................................................................................294.2情感计算.............................................................................................................................304.3情感建模..............................................................................................................................304.4情感空间..............................................................................................................................314.5情感空间的建立..................................................................................................................314.5.1选择情感形容词.......................................................................................................324.5.2量化分析...................................................................................................................334.5.3建立情感语义库.......................................................................................................354.5.4建立情感空间...........................................................................................................354.6本章小结.............................................................................................................................36第五章情感语义与图像底层特征对应标准...................................................................................375.1图像底层特征与情感的关系..............................................................................................385.1.1颜色与情感的关系...................................................................................................385.1.1.1颜色对情感的影响.........................................................................................395.1.1.2颜色与情感关系的研究................................................................................405.1.1.3颜色与情感的对应关系................................................................................415.1.1.4颜色的搭配对情感的影响............................................................................415.1.2形状特征与情感的关系...........................................................................................425.1.2.1概述................................................................................................................425.1.2.2形状与情感关系的研究................................................................................43VI万方数据 目录5.1.3纹理特征与情感的关系...........................................................................................445.1.3.1概述................................................................................................................445.1.3.2纹理与情感关系的研究................................................................................445.2图像底层特征到情感语义的映射分析..............................................................................455.2.1概述..........................................................................................................................455.2.2支持向量机算法分析...............................................................................................465.2.3LFCM-SVM映射方法...........................................................................................465.2.3.1LFCM-SVM的核心算法............................................................................475.2.3.2LFCM-SVM算法实现的步骤....................................................................485.3图像底层特征与情感语义映射实现...................................................................................495.3.1图像语义映射基本流程...........................................................................................495.3.2图像底层特征与情感语义映射的实验...................................................................505.4本章小结.............................................................................................................................57第六章总结与展望..........................................................................................................................58致谢................................................................................................................................................60参考文献............................................................................................................................................61附录................................................................................................................................................65攻硕期间研究成果............................................................................................................................74VII万方数据 第一章绪论第一章绪论1.1引言人类获取信息的感官中,视觉感官处于首要地位。而视觉所看世界万物,无一不是由一幅幅图像构成的。人脑潜能开发专家在婴幼儿潜能开发中提出对婴幼儿进行右脑潜能开发,其理论依据是人类右脑对图像的记忆与检索速度要比左脑对文字数据的记忆与检索速度快上百倍,足见图像信息的获取与检索在人类的信息资源中所占地位之重。21世纪是信息爆炸的世纪。计算机技术与网络技术的极速发展,使得海量的图像信息占据了多媒体存储与传输的半壁江山。人们对图像检索的方法与要求提升到一个全新的层次。正是这种需求推动了图像在网络上的传输与检索技术的研究与发展。基于文本与内容图像检索技术支持人们根据关键字或图片样例快速获取一幅“需求”图像。但由于人们对图像理解的主观性以及图像所蕴含的丰富情感语义,使得用户与计算机之间出现较大的“语义鸿沟”。如何缩小这些“语义鸿沟”,实现人机智能对话,实现用户和多媒体信息之间的无缝对接,是最近几年的一个研究热点。国内外许多学者进行了广泛的研究与实验,得出许多独到的见解与极其宝贵的实验数据。但迄今为止,基于内容与情感语义的图像检索技术尚未形成系统的研究,真正投入到应用中也还需要更多的理论研究与实验数据的支持。1.2选题背景与意义图像检索的历史从20世纪70年代末得到了改写。20世纪70年代以前,人们检索图像主要依靠文献,十分不便。20世纪70年代末,随着计算机与数据库技术的发展,人们进入数字图像检索时代。数字图像检索技术由基于文本的图像检索技术始源,发展到今天的基于内容的图像检索技术,大大的满足了人们对于图像的检索需求。其发展速度,不能不谓之为快。尤其是科学技术高速发展的21世纪,更是信息爆炸的世纪。计算机技术与网络技术的极速发展,使得世界发生了翻天1万方数据 电子科技大学硕士学位论文覆地的变化。网络像蜘蛛网一样,遍布世界的每一个角落;数据像流水一样,日夜不停地流淌,永不干涸。人们学习、工作、生活、休闲、娱乐、购物的方式,无一不受颠覆性的冲击。在这样的大背景下,人们对于信息的获取由过去传统媒体的依赖,迅速转移到以信息技术为核心的网络依赖已凸显无遗。大型数据库技术与磁盘存储技术的进一步发展,支持多媒体信息在网络上高速传输已经不是科幻小说里描述的景象,而成为一种真实而现实的境况,图像成为网络传输中较音、视频之后第三大的数据元。之前由于带宽瓶颈技术影响了其网络传输的速度,如今,带宽的瓶颈技术已经得到完美的解决,图像数据以前所未有的畅快速度遨游于网际之间。人们通过网络获取一幅相关图像有时甚至是零点零几秒的时间。比起到图书馆或其他场所,利用其他技术与手段获取图像的速度相比,具有天壤之别。通过网络对图像进行检索已经是人们获取图像资源的最普遍的手段,甚至成为一种习惯,就像写字用笔一样。基于文本的图像检索技术(Text-basedImageRetrieval,TBIR)采用图像的文本特征(如文件名,标题、关键词等)来注解和检索图像数据库,简单、清楚,同时有成熟的数据库理论和应用系统支持,使用快捷方便。但其文本特征需要通过人工标注获取,这就造成了以下四个方面明显的不足:①工作量大,耗时费力;②主观性强,注释会因人的感受差异而出现偏差;③能力所限,人工注释所用的关键词不能完全描述图像的内容;④工作滞后,无法满足实时处理要求。尤其是随着海量硬盘的出现,复杂数据库的实现,这些不足变得越发尖锐,说明这种检索技术已经远远无法满足用户的检索需求。[1]基于内容的图像检索技术(Content-basedimageretrieval,CBIR)则利用图像本身包含的客观视觉元素来表示图像内容,依托图像的颜色、纹理、形状等底层特征来建立图像相似性的度量,从而完成图像的匹配和检索,其最大的优点是图像特征的提取和索引的建立可由计算机自动完成。如此一来,则避免了基于文本图像检索中的文本特征必须由人工注释所产生的主观性及其它不足,实现了数据库对图像管理的方便性和快捷性,是一种查准率与查全率都较高的检索技术。但其依然存在一些不足。首先,CBIR检索需求描述与人们情感期望不符。用户对图像的检索需求是建立在图像所描述的对象、事件以及表达的情感等含义之上的,是基于图像高层语义而不是图像底层视觉特征的。其次,CBIR检索结果与人们情感期望不符。人们对检索出来的结果图像是否与需要相符的判断标准,通常是带有主观性的,情感性的,是高层次的,符合感知心理的,而并非完全建立在低层的图像视觉特征的相似性上。2万方数据 第一章绪论人在观看图像的时候,注意力并不在图像的直观信息上,例如图像大小、纹理规格等,而是从图像语义信息层次上进行主观的理解和感受。理想情况下,用户希望可以在颜色、纹理、形状等特征基础上结合图像的情感语义,来寻找更准确更满意的图像,这种要求在电子购物中尤其突出。例如有用户要求检索,“浪漫的裙装”或“带甜味的食品”等的图像。这些定语就可以理解为图像的情感语义。已有研究表明,图像具有激发人类情感的功能,图像不同,激发的情感也不同。总之,无论是基于文本的图像检索还是基于内容的图像检索,均忽略了人们在图像获取过程中的情感需要,造成需求缺失,从而不可避免地产生“语义鸿沟”。如何减小这种由于忽略用户情感需求而造成的“语义鸿沟”,提高机器对图像的识别能力?在基于内容的图像检索技术中增加图像的情感识别模块无疑是最直接最快捷的补充,所谓“缺什么补什么”。使用现代技术与数学模型,有效地将人对图像的情感感受进行表达和描述,建立情感空间及图像底层特征与情感语义的对应映射关系,使得内容与情感有机结合,是现阶段对图像检索技术研究中的一种重要尝试与探索。增加情感语义识别模块,首先必须具备情感语义描述功能,机器要能识别图像的情感语义,必须能从情感语义库中习得情感语义描述关键字,接着能从一个图像底层特征与情感语义描述建立起对应的关系。其涉及到认知科学、心理学、生理学、模式识别、人工智能、计算机科学等多学科的交叉研究,是一个崭新的而且有很大挑战性的前沿课题,目前国内外的研究还处于刚刚起步的阶段。研究表明,用户情感语义描述、多特征提取、情感识别成为情感语义检索领域最核心的问题。有研究者相继提出了基于情感语义的图像检索系统模型以及情感计算研究,情感信息的数字化处理方法等。针对图像底层特征无法完整描述图像内容,造成图像情感语义缺失的问题,目前图像检索系统普遍忽略用户情感因素的问题,本文在总结众多国内外专家学者研究精华的基础上构造了由图像的颜色、纹理、形状等底层特征与情感对应标准,形成新的附加情感语义的特征向量,作为系统进行特征匹配的新向量,并在此基础上提出了基于内容与情感检索系统的设计框架与实现思路,着重说明本系统中的几个关键问题并提供一定的实验数据。以期创建一种能够理解图像中蕴含着的丰富情感语义的检索机制,旨在抛出砖去,引得玉来。3万方数据 电子科技大学硕士学位论文1.3国内外研究的现状和趋势基于内容的图像检索技术在20世纪90年代得到迅猛发展,尤其是近十年更是掀起一股研究热潮,且取得不少成果。这些成果从技术上的各种检索方法到学术上的专业期刊交流平台,层出不穷,应有尽有。曾有人使用关键词“ContentBasedImageRetrieval”在谷歌检索,统计得出了近10年间国内外基于内容的图像检索研究论文与期刊逐年递增的倍数,次年起码是前年的1.078倍,最高是2.45倍的数[2]据,这从一个侧面反映了基于内容的图像检索技术的发展速度。专家对其在应用上的研究所取得的成效也是令人瞩目,在因特网上已有许多基于内容的图像检索原型系统。最具代表性的有IBM的QBIC系统、ColombiaU的VisualSEEK系统[3]和MIT的Photobook系统。基于内容的图像检索技术有着广阔的应用前景,涉及电子商务、电子图书馆、商标管理、医疗图像管理、卫星图像管理等多个领域。但其基于样例的图像可视化视觉特征抽取的方法仅停留在关注图像物理特征的低层次表示中,对图像可能引起的人们的情感反应以及图像本身的高层情感语义予以忽略,造成检索的“空洞”,从而影响了检索的精确度。基于情感语义的图像检索相关研究目前则还处于刚刚起步的阶段。学者们在重新审视人类在观察图像时的一些情绪反应的基础上,整理出图像的高层情感语义是提高计算机检索图像精确度不可或缺的关键点。为此,基于情感语义的图像检索机制的研究成为近年图像的检索技术研究的又一关注点与热点,其中大部分的前沿研究集中在日本韩国和欧美部分国家。日本在人工情感技术的研究与应用方面均处于世界领先水平是得到学术界公认的,其典型代表是SONY公司生产的[4]具有情感识别的第四代AIBO机器狗和QRIO型及SDR-4X型情感机器人;其次是韩国和欧美部分国家。我们国内则以余英林、王上飞、陈俊杰、李海芳等为代表的个别学者也进行了相关研究,并发表了一些重要的学术论文。从一定程度上代表了我国在图像情感语义分析方面的理论研究水平。而国防科技大学的基于内容的交互式感情图像检索系统,中国科学院软件所正在研究的智能用户界面以及浙江大学的E-Teatrix系统等则是我国在应用方面的杰出代表。为方便更好地说明国内外进行基于情感语义图像检索系统理论研究与应用开发的领军人物及现有状况,特列表如下:4万方数据 第一章绪论表1-1基于情感语义图像检索系统理论研究代表人物研究成果Nilgun等主要研究人类对不同亮度与饱和度颜色的喜好度。提出基于自适应模糊系统和神经网络系统的彩色图案感Jinsub[5]情评估模型。以伊顿色彩球模型为理论基础,从冷暖性、和谐度和对比Colombo等度三方面考察图像颜色特征s与情感特征的关系;根据人国类认知规则,提出一种新的图像和视频高层语义描述思路外TakashiHayashi研究人们对自然风景图片的直观感受,使用表示天气和季研与Masafumi节的词汇来检索自然风景图片究Hagiwara现提出使用颜色和纹理特征结合的特征提取方法作为关键状HunwooYoo技术,建立一种通用的基于情感的图像检索框架。将图像知识作用域分为狭义域与广义域,并定义了知识来Amoid等源构建了基于情绪心理学的结合情感、心情和性格映射的多Yang等层情感模型,采用表情合成验证其有效性。利用图像几何特征、灰度直方图、频带变化、图像理解的余英林、王伟凝变化等作为确定图像情感的向量,给出一种图像感知信息等的统计方法;利用线条方向直方图对图像进行动感与静感分类。王上飞、王煦法用小波系数法对图像进行情感分类;以心理学中的“维量”等为理论依据建立情感模型,实现图像感性注释与检索提出情感语义检索系统的总体结构并提出关键问题的解李海芳、陈俊杰决算法;对图像语义分析技术进行深入研究,总结出图像国等语义从提取到分类到映射的主要算法内依据1/f波动理论,用图像的功率频谱特征分析图像特征研毛峡等与情感特征的关系。究鲁东明等针对敦煌壁画艺术,提出风格语义特征处理方式。通过建现立系列语义特征到形象特征的转换算法来分析具体壁画状对应的风格等高层特征,并提出通用的壁画查询语言和实现算法钟生海等通过对潜在用户情感分析提出基于情感语义的个性推荐系统,应用于电子商务王玉洁等根据隐马尔可夫模型HMM的基本理论和算法设计了一个由高兴、平静、愤怒三种心理情绪状态组成的情感模型胡博超构建了一个人工情感系统,在此系统中以Breazeal理论为依据建立情感空间,并首次在情感空间中引入粒子系统5万方数据 电子科技大学硕士学位论文表1-2基于情感语义图像检索的应用开发现状国内/外代表人物(公司或单位)研究成果日本HumanMedia实验室ARTMUSEUM系统Nadia等K—DIMEi系统国外TakashiHayashi与MasafumiIQI系统HagiwaraChile大学TEXRET系统国防科技大学基于内容的交互式感情图像检索系统中国科学院软件所智能用户界面国内浙江大学E-Teatrix系统中国科学技术大学计算机系情感信息捕捉系统这些研究成果充分说明,基于内容与情感语义的图像检索技术是图像检索技术的新走向与新趋势。1.4论文内容与结构本文在汲取众多学者研究精华的基础上,尝试提出一个较系统的基于内容与情感语义的图像检索系统的设计方案,探讨其中的几个关键问题,并在Matlab平台上编程实验,获取相关实验数据。具体内容安排如下:第1章具体阐述论文的研究背景与研究趋势及研究意义等。第2章借助已有的基于内容图像检索系统,分析基于内容图像检索系统对图像的检索原理与图像底层特征提取技术与算法。第3章从人们获取一幅图像的需求出发,分析用户对图像获取的方式方法,以及希望使用的图像描述语言,根据人们对图像理解的情感需要,提出图像的情感语义描述需求,从而提出基于内容与情感语义图像检索系统的架构设想与检索流程描述。并指出本系统实现的关键点为图像底层特征的抽取、情感语义库的建立以及图像底层特征与情感语义关系标准的建立。第4章的内容安排是分析情感与情感空间、情感模型、情感计算等的关系,论述建立情感语义库对基于内容与情感语义图像检索系统的重要性。最后通过问卷调查实验与SD分析法结合,构建情感空间。第5章内容为在继承众多学者对情感研究成果的基础上,提出图像的情感分类及图像底层特征与情感的关联。从人类认知心理学角度出发,分析人类对图像情感理解及图像特征与情感的关系,对应机器对图像的情感理解的映射关系,并6万方数据 第一章绪论依此建立起图像底层特征与情感语义对应标准。最后,依托Matlab平台进行相关实验,获取相关实验数据作为实验结果,并对之进行分析。第6章对本文工作进行总结并提出今后的发展方向。7万方数据 电子科技大学硕士学位论文第二章基于内容图像检索系统基于内容的图像检索技术其核心是使用图像的可视化底层物理特征对图像进行检索。从本质上讲,它是一种近似匹配技术,融合了计算机视觉、图像处理、图像理解和数据库等多个领域的技术成果。近几年,CBIR得到长足的发展,已取[6]得相对成熟的研究成果,也有一些企业开始投入应用。如LIKE电子商务网站,是全球最早的比较典型的基于内容图像检索系统。其支持用户使用关键字、导航工具和词条或者是样例图像进行检索。基于内容的图像检索的总体思想是这样的:首先,由用户从查询界面提供一个样例图像或描绘一幅草图,系统根据给定的算法提取样例或草图的底层可视化特征,然后与由图像库支持的特征数据库中的特征进行相似匹配值计算,得出数据库图像与例子图像在视觉内容上的相似度值;最后,选择那些满足阈值的记录作为结果,使结果按相似度降序排序,并返回给用户。2.1基于内容图像检索原理基于内容的图像检索系统对图像的检索原理是:根据用户所提供的样例或草图,进行精细的特征分析与提取,进而与数据库中的特征进行比较,返回与查询特征相似度最高的图像序列。检索流程见图2-1,由图可发现,提取图像底层特征、相似性匹配与相关反馈是系统的三个关键模块。结果返回相关反馈图图相似性匹配像底层特征库图像库像预检处索提取样例底层特征提取图像底层特征理系系统统提交查询样例用户查询界面图2-1基于内容图像检索示意图8万方数据 第二章基于内容图像检索系统基于内容图像检索系统可由三部分构成:图像预处理系统、图像检索系统、用户界面。一、图像预处理系统:负责从图像库中提取图像底层特征,并将特征存入特征数据库中。以供相似性匹配时调用。具体的工作有:1.图像格式处理。图像格式处理有格式转换、统一规格和图像修饰等工作,是图像特征提取的基础。2.提取底层特征。首先从图像中分解出不同种类的特征信息,包括视觉特征和统计特征。再使用合适的算法实现特征提取。特征提取分两块:样例特征提取与图像库图像特征提取。无论是提取样例底层特征还是提取图像库中的图像底层特征,其算法是一致的。提取算法模型可以固定,同时安置在用户查询接口与相似性匹配模块之间,样例底层特征提取与图像库中的图像底层特征提取可以共用此模块。本例给出图示二者是分开的,目的是为了使流程显示更清晰。3.数据库系统。由图像库、特征库和知识库组成。其中图像库用来存储图像的数字化信息;特征库用来存储经提取出来的图像底层特征;知识库则用来存储专门的和综合性知识,以利于检索优化和快速匹配。二、图像检索系统:从用户操作界面接收用户输入的图像内容,并对之进行特征提取;然后用抽取的特征与底层特征库的特征进行比对,获取比对相似度值;按相似度值从大到小排列;最后将与用户需求相似性最大的图像列出。其实现过程如下:1.提交查询样例或草图。相当于一个检索系统与用户之间的接口。可以实现用户输入与系统支持的数据转换。2.样例特征提取。使用固定的算法模型,快速从用户提交的样例或草图中提取系统所需图像特征。3.相似性匹配。利用图像特征之间的距离函数来计算样例和数据库图像之间在底层特征上的相似度值,并以相似度值的大小来界定图像是否匹配。如匹配,则转到图像索引库执行检索,并把检索结果返回检索界面。三、用户界面:包括用户查询界面、结果返回界面、相关反馈机制。1.用户查询界面用户查询界面实际上是用户提供样例界面。用以提供样例检索和模糊描述等方式,与索引系统对应,用户可用整幅图像、特定对象或各种组合方式检索。也可以使用自己临时绘制的草图。这里有三个条件:(1)样例库要求事前存在;(2)样例库中有与待查询图像相似的图像;(3)用户懂得绘制草图。9万方数据 电子科技大学硕士学位论文2.结果返回界面结果返回界面供给用户浏览检索结果以确定检索要求和检索结果是否相符。与用户提供样例界面共用用户查询界面。3.相关反馈机制相关反馈机制是专门负责收集检索结果与检索要求是否一致的行为,是一种智能调节机制。这种“智能”显示为可以从人机交互过程中自动学习,能及时发现和捕捉用户的实际意图,“调节”则显示为能根据用户的实际意图修正和调整系统的查询策略。目的是为了进一步缩小检索范围,提高检索速度与精度,使系统获得更好的检索效果。相关反馈不是一个界面,但可以镶嵌到界面与检索系统之间。2.2图像底层特征提取算法图像最基本的底层可视化内容是颜色、纹理和形状。如何快速准确地提取图像底层特征直接影响着图像匹配和检索的效果,是CBIR系统的重点。目前对于图像底层特征提取方法的研究已经相对成熟,算法基本已尘埃落定,总的说来分为全局特征提取和局部特征提取两大类。把整幅图像看作一个完整的独立对象进行特征提取的方法即为全局特征提取法;而局部特征提取法则针对那些特征信息相对集中且识别对象比较好辨认的图像特征提取。二者各有优缺点,全局法的优点是算法复杂度较低,易于实现,缺点是图像特征的空间位置关系被忽略了,从而导致检索精度降低,检索结果中出现不相关结果的比例相当大;局部法的优点是考虑了图像特征的空间位置关系,有较好的检索准确率,但算法相应较复杂,检索速度会有所下降。总结众家研究成果,不难发现,基于颜色、纹理、形状与区域的底层视觉特征提取乃是CBIR的“惯用伎俩”。通过对相关文献整理,分别以颜色、纹理、形状特征的提取方法来分析CBIR系统图像底层特征提取方法。2.2.1颜色特征提取算法颜色特征是用户首先会关注的图像特征。而且几乎所有的图像检索系统都会涉及到颜色特征检索。相对于其他特征,颜色特征具有相对稳定的特性,其特征计算算法和实现都相对简单。颜色特征的提取算法研究比较早,成果也相对比较10万方数据 第二章基于内容图像检索系统稳定。现有的主流的颜色特征提取算法有:颜色空间、颜色直方图、颜色矩、颜色集和颜色相关图等。2.2.1.1颜色空间目前主要应用在计算机领域与图像检索技术中的的颜色空间模型有:RGB、HSV、HIS等。一、RGB颜色空间目前工业界应用最广的颜色空间是RGB。其基于红(R)、绿(G)、蓝(B)三基色的颜色表示方法简单,可以直接面向硬件,因而在工业上尤其是CRT设备上使用较广泛。但是它没有直观感,与人对颜色的感知心理不符,导致人们无法感知与其对应的颜色。RGB颜色空间如图2-2所示。图2-2RGB颜色空间图二、HSV空间HSV空间模型是国际上作为色彩分类和物体表面色标定使用最普遍的方法,是色彩界公认的标准色之一。由于其与人类视觉感知心理特点非常吻合,人眼对HSV颜色识别度最好,因而是计算机视觉领域广泛使用的色彩空间。HSV空间由色调H(Hue)、饱和度S(Saturation)、亮度V(Value)三要素构成,直接对应于人眼视觉特性的三要素,非常贴近人对色彩的理解。同时HSV还可以独立感知各颜色分量的变化且可感知的颜色色差与颜色分量的欧几里得测度之间的距离成比例。因而HSV空间模型也被称为心理感知模型,较适合用于颜色的相似性比较。尤其的,HSV空间与RGB颜色空间的转换可以通过一个公式完成,简单快速。HSV空间模型可简单表示为一个倒置的锥形。如图2-3所示。长轴表示亮度V,灰度影调沿着轴线从下往上由黑变到白,表示明暗度。离开长轴的方向表示饱和000度S,体现颜色的深浅程度。围绕着长轴的角度表示色调H,用-180~180或0~0360度量。影响人的视觉判断的主要要素即为色调。11万方数据 电子科技大学硕士学位论文图2-3HSV颜色空间图三、HIS空间HIS色彩空间与HSV空间相似,也是从人的视觉系统出发,并采用与HSV相类似的三元素对色彩进行描述的模型。其三元素分别是:色调H(Hue)、亮度I(Intensity)和饱和度S(Saturation)。其空间模型图如图2-4所示。与HSV相仿的是,长轴表示亮度I,圆弧到长轴的距离表示饱和度S,围绕着长轴的角度表示色调H。与HSV不同的是,HIS中的H分量对彩色描述的能力更接近人的视觉感知,其区分力也较强。图2-4HIS颜色空间图2.2.1.2颜色直方图图像内容的一种直观的表示方法是统计图像的各种颜色出现次数,把每种颜色出现次数用直方图表示。颜色直方图的基本思想和算法最早由Swain和Ballard在1990年提出,它直观地反映各种颜色信息在颜色空间的分布情况与出现频率,且具有平移、尺度、旋转不变性,所以成为当前最流行的图像检索技术之一。颜色直方图有全局直方图、累加直方图与局部直方图之分。一、全局直方图一般图像全局直方图用来描述不同色彩在整幅图像中所占的比例。其算法实际上是一个1-D离散函数。数学上可定义如下:12万方数据 第二章基于内容图像检索系统1H(x)mx=0,1,2,...,L-1(2-1)xM其中,x为灰度取值,L为灰度可取值的个数,mx是图像中具有灰度值为x的像素个数,M为图像像素的总数。二、累加直方图累加直方图出现的目的是为解决相似性度量不能正确反映图像之间因特征遍历出现零值从而出现的颜色偏差问题。累加直方图的基本思想是:以颜色值为X轴,颜色累加出现的频数为Y轴,统计的是不同色彩在图像所占比例之和。图像的累加直方空间H可定义如下:x1H(x)mxx=0,1,2,...,L-1(2-2)i0M其中,各参数所代表的意义与全局直方图相同。由上式可看出,相比于一般直方图,累加直方图的存储量和计算量均有一定的增加,因为在累加直方图中,相邻颜色在频数上是相关的。但是它消除了一般直方图中的零值,消除了这些零值出现对相似性度量的计算影响,同时解决了一般直方图量化过细过粗都会引起检索效果下降的缺陷,所以累加直方图也是常用的一种颜色空间表示方法。三、局部直方图局部直方图的基本思想是把色度沿分布轴分成若干个局部区间,从而将整幅图像进行分割,并对每个分割区域进行局部颜色特征提取,从而达到对图像的综合研究,进一步提高对图像描述的准确性。分割方法有栅格、水平、垂直、环形、辐射等。其具体算法随着分块方法不同而略有不同。颜色直方图的优点是对图像的旋转、平移以及缩放具有良好的不变性。缺点则是颜色位置特征容易丢失,由此导致不同图像具有相同直方图的现象,使得检索结果不一致。2.2.1.3颜色矩颜色空间另一种简单而有效的颜色特征表示法是颜色矩。它的理论依据是:“图像中的任何颜色分布均可利用它的矩来表示”。与其他的颜色特征表示算法相比颜色矩显得简单、紧凑而有效。因此被普遍应用于基于内容的图像检索系统中。13万方数据 电子科技大学硕士学位论文颜色矩算法依据颜色分布信息主要集中在低阶矩中的特点,仅使用三个低阶矩共九个分量来表示颜色分布。三个低阶矩分别是一阶矩Mean,也称为均值、二阶矩Variance即方差和三阶矩Skewness也就是协方差。它们的数学表达式分别如下:1E(2-3)iNNPijj111()2(2-4)iN2N(PijEi)j111S()3(2-5)iN3N(PijEi)j1其中iH,S,V;N为像素总数,Pij表示图像中第j个像素的第i个颜色分量。仅运用三个低阶矩的颜色矩提取颜色特征具有运算简单的优点,在过滤颜色不相似的图像上有惊人的效力。但也正是因为它仅使用少数有限的几个矩,使得它对相似颜色的区分度较低。实际上,颜色矩的一个常用功能是作为先期过滤器,用于其他特征之前,起到缩小检索范围的作用。2.2.1.4颜色集Smith和Chang提出了采用颜色集的方法以支持大型数据库中图像的快速检索。颜色集作为对颜色直方图的一种近似,其算法思想是:第一步:空间转换。使RGB空间转换成HSV空间,同时量化HSV成若干个柄(bin);第二步:形成索引表。划分颜色空间区域并量化某个分量,按分量建立一个二进制的颜色特征向量集。从而将图像表达转化为数字化的索引表。第三步:计算图像相似度。通过计算颜色集间的不同距离以及色彩区域的空间大小获得相似度。由于颜色集中的颜色特征向量索引表使用的是二进制表示,符合计算机内部对数据的处理方式,因此计算机实现起来非常方便。同时使用二进制来表示颜色分量还便于构造二分查找树,用以提高检索速率。所以颜色集算法对大规模图像数据库的检索优势是明显的。但同时它的缺点也是明显的。由于考虑了颜色空间的选择和颜色空间的划分,颜色集的计算复杂度较高。14万方数据 第二章基于内容图像检索系统2.2.1.5颜色聚合向量颜色直方图和颜色矩在颜色特征提取中都是常用的方法,但它们都有一个缺陷,那就是无法表达图像色彩空间位置。由Pass提出的颜色聚合向量正是为了弥补这个缺陷而提出的。可以认为它是颜色直方图的一种演变。颜色聚合向量的算法思想是:先给定一个阈值η,再把图像划分为若干个bin,计算bin内各种颜色像素所占连续区域面积s,若s<η,则称其区域内的像素为非聚合像素;相反,若s>η,则称该区域内像素为聚合像素。颜色聚合向量的优点是比颜色直方图有更好的检索效果,缺点是计算复杂度较高。2.2.1.6颜色相关图颜色相关图是基于图像颜色分布的表达方式之一。已有实验证明,当检索图像是空间关系一致的时候,颜色相关图比颜色直方图的检索效率更突出。但由于2其算法空间的复杂度为o(N),只要算法中考虑到任何颜色间的相关性,颜色相关d图都会变得异常复杂和庞大,所以其应用并不广泛。2.2.2形状特征提取算法形状特征是图像中使到“物具其形”的重要特征,用以描述物体轮廓和物理结构。形状特有的直观形象的优点使得其在对象识别中具有非常高的准确性与命中率,如医学图像中病灶的识别和判定就是基于形状特征的。目前,图像的形状特征常用的表示方法有两种:一种是基于图像边界特征的又称为形状轮廓描述,一种是基于图像的区域特征又称为形状区域描述。前者使用物体的外边界即轮廓作为对形状描述手段,而后者则使用区域来描述形状。常用的图像形状特征提取算法有:傅立叶描述子,小波轮廓表示法,边缘方向直方图法,不变矩法等。2.2.2.1傅立叶描述子傅立叶描述子是最常用于边界特征描述的方法。它的基本思想是,使用物体边界特征并对其进行离散的傅立叶变换,变换后的傅立叶即为该形状的描述。方法是在复合面上放置一条封闭的边界线,由此得到一个一维复数序列,再用这个复数序列进行离散傅里叶变换,同时保留系数前面的较少几项,这种描述称为傅立叶描述子。傅立叶描述子的优点是具有平移、旋转和尺度不变性,可以用较少15万方数据 电子科技大学硕士学位论文的系数区分不同形状边界;缺点是对位置、大小与方向存在依赖性,同时由于其丢失了形状内部的像素信息,所以缺乏通用性。2.2.2.2小波轮廓表示法小波轮廓表述法直接用小波函数来描述图像边缘的变化。方法如下:定义小波函数族为:1mmmtn2m(t)(2)2()22(2tn)(2-6)m,nm2对给定的轮廓函数f(t),其小波变换系数为:Df,f(t)(t)dt(2-7)m,nm,nm,n由小波变化系数重建f(t)的公式为:m0f(t)f,m,nm,n(t)f,m,nm,n(t)(2-8)mm01mmm其中,m0与截断系数的所需精度有关。小波轮廓表述法的优点:1.轮廓的局部变化不影响整体,只有对应的局部系数受到较小的影响,几乎不受轮廓的局部畸变影响。2.小波描述子轮廓描述精度可以由少量的系数实现,有令人较满意的精确度。2.2.2.3边缘方向直方图边缘方向角直方图可用做对原始图像的目标规则性判断。图像中对象和背景之间的边界处其边缘灰度通常会有显著的变化。因此通过统计直方图的形状边缘的方向得到图像的相关形状信息。其规则性判断方式是:根据形状信息统计结果,若生成的边缘方向直方图显示明显的周期性,说明目标图像比较规则;反之,若由结果所生成的边缘方向直方图没有什么规则性,显得比较随机,则表明目标图像不是规则的。边缘方向直方图的方法首先要获取形状的边缘。一种获取图像边缘的常用方法是通过偏导求得,另一种有效的方法是利用Canny算子检测;获得形状的轮廓边缘后,再按边缘的方向和大小进行统计,最后根据统计值绘制出边缘方向直方图。16万方数据 第二章基于内容图像检索系统2.2.2.4不变矩法当图像中物体形状边界不甚明显且形状不是太复杂时,不变矩法是较好的选择。利用目标所占区域的矩作为描述参数来描述形状即为不变矩的方法。其中最常用的是Hu不变矩法。这种方法不需要给出区域的边界,只需给出分割而成的小区内部的像元情况。常用的7个Hu不变矩可以通过其函数f(x,y)的(p,q)阶矩与质心的中心矩标准化得来。定义函数f(x,y)的(m,n)阶矩为:mlxynf(x,y)dxdy若质心为:mnxl/lyl/l则(m,n)阶中心矩为:c1000,c0100mn(xx)(yy)f(x,y)dxdy(2-9)mncc特别的,对于数字图像来说,上式积分式可化为如下和式:mnmn(xxc)(yyc)(2-10)xy标准化的中心矩为:m,n(2-11)m,nr0,0mn2其中,r,mn2,3,2由此可得7个不变矩为:l12,00,222l()41,122,00,222l()(3)33,01,22,10,322l()(3)43,01,22,10,322l(3)(3)[()(3)]53,01,23,01,23,01,20,32,122(33)()[3()()]2,10,30,32,13,01,23,02,122l()[()()]4()()62,00,23,01,20,32,11,13,01,20,32,1222l(3)()[()(3)]72,10,33,01,23,01,22,13,022(33)()[3()()]1,23,00,32,13,01,21,20,3(2-12)17万方数据 电子科技大学硕士学位论文不变矩法的优点是:可以用7个无关矩来度量形状的特征,适用于简单的形状类识别。缺点是:计算量太大,对于更复杂形状目标的识别无法适应。2.2.3纹理特征提取算法纹理作为图像的重要特征,广泛分布在各种图像的表面,是一种自然的视觉现象。纹理不依赖颜色和亮度,反映的是图像中的同质现象。由于纹理特征具有较强的复杂性,所以纹理至今都没有统一而具体的定义,人们也没有办法用统一的标准去量化纹理。在图像处理领域,“一般将图像在局部区域内呈现不规则性而[7]在整体上表现出某种规律性的特性称之为纹理”。对纹理的描述方法也是百家争鸣,众说纷纭,算法有数百种之多。归纳起来,纹理特征的提取算法可以有下列几种:基于统计的方法、基于结构的方法、基于频谱的方法和基于模型的方法。2.2.3.1基于统计的方法基于统计的纹理描述方法最常用于分析木纹、沙地、草坪等图像,这类图像的纹理特点是细密但不规则。图像中灰度级分布的随机属性常被用作纹理特征描述,这就是统计法的基本思想。常用的基于统计的纹理分析法有:灰度直方图的矩、灰度共生矩阵和Tamura纹理属性描述法。1.灰度直方图的矩利用全局灰度直方图的矩来描述纹理是最简单的基于统计的纹理描述方法。具体定义为:令x为一个代表灰度级的随机变量,L-1为图像的最大灰度,xi是灰度为i的像素数目,h(xi)是灰度直方图。关于x的均值的第n阶矩为:L1nn(x)(xim)h(xi)(2-13)i0其中m是x的均值:L1mxih(xi)(2-14)i0尤其的,当n=2时,式(2-13)称为二阶矩,对二阶矩求方差,在纹理描述中特别重要,它是灰度对比度的量度,描述了直方图的相对平滑程度;当n=3时,式(2-13)称为三阶矩,三阶矩则描述了直方图的偏斜度。2.灰度共生矩阵(GLCM)18万方数据 第二章基于内容图像检索系统最简单的统计法是灰度直方图的矩,但像素相对位置的空间关系却似乎被其忽略了。实际上,任何图像表面都可以看成三维空间中的一个曲面,忽略像素空间位置关系会降低统计精度。为了利用这些空间信息,灰度共生矩阵应运而生。灰度共生矩阵由R.Haralick等人于1971年左右提出。这种方法分别选择图像间的两个不同位置的像素点,定义它们的概类密度,构造一个共生矩阵,该矩阵的因子即为像素方向和距离,然后从该矩阵中提取有意义的统计特征作为纹理特征的统计特征,进行纹理的描述。GLCM是定义纹理的基础,它最重要的特性是反映了像素的位置分布信息,同时还体现亮度的分布特征。GLCM在进行统计运算时,要用到四个方向(θ=0°,45°,90°,135°)共15个常用参数来描述纹理特性。这15个常用参数分别是:角二阶矩(能量)、熵、对比度、均匀度、相关系数、逆差矩、和均值、差均值、和方差、差分方差、和熵、差熵、信息测度I、信息测试II、最大相关数。3.Tamura纹理描述Tamura等人提出的用对比度、粗糙度、方向性、线性度、规整度和粗略度六个属性来对纹理进行描述。这种描述方法最符合人类对纹理的视觉感知和认知心理,六个属性均能分别与心理学角度上的属性描述相对应。所以Tamura纹理表示在图像检索中具有非常大的吸引力。其与GLCM表示的最大区别是:Tamura的纹理属性具有强视觉意义,GLCM的某些属性如熵则不具视觉意义。Tamura等人提出六个纹理属性中相对较重要的是粗糙度、对比度和方向性这三个分量。通过对每个分量进行计算,最后统计这些分量计算结果可以得到Tamura的属性值。2.2.3.2基于结构的方法基于结构的纹理描述方法的基本思想是假定存在一些按一定规律排列的基元,使这些基元重复排列即得纹理。确定这些基元并定量的分析它们,获取它们的排列规则,则这些排列规则即为所要提取的纹理特征。通过统计局部不同纹理基元的分布,获取图像的全局纹理信息。基于结构的纹理描述方法通常适用于那些规则性较强的人工纹理。其优点是利于理解纹理的构成和进行高层检索。但是,对于自然纹理,用这种方法提取基元则比较困难,基元之间的排列规则不易用确定的数学模型描述,因此在随机纹理分析中,结构分析法应用不多或者常被用做辅助分析手段。19万方数据 电子科技大学硕士学位论文2.2.3.3基于频谱的方法基于频谱的纹理描述法的基本思想是先把图像从时域空间变换到频域空间,[8]然后在频域空间提取图像的纹理特征。流行的基于频谱的纹理描述法有:小波变换法、Gabor小波变换法、DCT变换法以及傅立叶变换法等。其中,DCT变换法非常适合于直接对JPEG图像进行检索的系统;小波变换法对图像的检索效果也不错,但不能直接检索,需要先对图像进行转换,相对计算量较大。1.小波变换法当图像的纹理尺度大小不一或对比度有强有弱时,使用小波变换法提取特征比较符合纹理识别的特点,所提取参数也会有较大的优势。小波变换的基本思想是:定义一个母波函数,同时定义一个二维坐标空间,横轴是时间,纵轴是尺度。使定义的母波函数在坐标空间中进行伸缩和平移运动,获取运动时的频率作为有效信号进行自适应各种分析。用高分辨率对应小尺寸或对比度较弱的纹理,低分辨率对应较大尺度和较强对比度的纹理。最终实现把频率域的信号处理转换为空间域对信号的描述。小波变换法需要使用滤波器过滤那些具有相同频率的信号,留下那些频率或带宽不同的信号。这个过程与人类对图像的视觉感知系统相类似,因而是纹理提取技术中被研究最多的方法,但是其基于滤波器的方法对滤波器的依赖性也很大,对波滤器的设计以及对过滤结果的提取不同,所得到的纹理有很大的不同。因此许多学者转向研究如何改进滤波器的设计以影响结果的提取。事实说明:要真正的改进小波变换法对纹理的描述,如何选择滤波器组是殛待解决的一个关键问题。2.基于Gabor小波变换Gabor变换是当2D信号检测不够准确的时候,从频率域与空间域对信号描述的最优方法。人类对图像的视觉感知系统和频率的感知特点与Gabor滤波器恰好对应。所以Gabor变换最符合人类的视觉机理,是公认的信号处理、尤其是图像表示的最佳方法之一,在图像处理与分析技术中占据重要地位。其通过高斯函数加上平移后产生。Gabor变换的基本原理是:不同的纹理信号其带宽和频率不同。要获得相同的信号,就要先把那些不相同的信号滤掉。基于这样的思想,对应这些不同的纹理带宽和中心频率,设计一组滤波器,在这组滤波器中规定每个滤波器只能通过某种相应的纹理信号,以此来限制其他纹理信号的通过,从而起到过滤相异信号的作用。每个滤波器均有输出结果,最后对每个滤波器的输出结果进20万方数据 第二章基于内容图像检索系统行逐一分析,从分析结果中提取有效数据形成纹理特征集。这个过程中,滤波器的设计与从滤波器的输出结果中提取有效的纹理特征至为关键。Gabor滤波器的优点是具有很好地模拟人类视觉系统的特点,其易于调谐的带宽与中心频率的优势,使得它在纹理特征提取中有非常好的效果,所以Gabor滤波器广泛地应用于图像检索领域的特征提取。它的缺点是:变换窗口无法改变大小,对纹理在方向和频率上的细微变换不敏感,不能满足实际应用的需求。同时需确定的滤波器参数过多,使得计算开销过大,致使Gabor滤波器没有得到更好的发展和应用。3.傅立叶变换法傅立叶变换是把图像从空间域变换到频域的常用方法。图像的纹理会呈现出一定的周期性,换言之就是纹理在图像空间中具有一定的发生频率,获取这些频率并对之进行频谱分析,低频部分对应较粗的纹理,高频部分对应较细的纹理。通过分析转换即可获取对应纹理特征。这就是傅立叶变换的思想。图像数据一般是二维的离散矩阵,所以获取的傅立叶变换也是二维离散数据。同时傅立叶变换具有共轭对称性,亦即它的频谱分布是以图像原点为中心对称的。2.2.3.4.基于模型的方法模型法究其实质就是使用一些现成的数学模型来对纹理特征进行描述。马尔可夫随机场、子回归模型、分形模型等是最常被用在纹理描述方面的现成的数学模型。这些模型有一个显著的共性,那就是拿来即用,不必再次构造函数,且仅使用少量的参数表征纹理。基于模型方法的发展空间还有待进一步发掘。2.3相似性匹配图像底层特征提取完毕,并在图像数据库建立相应索引后,系统转入了相似性匹配计算阶段。图像间的相似性匹配问题实质就是特征向量间的匹配问题。相似匹配的思想是将图像特征向量看作是向量空间中的点,通过计算两点之间的距离D来衡量图像相似度。据此,寻找一个合适的特征向量匹配算法是使得检索结果卓有成效的关键保证。特征向量的匹配方法有完全匹配与相似性匹配。完全匹配是仅当两个图像的特征完全相同即D=0时称之。相似性匹配是由某一阈值η与图像特征间距离D决定,先设定某一阈值η,然后计算两个图像特征间的距离D,再行比对。当D<21万方数据 电子科技大学硕士学位论文η时,图像匹配成功。显然,匹配方法的选择是否恰当对图像检索结果成功与否有着极大的影响。当选择相似性匹配时,其中的阈值选择尤为关键。常用的特征向量匹配算法有:欧拉距离、直方图相交、二次式距离和马氏距离等。2.3.1欧拉距离(Minkowsky)欧拉距离也称Minkowsky距离。定义如下:p设两个特征向量h,q之间维度相同且正交不相关,则h,q的欧拉距离L为:1NppD(h,q)HiQi(2-15)i1其中,N为特征向量的维数。尤其的,当p=1时,该公式特指Mahattan(曼哈顿)范数,也称L1距离或街区距离。上式简化为:ND(h,q)HiQi(2-16)i1当p=2时,该公式特指Euclidean(欧几里德)范数,即L2距离,也称为欧氏距离。式(2-16)则简化为:1N22D(h,q)HiQi(2-17)i1L1距离与L2距离公式因其计算复杂度低、检索速度快、简单易实现而成为最常被采用于特征向量的匹配计算的算法之一。2.3.2直方图相交法直方图的相交是指两个直方图在每个级共有的像素数量。该方法一般用于计算直方图距离。设H为数据库图像的直方图,Q为待查询图像的直方图,N为H与Q共有的灰度值bin,则H与Q之间的相交距离为:ND(H,Q)min(Hi,Qi)(2-18)i122万方数据 第二章基于内容图像检索系统直方图相交则是以相交距离除以其中一个直方图中像素点总数变成为了归一化的距离,见下式(2-19)。其值属于[0,1]。Nmin(Hi,Qi)i1D(H,Q)NQii1(2-19)2.3.3二次式距离当相似性匹配计算需要考虑两个不同像素点间的相似性因素时,二次式距离法要优于欧拉距离或直方图相交法。由两个颜色直方图H和Q之间的二次式距离可知:TD(H,Q)[(QH)A(QH)](2-20)其中A为颜色相关性矩阵,A=[aij],aij为像素点i和j之间的相关度。2.3.4马氏距离(Mahalanobis)欧拉距离是当两个特征向量h,q之间维度相同且正交不相关时,计算两个特征之间的相似度的首选方法。但当两个特征向量h,q之间相关或权重相异时,欧拉距离的效果就不如马氏距离的效果好。马氏距离的数学表达式如下:ttD(HQ)C(HQ)mahal(2-21)其中,C是特征向量协方差矩阵。尤其的,当h,q不相关时,马氏距离还可以进一步简化为:N2(HQ)iiDsi1ci(2-22)2.4相关反馈从已有的研究分析可知,系统检索出来的结果并不是全部都和样例图像完全吻合或者与用户需求完全相符的,多数时候都会出现一定比例的不相关结果。这和仅采用相似性度量有莫大关系。换句话说,以计算机为中心是相似性度量算法的指导思想,这种思想指导之下必然使得人机之间产生理解上的鸿沟。因为优势查询结果计算机从物理特征层面看认为是相似的,但用户从主观理解上看却认为23万方数据 电子科技大学硕士学位论文是不相似的。要使这个因理解产生的鸿沟矛盾得到解决,一方面应该改进检索算法,另一方面应该增进人机交互。如何增进人机交互?相关文献显示,有效增进人机交互的一种有效方式就是相关反馈机制。这种机制可以使用户的检索需求得到理解,从而得到更精准的把握,使得能够帮助用户检索需求的图像。二十世纪九十年代末,Rui等在其构建的图像检索系统中提出了相关反馈体系结构。紧接着,MassachusettsInstituteofTechnology、UniversityofIllinois、HollandUniversityofAmsterdam等,相继展开了相关反馈在图像检索系统中的应用研究。相关反馈究其实质是一种指导性学习过程,该过程从人机交互中进行学习,发现和捕捉用户真实意图,及时修正查询策略,以保证查询结果与查询效率。因此,相关反馈不仅是一种强有力的提高检索效果的机制,还是计算机实现接近于语义层次检索效果的有效方式。相关反馈技术在基于文本图像检索中的应用己经相当成熟,它的实现策略有两种:优化查询向量策略与调整距离测度策略。其执行步骤如下:Step1:首先由系统提供最初的检索结果图像;Step2:用户对检索系统返回结果与检索需求相关性进行评价,评价结果有正反馈与负反馈之分;Step3:系统从用户所给评价信息中自动获取与用户查询目标特征匹配值最小的特征,修正匹配算法,再次检索。如此反复,直到用户满意为止。2.5本章小结本章详细分析了CBIR的检索原理与检索步骤,从CBIR系统结构图入手,从系统的三个关键模块即图像底层特征抽取、相似性匹配和相关反馈分别展开论述。其中着重介绍与分析CBIR的图像底层特征的提取技术,并按颜色特征、形状特征、纹理特征的提取方法进行有层次有条理的分述。最后总结了相似性匹配技术与相关反馈技术在CBIR中的应用以及相关算法,给出相关反馈的执行步骤。24万方数据 第三章基于内容与情感语义的图像检索系统构建第三章基于内容与情感语义的图像检索系统构建3.1基于内容与情感语义图像检索系统设计思想3.1.1用户需求分析眼睛是人类获取外界信息的重要器官,人的感知觉中视觉是最重要的机能之一。情感能力则是人类智能的重要标志,视觉引发情感波动是人类的一种行为与认知能力。所谓“触目惊心”就是由目力所及引发人类情感知觉。人类其实生存在一个由图像组成的环境当中,图像的处理是人人必须的一个生理与心理需要的过程。“优美的艺术作品与环境能陶冶人的情操。”这句话放在今天已经算是一句至理名言。优美的艺术作品即是由色彩、线条、纹理与结构组合而成的一些建筑、绘画、雕塑及工艺制作等,极具图像特征。而人的情操,即是人类最高层次的情感表现。由此可见,图像的高层情感语义是图像处理中不容忽略的重要因素。图像中本身蕴含着大量的情感信息,这是图像处理中不容忽略情感语义的原因之一。人类观察与审视图像时会引起情感反应,这是图像处理中不容忽略情感语义的原因之二。利用图像中令人产生共鸣的高层情感语义描述,可在人机交互中,创设更加高仿真的自然和谐的人机环境。这是图像处理中不容忽略情感语义的原因之三。在图像检索系统中,人们的需求也许很简单,仅仅只期望能根据自己的需要获得相符的结果,而这种期望则极大程度地包括了情感期望。人们在观看图像时获得的感受,如果用词汇来描述,就会得到跟情感相关的内容。如果在图像检索系统中,也能允许用户按这种词汇来检索,则检索结果会相对与用户的主观愿望要相符得多。基于内容图像检索系统纯粹是从图像的低层物理特征描述出发,完全摒弃了图像的高层语义特征及人们认识与理解图像时的情感心理需要,因而造成了系统25万方数据 电子科技大学硕士学位论文基于图像底层特征的识别结果与用户基于图像高层语义理解间的错位与差异。所谓“语义鸿沟”就是这样产生的。基于内容与情感语义的图像检索系统,希冀通过在已有的较成熟的基于内容图像检索系统中增加情感分析与识别模块,用以填补基于内容图像检索系统中的“情感空白”,改善系统对图像的识别能力,以获得更加精准的定位,有更精确的检索率。3.1.2设计思想本文基于内容与情感语义检索系统的设计思想如下:1.首先,用户提出带有情感色彩的检索要求。带有情感色彩的要求包括情感关键词描述或样例或草图。情感关键词如:“愉悦的”等。2.系统提取情感关键词或样例底层内容特征。如用户提交的是关键词,则直接使用关键词文本,使之与情感语义库对比,如情感语义库中存在相同的关键词或特征描述关键词文本,则直接使用,如果库中没有,则选择相近语义词。例如:用户输入“愉悦的”,检索情感语义库中没有“愉悦的”一词,则选用与之相近的“高兴的”一词。如用户提供的是样例或草图,则提取样例或草图的底层图像特征。3.同时,预处理系统从图像库中为所有图像提取底层视觉特征,存入底层特征库待用。4.情感语义识别系统从图像底层特征库中获取现有系统的图像底层特征值,并将之与情感语义库中的情感语义词建立起多对多的映射对应关系,实现图像的情感分类。5.样例底层特征或者情感关键词被送入情感语义识别系统,转换为附加情感特征向量的新的特征,与底层特征库中的特征重新匹配。6.最后,获取特征相似度最大的一组图像序列以匹配值降序输出。返回结果图像。结果图像即图像内容里出现有“愉悦的”的图像,包括:带笑容的人脸、欢欣的场面、能引起人们“愉悦的”情感的景像等。要能返回内容里出现“愉悦的”的图像,关键点是系统须能识别“愉悦的”的意思,同时能使之与图像的特征对应起来,并识别出图像中是否包含有“愉悦的”的内容。亦即要求系统具有图像情感识别能力。图像的情感识别能力亦指系26万方数据 第三章基于内容与情感语义的图像检索系统构建统对图像所包含的情感语义能准确识别,并能与情感语义库中的相关语义词建立对应关系。3.2基于内容与情感语义图像检索系统结构图在基于内容与情感语义图像检索系统的设计思想指导下,构建基于内容与情感语义图像检索系统结构如图3-1所示:结果返回相关反馈预处情感语义识别系统相似性匹配理系统附加情感语义的特征提取底层内容特征情感与底层特征对应标准检索系提交查询请求情感空间底层特征库图像库统情感语义库提取图像底层特征用户查询界面图3-1基于内容与情感语义图像检索系统由上图可看出,基于内容与情感语义图像检索系统是在基于内容图像检索系统的三大模块:检索系统、预处理系统与用户界面的基础上添加了图像情感语义识别系统形成的。情感语义识别系统的核心有两个:一是情感空间的建立,二是情感语义与底层特征对应标准的建立。其中情感空间又以情感语义库的支持作为前提。情感语义与底层特征对应标准除了需要来自情感空间的支持外,还要来自底层特征库的支持。而底层特征库的数据来自预处理系统对图像库中图像底层特征的提取。27万方数据 电子科技大学硕士学位论文3.3基于内容与情感语义图像检索系统建构原理基于内容图像检索系统是基于内容与情感语义图像检索系统建构的基础,是依托。基于内容与情感语义图像检索系统是建立在基于内容图像检索系统之上的,是在基于内容图像检索系统基础上增加用户情感需求识别与图像情感识别模块而形成的,情感语义识别机制是基于内容图像检索的有益补充,是促进人机情感交互、实现人机和谐交流的桥梁,特征与情感语义的对应标准是交互与交流的枢纽。系统中能识别用户情感需求与图像情感语义是重点,能将图像底层特征与情感语义二者对应是关键。情感空间及图像特征与情感语义的对应标准综合形成了图像情感语义识别模块,将分别在本文第4章、第5章展开详细讨论。基于内容图像检索系统是目前已有的较成熟的图像检索技术,其原理是利用图像底层物理特征进行匹配,具有特征变化较小,算法相对比较固定的优点。只是因为忽略了用户情感需求与图像的情感语义而使得检索结果与检索期望出现岐义与偏差。只要修正这种缺失与忽略,就可以修正岐义与偏差,减少检索技术困难,填补其缺陷。而基于内容与情感语义图像检索系统的框架正是基于此理论与设想而提出来的,理论上是可行的,是可以实现的。3.4本章小结本章从用户需求分析入手,站在一个用户的角度解析检索图像时情感需要是不容忽略的元素,同时图像本身蕴含丰富情感信息及人机交互的自然谐调环境需求等均不容忽略情感语义。接着从用户需求出发构想了一个基于内容与情感语义的图像检索系统。分析系统的检索原理与检索过程,指出系统的关键技术点为在CBIR系统中添加图像情感语义识别系统,而情感语义识别系统的核心有两个:一是情感空间的建立,二是图像底层特征与情感语义对应标准的建立。28万方数据 第四章情感空间第四章情感空间4.1情感概述情感是人类智能的最高体现,是人与动物区别的重要标志之一。它在人的感[9]知、决策、计划、创造及社交等活动中起着不可或缺的作用。关于情感的定义和描述,国内外的心理学家们互存歧义。但许多文献认为,情感可从三个角度来描述:一是把情感反应归结为一个独立的过程;二是情绪被[10]认为是刺激和反应之间的中间变量;三是用直接行为主义理论来解释情感。情感的分类也是一个困难复杂的问题。古今中外的学者从不同角度对此进行了许多有益的实验与尝试。心理学领域对情感分类的理论观点主要有两大派别:范畴观(离散情绪)和维度观(连续情绪)。范畴观把情绪分为基本情绪与复合情结;维度观则认为情绪具有基本维度与两极性。不管如何,大家都提到了基本情绪或者是认同情绪具有基本性。基本情感是情感的基元,构成各种复合情感。在这样的思想指导下,中国古代儒学认为,人有七情六欲,“喜、怒、哀、惧、爱、恶、欲”即谓七情。西方学者则多把情感分为基本的六~八种。其中谢弗认为基本[11]情绪有六种类别,分别是爱(love)、喜悦(joy)、惊奇(surprise)、愤怒(angry)、[12]悲伤(sadness)和恐惧(fear)。孟昭兰从婴儿情绪发生角度认为基本情绪有六种:快乐、兴趣、厌恶、恐惧、痛苦和愤怒。R.Plutchik从情绪的强度、相似性和两[13]极性入手,提出八种基本情绪即:狂喜(joy)、警惕(anticipation)、悲痛(sadness)、惊奇(surprise)、狂怒(anger)、恐惧(fear)、接受(acceptance)和憎恨(disgust)。Ekman[14]则认为情绪分为六类:高兴(joy)、愤怒(anger)、厌恶(disgust)、恐惧(fear)、悲伤(sadness)、惊奇(surprise)。其中Ekman的情感离散表示法是目前在心理学界和工程界占主体地位的情感分类法。29万方数据 电子科技大学硕士学位论文4.2情感计算最早提出情感计算(AffectiveComputing)一词是美国MIT媒体实验室的R.Picard教授于1995年提出的。但对情感计算给出定义却是在时隔两年后,在《AffectiveComputing》中R.Picard定义道:“情感计算是与情感相关、来源于情感或能够对情感施加影响的计算”。情感计算旨在使计算机能够识别、理解、表达和适应人类情感。[15]Minsky说过:没有情感,机器人就不可能表现出智能行为。情感计算是未来人工智能理论与应用中不可缺少的重要组成部分。早在20世纪80年代,情感对认知与智能具有的重要作用就引起了人们的关注。在1981年,美国麻省理工学院媒体实验室即开始投入研究人工情感,主要研究如何实现计算机感知人的情绪变化。日本从上世纪末涉入感性工学的研究领域,[16]从此“掀起了举国研究感性工学的高潮”,一发不可收拾。其国家重点基金工程项目感性信息处理(Kanseiinformationprocessing)就是这个高潮中的一波。该工程的目的是使计算机具有模拟和识别用户兴趣爱好等的能力,以营造真正的自然和谐的人机关系。与此同时,日本各大公司也纷纷加入研发、生产以情感计算为支撑技术的感性信息产品。其中最成功最典型的产品代表是SONY公司研制的智能机器狗AIBO和QRIO型及SDR-4X型情感机器人。其中AIBO智能机器狗已[17]经生产6万余只,收获纯利润近10亿美元。毫不夸张地说,日本在人工情感技术的应用研究方面是处于世界遥遥领先的地位的。我国人工智能领域的情感研究处于刚刚起步的阶段。其标志是2003年召开的第一届中国情感计算及智能交互学术会议。会上王志良教授首次提到了“人工心理”这个新概念并给其下了定义。从此拉开了我国对人工情感研究的帷幕。情感计算应用于图像检索处理中主要用在图像情感识别系统中。是情感建模的理论基础。4.3情感建模情感建模是情感计算和人工心理研究的核心内容。情感的数学模型被认为是实现和谐人机交互的关键组成部分,其本质是对自然情绪实质的理解和表示。30万方数据 第四章情感空间目前,情感建模的研究为数尚且不多,还是处于刚刚起步的混沌阶段。有一些学者尝试着用已有的数学模型来建立起情感模型,也获得一些比较显著的成就。这些已被建立起来的情感模型可归纳为三种:基于认知的模型、基于概率的模型、多层情感模型。由于情感建模涉及到多个学科领域,以及人类情感固有的复杂性、多变性和模糊性,这三类情感模型也只能够解决某一些方面的问题,更全面更科学的情感模型的研究与建立,却仍然有待更进一步深入的探究与开发。4.4情感空间在图像情感语义研究中,情感空间是一个热门且时髦的词语。李海芳等人提出情感空间是图像特征通过情感分类后映射形成的情感语义图像数据库,并尝试建立一个基于Ekman情绪分类的六维情感空间;王慧芳等提出情感空间建立的主要步骤;朱耀麟等通过实验法建立了情感空间。王伟凝等认为,情感空间中的每个点与图像之间存在着某种对应,而这种对应的联系纽带就是情感的语义描述;王上飞等则提出:情感模型建立的第三步即是情感空间的建立,通过感性图像注释的实验法建立一个L维的情感空间,在该空间可以把每一幅样本图像或每一对形容词看成一个向量。王玉洁等提到情感状态空间,并给出情感状态空间集合S:{Si|i=1,2⋯,N},N表示基本情感状态数。Colombo等建立起图像特征到愉快、紧张、放松、动感之间的映射;毛峡等根据1/f波动理论,按和谐舒适、杂乱、单调三类情感感觉对图像进行分类。同时,他们均指出,情感空间是基于维量空间思想建立的,其中每一种情感都可以看成该空间的一个向量。也就是说情感空间是一种基于类似RGB彩色空间等具有空间维度的思想引导下创立的新概念。情感空间其中一个维度就由情感语义库支撑着。4.5情感空间的建立情感空间包括了情感形容词的选择与量化、情感语义库的建立与分析等内容。所以,建立情感空间的过程,就是充分考虑各个因素以及充分挖掘各因素关系的过程。建立情感空间一般包括以下五个步骤:1.针对图像库的图像特点设计调查问卷;31万方数据 电子科技大学硕士学位论文2.发放调查问卷,收集表达心理的形容词对;3.结合使用调查问卷法与SD法,做认知心理实验,收集被调查者对图像评价的数据,获取明确的形容词对;4.建立情感语义数据库;5.采用多元因子分析的方法对数据库中的数据进行分析,建立情感空间。4.5.1选择情感形容词问卷调查法是确立情感形容词的流行用法。目前处理情感形容词有两种方式,即确定形容词空间或不确定形容词空间。不确定形容词空间的方法,系统并不定义形容词空间,空间的定义是由用户通过主观评估和决策来获取。这种方法可以让用户自由地添加形容词,但有可能产生大量冗余和无效的情感描述。确定形容词空间则使得情感空间的正交性有保障,同时对形容词之间的相似性进行度量可在情感语义分析中进行。但是不能灵活地添加形容词。调查问卷的设计是确保能收集到准确的形容词对的前提保障。问卷的设计要根据实验图像数据库的特点进行,要有针对性,同时兼顾全面性。本文选择建立确定的形容词空间。第一步,首先确定实验所用到的图像库为Corel图像库,此图像库由10000幅数字图像组成。囊括了昆虫、鲜花、风景、人物、形状、纹理等等方面的内容,且格式统一,是大多数图像检索实验所选择的图像库之一。具有一定的代表性。为简化问题,在Corel图像库中有针对性地选取其中的200幅图像作为观测样本。这200幅图像分别是:带人物表情的图像82幅,鲜花图像40幅,风景图像62幅,其它16幅。第二步,针对上述所选择的图像及R.Plutchik的基本情感理论,精心设计调查问卷一份(见附录1)。R.Plutchik的基本情感理论认为:人的情感可分为基本情感和复合情感,基本情感是构成其它情感的基本因子,共有8个,形成4对。分别是喜悦-悲伤、赞同-反感、预期的-出乎预料的、恼怒-恐惧。这8个4对情感的不同加权组合可以形成其它的复合情感。依据此理论,在调查问卷中精心选取一些可能与本图像库出现关联的形容词对作为候选项。第三步,发放调查问卷。确定77名应用心理学专业的在校本科生作为本实验的调查对象。其中男生25人女生40人,年龄在17~20岁之间。发放调查问卷之前先进行适当的培训,说明本次调查的意义、目的及声明填写方法等。共发放调查问卷32万方数据 第四章情感空间77份,收回77份,合格率100%。第四步,整理调查问卷,确立如下表4-1所示20对形容词作为本文情感语义库中的基本情感语义形容词对。表4-1情感形容词对1.高兴的-悲伤的8.热烈的-冷淡的15.蓬勃的-荒凉的2.愤怒的-平静的9.美丽的-丑陋的16.清晰的-模糊的3.严肃的-活泼的10.俗气的-优雅的17.宽广的-狭小的4.惊奇的-平淡的11.温馨的-凄冷的18.整齐的-杂乱的5.喜欢的-厌恶的12.浪漫的-枯燥的19.明亮的-阴暗的6.恐惧的-坦然的13.柔和的-生硬的20.暖色调的-冷色调的7.沮丧的-自信的14.丰富的-单调的4.5.2量化分析量化分析是对经过以上步骤所收集与组织的情感形容词(表4-1)与所选定图像之间联系的一次验证测试。过程分解如下:(1)确定图像使用本文4.5.1第一步中已由Corel图像库中选取的200幅图像中的其中100幅图像作为量化实验使用的量化分析样本。这100幅分析样本图像分别是:带人物表情的图像41幅,鲜花图像20幅,风景图像31幅,其它8幅。(2)确定评价等级评价分为五个等级,用“非常、有些、中性、有点不和非常不”分别对应“0,0.25,0.5,0.75和1”。例如形容词对“高兴的-悲伤的”可以分为五个等级即:非常高兴的,有些高兴的,中性的,有些悲伤的和非常悲伤的。如图4-1所示:非常有些中性有些非常高兴的悲伤的图4-1五级评价等级(3)确定评测对象选择83名大学一年级的在校学生作为本评测对象。其中男16人,女67人。年33万方数据 电子科技大学硕士学位论文龄在17~20岁之间。通过观看100(M=100)幅样本图像,给图像选择情感形容词的同时,确定相应的评价等级,最终形成实验结果。(4)实验结果通过以上实验收集数据,形成用户的情感数据库。实验结果如下表4-2所示:表4-2情感形容词对评测结果等级图图片总片00.250.50.751编数数号1.高兴的-悲伤的173127163942.愤怒的-平静的21403421983.严肃的-活泼的353527524.惊奇的-平淡的92212019715.喜欢的-厌恶的28301810141006.恐惧的-坦然的137316307.沮丧的-自信的415810288.热烈的-冷淡的12221510509.美丽的-丑陋的21449141210010.俗气的-优雅的81741231110011.温馨的-凄冷的1824469310012.浪漫的-枯燥的193010221910013.柔和的-生硬的32292061310014.丰富的-单调的21263272310015.蓬勃的-荒凉的33271419710016.清晰的-模糊的25446111410017.宽广的-狭小的3116844110018.整齐的-杂乱的28223016410019.明亮的-阴暗的2472621410020.暖色调-冷色调112721347100合计3254284083042581723由上表数据可知,对于感受非常明显的情感如高兴的-悲伤的、俗气的-优雅的、温馨的-凄冷的、浪漫的-枯燥的等的图片总数等于样本图片总数且数据评价分布在两端,说明被测者对此类情感比较敏感,易于区分;而对于严肃-活泼、愤怒-平静等评测数据则偏向于中间,甚至于有些情感如恐惧的-坦然的、惊奇的-平淡的、沮丧的-自信的数据比较分散且数值较小,图片总数小于样本总数,说明在样例图中此类情感比较模糊,难以区分。34万方数据 第四章情感空间4.5.3建立情感语义库情感语义库是能为那些强调情感需求的用户提供基于情感关键词对图像实现检索时所需的情感形容词库。情感语义库是以数据库为基础,用来收纳和储存情感语义词的空间。情感语义词是否充分,将影响情感表达是否正确。但如果把所有的形容词都作为情感语义词进行收纳,必然又会使系统膨胀,造成冗余,影响检索速度。因而建立情感语义库的基础是正确选择恰当的情感形容词。采用以上所述建立情感语义数据库的方法,选择Access为建立用户的情感数据库的软件平台。在数据库中建立用户情况表Use_file来记录用户的基本情况(用户ID、姓名、性别、年龄、民族、爱好、职业等)、建立情感语义形容词表来记录形容词、建立图像表Image_files存放图像路径、建立图像评价表来记录用户对图像的评价情况。情感数据库中的用户信息来自用户在使用系统时的注册过程。所建立的数据库如下图4-2示。图4-2数据库示意图4.5.4建立情感空间情感空间的建立重在对上述数据库中的数据采用因子分析的方法进行分析。具体分析步骤如下:①设用户g对图像m第n对形容词的评价为zmng②用下式(4-1)求zmng的平均值ymn:35万方数据 电子科技大学硕士学位论文G1ymnzmng(4-1)Gg1③对所求得的均值标准化,得矩阵X(10020)1x(yy)mnmnnsn(4-2)MM122ynymnsn(ymnyn)其中:Mm1,m1。④对矩阵X做因子分析,如式(4-3):a11a1Lk11k1LXKA'UQAK(4-3)aakkN1NLM1ML其中K为公共因子矩阵,A为载荷矩阵,U为独特因子,Q是U的权值。⑤通过主元分析法求出公共因子F以及载荷矩阵A,将原先的N维的空间降维至L形成L维的正交情感空间,则K矩阵的第m行k(k,k,,k)对应图mm1m2mL像m在情感空间的坐标,A矩阵的第n行a(a,a,,a)对应形容词n在L维nn1n2nL空间的坐标。4.6本章小结本章分别论述了情感、情感计算、情感建模、情感空间的概念,由浅入深,层层推进,既显示单个概念的独立性,也表现了概念间的联系。着重描述了情感空间的构建过程与步骤,详细分解了情感空间最重要的两个分量:情感形容词的选取与情感数据库的建立。最后通过调查问卷等实验法构建了一个L维的情感空间。36万方数据 第五章情感语义与图像底层特征对应标准第五章情感语义与图像底层特征对应标准图像底层特征与情感语义的对应是本系统的核心与关键。图像底层特征的抽取在基于内容图像检索系统中已经相对成熟,而情感空间的研究也是如火如荼。但要真正实现系统对图像情感语义的识别,关键一点就是二者之间建立对应标准。目前大多数的研究者对图像情感语义的识别研究无一例外是站在如何建立二者的映射关系角度上,虽然各有千秋,也确有成就,但却并无重大的进展。这与情感语义与图像底层特征之间的映射缺乏统一的对应标准有着非同小可的关系。这也是目前图像情感语义研究的现状及难点之一。标准是非常重要的约束性规定。俗话说:没有规矩,不成方圆。所有事物的发展都离不开标准,也只有统一标准,技术才能有更宽泛的应用与更好的发展前景。试想如果当初没有TCP/IP,也许我们现在的计算机还在各自为点,决不会有今天网络铺天盖地的壮观场面。如果计算机硬件没有统一的硬件接口标准,那么,计算机到现今可能还会是天价的商用机、专用机,而无法达到如今的通用化与“个人”化。本文在众多学者专家研究基础上提出建立图像底层特征与情感语义对应标准,提出对应标准是一个概念,不仅是一种新的研究与尝试,更是期望以此引起更多研究者的注意与重视,以使标准可以早日真正的确立起来,基于情感语义的图像检索系统可以早日开发出来,推广起来,服务民众。但仅凭一已之力,也只能抛砖引玉而已,是远无法达到真正标准的要求的。本文认为,图像底层特征与情感语义的对应标准是图像底层特征空间与情感空间进行数据对接与交换的一个接口,是两个空间互通有无的枢纽与桥梁。对应标准应该包含对以下内容的规定:情感语义形容词的选取、情感空间的确立、图像特征的提取(提取哪些特征、用何方法提取),以及情感特征与语义词间的对应规则,特征与语义映射的规则与实现等等。基于情感语义的图像检索的最终目标是要使检索出来的结果图像满足用户情感检索的需求,本质上就是要建立合理的计算模型来计算用户表达情感的范围空间,以及这些情感语义概念的形容词和图像特征之间的关系。37万方数据 电子科技大学硕士学位论文另一方面,情感是一个主观性很强的因素。图像相异或图像中的颜色、纹理、形状等任一要素不同均会让人产生千差万别的情绪变化;不同的人看到相同的图像其心理感受不尽相同;即使同一个人观看同一幅图像在不同的时间不同的地点或者受情绪的影响也可能会产生不同的情感波动„„总之,即使所有都相同,但只要有其中一个要素相异,都有可能影响观者的心理感受。这就造成在客观上给一幅图像定位为某种情感带来一定的难度。本章拟通过对图像底层特征与情感关系的描述,分别对颜色、纹理、形状与情感的对应开展论述与厘清。最后结合问卷调查法,选用LFCM-SVM映射算法,建立图像底层特征与高层情感语义的映射关系,以此建立情感与底层特征的对应标准。5.1图像底层特征与情感的关系图像本身蕴含着极其丰富的情感。而图像所蕴含的丰富情感均可以分解为各种不同图像特征或特征的组合所有,或颜色、或线条、或颜色与线条的结合。我国著名画家潘天寿指出,绘画艺术主要是以笔、墨、色、形、位置的近远、光与影的配置、虚实与疏密的分布以及艺术神情风韵来表达它的艺术情感。而这种笔、墨、色毫无疑问可以理解为颜色;形则是形状轮廓;光影配置、虚实疏密的分布则非纹理莫属了。鉴于此,图画中呈现出来的深远意义与丰富感情,其实是由画家一笔一画,一彩一墨组合而来的。5.1.1颜色与情感的关系颜色是最富情感的图像特征,图像中颜色最能反映情感。颜色能给予人们最直接、最强烈的视觉冲击,对人情感的影响尤其显著。色彩在人类视觉中具有十分重要的美学价值。由于人的视觉对于色彩有着特殊的敏感性,因此在大千世界中,色彩所产生的情感魅力往往更为强烈与直接。具有先声夺人力量的色彩是最能吸引视觉的诱饵,也是造成人情感迭宕变化的强势因素。所谓“喜形于色”,莫过于此。不同国家与民族其文化背景不同,人们对颜色的理解有所不同。比如黄色在我国相当长的历史时期,是黄帝的专用之色,象征着黄帝至高无上是权力和尊严。又如白色,在日本,白色是天子的服装颜色;西方国家则认为白色是爱情、圣洁38万方数据 第五章情感语义与图像底层特征对应标准与坚贞的象征,新娘子的婚纱大多数选用的是白色;蒙古人更是以白为吉,称春节为“白节”,每逢节庆喜穿白色服装,象征吉祥如意。我国大多数民族则认为白色是不吉利的颜色,所以丧事又俗称“白事”;我国民间若遇亲人去世须用黑白两色布置灵堂以示肃穆与哀悼。如果有人在民间的丧礼上穿一件大红色的衣服出现,是极其失礼的事情,甚至有可能引来主人的不满。这些从一个侧面说明颜色能给人们带来强烈的情感反应,与人的情感有着直接的关联。颜色应用在各行各业中:在医学上,人们运用大量淡蓝色来使病人镇静、退烧、降低血压;选用赭石色来使病人血压升高,增强新陈代谢;外科则用蓝色布置病房以利于外伤病人克制冲动和烦躁;普遍使用绿色以利于病人休息;在食品包装业,人们运用红、橙色以唤起消费者的食欲;凡高的画之所以能给人以强烈的心理震撼,很大部分是因为其用色大胆华丽,直击人的心底。在现代家居装潢中,色调的运用是最值得讲究的一部分。人们普遍认为冷色调的居室能让人心情平静,有拓宽视野的作用;而暖色调的装潢能让人感觉温暖,激发积极的情感。广告画常常用大片的鲜艳颜色引发人们的注意;电子商务网站则运用色彩把商品装点得愈发精美以吸引潜在的购买者。现代的汽车制造业由于运用了鲜艳的颜色从而推出更受年青人喜爱的各种动感十足的汽车款式。等等。5.1.1.1颜色对情感的影响颜色不仅在我们身边调节情绪,还可左右我们的情感。这就是颜色对情感的影响。颜色对情感的影响有正面的和负面的之分。正面的影响是指通过颜色的运用激发人们乐观、积极、稳定、向上的情绪与精神面貌,而负面的影响是指由于色彩引起人们压抑、沮丧、消极基于是恐惧等不正常的心理反应。视觉所感知的一切色彩现象,都具有明度、色相和纯度三种基本性质。色相也称色调或彩调,通俗讲就是颜色的相貌。人的视觉能感受到且能区分的红、橙、黄、绿、青、蓝、紫等不同特征的色族即色彩的色相。人们常以颜色的色相来命名颜色。明度指颜色的明暗程度。各种有色物体由于它们的反射光量的区别而产生颜色的明暗强弱。颜色的纯度也称色彩的饱和度,是指颜色的纯净程度,它是表示颜色中所含某一色彩的成分的比例。非彩色只有明度的差别,而没有色调和饱和度这两个属性。颜色对情感的影响主要通过对色彩的三个基本属性的变化达到。大多数文献认为:从色调上看,颜色具有冷暖感。所以颜色素有冷暖之分。冷色常常能使人联想到蔚蓝无边的大海、万里晴空、物件的阴影等,因此有寒冷39万方数据 电子科技大学硕士学位论文的感觉,能给人带来宁静、淡雅、清新的感受,但过度的冷色会让人感到沉重、阴森、忧郁,甚至是压抑和沮丧;暖色则常使人联想到旭日东升和燃烧的火焰,因此有温暖的感觉,能给人喜庆、温暖、亲近之感,让人积极、兴奋。但有参考文献认为,暖色较冷色更能加剧人们的焦虑心情,过度的暖色容易让人感到疲劳和烦躁不安甚至是抓狂。不同的颜色给人带来的心理感受不同,即使色调相同,纯度不同的颜色也会给人以不同的感觉。高纯度的颜色如鲜红、鲜绿等颜色由于靠近色相环,所以色彩饱和、鲜明醒目,色彩效果肯定,具有强烈、华丽、鲜明、个性化的特点,能带来较强的心理感受,但久视易造成视觉疲劳。相反,纯度低的颜色如灰色由于靠近无彩色,浑浊模糊,却让人心境平和,感觉柔和朴实,典雅含蓄,富亲和力,具有薄暮感和神秘感。又如大红色,是最纯最饱和最热烈也是最强有力的色彩,对视觉具有强刺激性。所以红色是常用的宣传色,用于标志、旗帜等;红色还是信号色,用于报警、交通等。同时东方民族最喜欢用红色作为欢乐、喜庆的象征。逢年过节,我国民间喜用大红之色以彰显喜庆之感。若遇婚庆嫁娶,更是少不了红色来助庆。贴红双喜、红窗花,穿红衣、着红袜,还要盖红头盖、点红烛,等等,简直是无红不喜,无喜不红。而西方人则将红色用于小面积点缀装饰。又如粉红色是温柔的颜色,代表健康、梦想、幸福和含蓄。如果说红色代表爱情的狂热,那么粉红色则意味着“柔情似水”,是爱情和温馨的交织。色彩的明度不同也会影响人们的情感。如人们都喜欢“窗明几净”的环境,是因为明亮的色彩能让人感觉轻松,而“阴暗潮湿”的地方会让人倍感压抑。成朝晖在其《平面港之色彩构成》中提到:色彩设计师为了赋予色彩更大的魅力,充分了解不同对象的色彩欣赏习惯和审美心理是十分必要的。只有掌握了人们认识色彩和欣赏色彩的心理规律,才能合理地使用色彩,美化人们的生活。5.1.1.2颜色与情感关系的研究学者们依据颜色心理学的研究为基础,从不同的角度展开了对颜色与情感关系的深入的研究,许多有意义的研究成果应运而生。为了更形象具体地显示这些成果,特列表如下:表5-1颜色与情感联系研究现状表姓名研究成果Itten指出颜色与情感语义间的关系,发现颜色搭配与效果的关系。Mojsilov提出一种新的颜色表示法和匹配算法,克服了传统颜色直方图的40万方数据 第五章情感语义与图像底层特征对应标准缺点,并将其应用到图像检索中。Boyatzis等发现一些纯度较低的颜色即浅色与积极情感关联,而一些纯度较高的颜色即深色与消极情感关联。Colombo创新性地利用颜色与语义之间的关系理论来提取合适的颜色特征。得到图像的基本情感描述:joy、uneasy、relax、action。Hemphill发现颜色明暗程度与人类积极/消极情感的规律。BallastD.K发现冷色生发宁静和安详,暖色具有积极和刺激的规律。LangJ发现冷色产生宁静和广阔,暖色产生收缩和烦躁的规律。Nilgun等研究不同背景下人对亮度、饱和度不同的颜色接受度。发现当颜色饱和度和亮度都达到最大时比较受欢迎。而蓝色是最不挑背景的大众色。Sunhyung研究时尚织物中颜色的情感效果,得出优雅、舒适、个性、简单等等情感效果与颜色间的关系。YuChuan将颜色和谐效果应用到室内色彩设计中,指出颜色与情感的联Shen等系,并将其用于指导图案、环境的设计。李海芳等根据调查和文献参考,总结出颜色与情感间的一般对应关系。王伟凝等论述图像特征(颜色、纹理、形状)和情感间的关系。5.1.1.3颜色与情感的对应关系众所周知,虽然色彩所引起的复杂情感反应是因人而异的,且受不同国家不同民族不同文化背景等因素的影响。但是,由于人类生活环境和生理构造等方面存在着共性,因此对大多数人来说,无论是单一色,或者是几色的混合色,在色彩的心理感受及审美趣味方面,也还是存在着一定的共性的。这就是人所共有的生活经验。例如人们普遍认为绿色是和平的颜色。粉色代表温馨与浪漫,是情侣的首选颜色。红色让人觉得热情与刺激,是许多标志与旗帜的选用色。黄色代表成熟与收获,同时也像阳光一样给人带来温暖、光明与辉煌的感觉。橙色易引起食欲,是现代食品包装设计常用色。灰色常与精致、含蓄、高雅等词语关联。而金银两种金属色则显得高贵华丽,给人以富丽堂皇之感,象征权力和富有。同时金色是佛教用色,可以让人联想到佛法无边,超世脱俗的境界。等等,不一而足。对颜色与情感之间的联系,前面已经有非常多的色彩学者与心理学专家们进行了非常详细与深入的研究。而且这些研究也得到了人们的共识。因此,在这里,不作赘述,只做一定的总结。可给出情感与颜色对照表如附录2所示。5.1.1.4颜色的搭配对情感的影响色彩的搭配对情感也有一定的影响。和谐的颜色组合令人心旷神怡,能起到焕发精神的作用;而失谐的颜色搭配则会让人精神萎靡,甚至烦躁恶心。例如红41万方数据 电子科技大学硕士学位论文色和黄色搭配,让人有欣欣向荣的感觉,我国的国旗就是运用红色底点缀黄色星星的搭配设计。蓝色与绿色搭配会产生寒冷的感觉,但用在医院病房却会对需要平静的病人康复有意想不到的帮助。黄色与绿色搭配让人想到春天的大地;黑色与红色是最经典的搭配,让人产生高贵、神秘、时尚之感;黑色与白色搭配得当也会使人赏心悦目,但搭配失衡却会让人觉得死气沉沉„„正是由于不同的颜色通过多、少,厚、重,相邻或对比的搭配即可以给人带来千变万化的视觉冲击与心理感受,所以时装设计师运用各种颜色的搭配,令T台上的时装璀灿若花,成为女人共同的梦想;现代家居装潢,对色彩的搭配提出极高的要求,家居设计师运用各种色彩搭配使人们居住的环境或温暖或清静或祥和或华丽或时尚或自然或梦幻„„总之,是要通过色彩让人们生活在一个舒适的空间里。颜色搭配与情感的关系见附录3。5.1.2形状特征与情感的关系5.1.2.1概述俗话说,没有规矩,不成方圆。图像中的方圆状物之态,正是由于形形色色的线条与轮廓“禁锢”而成。形状是图像特征的又一要素。如果说颜色能给视觉带来强烈的冲击,形状则会另思维的触角伸得更远。在婴幼儿大脑潜能开发研究中,人们发现,形状是开启婴儿思维之门的金钥匙。从婴儿玩智慧球的游戏中可以得出,婴儿最先认识的是圆形,最难处理的是三角形。说明人类对于没有棱角的圆形比较容易接受,而对于棱角鲜明的三角形天生有一种抵触。ltten在设计与形态中提到:“在中国画中,画面也许只是一条宽窄不一的线条,但它却可以充分表现艺术家的情感”。其他的研究也充分显示,图像中的线条具有表现性形态,正如直线表达无限,斜线表示运动,圆形和隆起的曲线表达柔软、优雅的信息,富有节奏感。形形色色的线条传达出不同的思想情感,具有丰富的表现力。表5-2总结了线条与情感的关系:表5-2线条与情感对照表线条形态情感语义词水平线宽广、静止永恒、安定、寂静垂直线干脆、直接、明确尊严、紧张、庄重、上升感、永恒斜线生动、朝气运动感弧线(曲线)隆起、韵律、节奏柔软、优雅42万方数据 第五章情感语义与图像底层特征对应标准形状给人带来的心理感受绝不亚于颜色。在婴幼儿的潜能开发中,形状是最经常使用的内容,其常与颜色搭配,形成各种风格的图案,刺激婴儿感官,可以令婴儿产生不同的感觉,从而达到促进婴幼儿的感性认识与情感生发,激活潜能的目的。不同的形状传达不同的视觉效果,所引发的思想感情也大相径庭。研究[18]结果普遍认为,几何形状具有简洁、单纯、明朗的机械性和冷漠感。而有机形状如自然中的物形则具有活泼感和“人情味”。如鲜花、树木的形状给人亲近感;春天的田野给人生机勃勃的感觉;静静的流水给人以静谧等。表5-3总结了一般形状与情感的关系:表5-3一般形状与情感对照表形状情感P形稳定、庄重S形变化、活泼、优美、动感C形向心流动感口形端正、集中、古板十形严肃、寂静O形圆顺、松驰、柔和V形不稳定、向上扩张心形浪漫、温馨、同情5.1.2.2形状与情感关系的研究基于情感的形状特征提取相对要简单,因为它的目的不是想由形状区分对象类型,而是大致地判断形状是何类型即可。如判断线条,只需判断大致的线条是直线还是曲线或者折线即可,判断形状则只要给出形状区域是几何形还是有机形等。但目前研究形状与情感关系的学者为数还不多,有待更进一步的研究。已有的形状与情感关系的研究成果:Colombo通过对线条进行Hu变换求得线条斜率直方图,并对应各种情感,结合其他特征对图像情感语义进行判别。Iqbal等通过实验法证明形状特征在图像内容判断中的重要性。李海芳等研究多特征综合的图像模糊情感注释方法,并总结出形状与情感对照关系。王伟凝等进行图像情感语义研究,详细分析形状与情感的关系。根据众学者研究成果总结,可给出如附录4所示的形状与情感对照表。43万方数据 电子科技大学硕士学位论文5.1.3纹理特征与情感的关系5.1.3.1概述纹理是附于物体表面的材质特征,也称为肌理,是图像的重要特征之一。不同材质,其纹理组织结构不同,带给人的感受也不同。如水的波纹能让人产生晃动之感,木头的纹理使人感觉亲切,花瓣的表面甚至能勾起人“一亲芳泽”的欲望。纹理是图像的一个特征,重要却难以描述,至今还没有人能给出清晰准确的定义。这主要是由于人对纹理的视觉认识存在很大的主观性,很难用文字来进行描述等原因造成的。陈俊杰等在《图像情感语义分析技术》中认为“很多图像在局部区域可能呈现出某种不规则性,而在整体上可能呈某种规则性,一般把图像中这种局部不规则而整体有规律的特性称为纹理”。Tamura等从视觉的心理学角度提出从六个角度:粗糙度、对比度、方向度、线性度、规整度和粗略度来对纹理进行描述的方法,不仅使所有纹理具有直观的视觉意义,且可提供一个友好的用户界面。因此Tamura纹理表示在基于情感的图像检索中具有非常的吸引力。纹理在视觉上的刺激不如颜色直观,因此对情感的影响也没有颜色那么强烈。人们也还没有给予纹理与情感的关系研究以足够的重视。但其对心理和情感的作用是不容忽视的。5.1.3.2纹理与情感关系的研究目前,基于纹理对情感的刺激关系展开研究的学者与单位为数不多。有:Lin等给出一个使用5个语言短语来描述6个Tamura纹理特征的方法。Chile大学正在研究建立一个TEXTRET系统,能用与人类感觉相似的方法定性描述纹理。王伟凝等描述了一定程度的纹理中的情感表现如光滑给人细腻、放松的感觉,粗糙让人觉得温馨、温柔等。李海芳等人则总结出了形状、纹理与情感的对照表。根据众多学者研究成果总结,可给出纹理与情感对照表如附录5所示。44万方数据 第五章情感语义与图像底层特征对应标准5.2图像底层特征到情感语义的映射分析5.2.1概述迄今为止,对图像特征与情感语义映射关系的研究尚处于实验阶段。但学者们从研究中得出一个有益的发现,那就是从图像低阶视觉特征到高阶情感语义的映射缺乏语义规则。因此只有充分挖掘图像低阶特征到高阶情感语义的映射规则,并将其应用到图像情感检索中,才会使人类以及机器早日掌握图像特征的映射过程。为此,众多学者尝试使用各种不同的算法与工具,致力于研究二者间如何建立起一种自动映射的关系。在目前许多的研究里,普遍认为从低阶图像底层特征到高阶情感语义的映射须要一种让机器自动学习的策略即机器学习。机器学习是一个基于经验数据的函数估计问题,它通过从有限数量的观测样本中学习归纳出系统规律,使其能够尽可能准确地预测未知的输出值。而图像与情感语义映射的机器学习机制通常的做法是首先从适量的样例图像中分割一部分作为训练集,剩余部分作为应用集,使系统从训练集中通过学习获取某种规律,然后自动地把这种规律推广到应用集中。[19]许多学者做了大量的实验,证明有效性可达90%以上。这也从一定程度说明了,机器学习机制是适应于建立图像底层特征与情感语义之间的映射关系的较佳方法。机器学习有线性方法和非线性方法之分。具体的线性方法有:回归、多元分析、量化理论和相关计算;非线性方法有:神经网络、模糊理论和交互式遗传算法等。由于图像特征与情感关系的复杂性,线性映射不能很好地描述它们的关系。而非线性映射则以神经网络算法与支持向量机算法为主流。从已有的文献可以看出,神经网络算法有比较宽广的应用,但其须要足够多并且具有代表性的训练样[20]本支持才能获得较高的准确率。现在一种新的观点是使用支持向量机的方法。支持向量机(SupportVectorMachine,SVM)是20世纪90年代中期发展起来的机器学习技术,是继神经网络之后模式识别领域新的研究热点。SVM建立在完整的统计学习理论基础之上,以结构风险最小化原则取代传统的经验风险最小化原则,通过最小化期望风险的上界而不是追求训练样本错误最小化,使其具有更强的泛化能力。与传统方法相比,SVM既满足了小训练样本的问题,同时有效地45万方数据 电子科技大学硕士学位论文克服维数灾难及局部极小问题,核函数的引入更是使得SVM在处理非线性问题中表现出卓越的性能。5.2.2支持向量机算法分析支持向量机SVM是统计学习理论中最年轻的内容,也是最实用的部分。其基本思想是:利用核函数,将原样本空间映射到高维特征空间,使得样本在该特征空间中线性可分,从而将原样本空间中的非线性分类和回归问题转化为高维空间的线性问题。目的是要找到一个超平面亦即最优分类面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远。与传统的非线性机器学习方法相比,支持向量机具明显而独特的优点:支持小训练样本;以结构风险最小化代替经验风险最小化;有效克服维数灾难;完美解决局部极小问题等等。即使如此,传统的SVM在实际应用中由于是针对二分类问题提出的,对于人们更常面对的多类分类情况还是存在不足。为此,研究学者提出了更多的SVM多[21]类分类策略,以解决多类分类问题。其中基于聚类的SVM多类分类法FCM-SVM适时地被提了出来。据文献分析证明,FCM-SVM是最适宜于用做图像语义映射的方法。其由于融入了模糊聚类及二叉树的思想从而使多类分类问题得到较有效的解决。但其针对图像语义的映射仍然存在一些不足:由算法形成的二叉树的分支较多,从而使识别错误的概率增大。因此又有学者在FCM-SVM的基础上,引入了线性判别分析技术LDA(LinearDiscriminantAnalysis)形成LFCM-SVM用以减[22]小构建二叉树的复杂性,进而改进FCM-SVM算法执行效果。5.2.3LFCM-SVM映射方法LFCM-SVM是学者针对FCM-SVM聚类算法本身并不考虑样本的类别信息从而增大了识别错误的可能性而提出的用于减小构建二叉树复杂性的改进FCM-SVM算法。由于引入了线性差别分析技术LDA,使得二叉树复杂性得以改进。张炜和陈俊杰等人通过实验证明LDA的引入使得FCM-SVM算法有效地提高了分类树图像语义识别的准确率,满足图像语义映射的要求。特别是采用两种特征融合时该算法的准确率达到了90%,证明了LFCM-SVM是适宜进行图像语义分[23]类的算法。46万方数据 第五章情感语义与图像底层特征对应标准5.2.3.1LFCM-SVM的核心算法1.基于模糊C均值聚类的SVM算法的目标函数模糊C均值聚类算法(fuzzyC-meansclustering,FCM)以其实现简单、收敛速度快等优点而成为最常用的聚类算法之一,是构建二叉树的依据。设待聚类样本集为X={xi,i=1,2,„,n},则FCM的目标函数可定义如下:Cnm2Juijxjvi(5-1)i1j1其中n为样本个数,vi(i=1,2,„,C)为各类的聚类中心,C为待聚类数目,uij=(i=1,2,„,C,j=1,2,„,n)是第j个样本对第i类的隶属度函数。C式(5-1)的约束条件为:uij1(j1,2,,n),其中m∈(1,∞)为加权指数。i12.FCM-SVM算法实现的步骤(1)首先,令C=2,初始化m和vi;(2)用下式更新uij和vi;1u,i1,2,,C(5-2)ijC221/(m1)(xtvi/xtvj)i1n1mvinuijxj,i1,2,,C(5-3)umj1ijj1(3)若满足终止条件:(i)(i1)JJ(其中i表示第i次循环)(5-4)跳转(2)继续迭代,否则聚类完成,待分类集被划分为A、B两个分组;(4)划分正、负二分类器为A、B;(5)判断,是否每组都只含一个类别?如是则停止迭代,否则重复以上步骤至所有分组均只包含一个类别,即所有类别均被找出。3.线性判别分析法LDA47万方数据 电子科技大学硕士学位论文N设X={xi,i=1,2,…,n},xi∈R为待训练样本集。其中,n为样本个数,N为样m本特征维数,共分为c类,降维后xi∈R(m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭