梁倩《多媒体技术》第9章多媒体数据库与检索

梁倩《多媒体技术》第9章多媒体数据库与检索

ID:65392879

大小:576.79 KB

页数:60页

时间:2024-08-29

上传者:U-2941
梁倩《多媒体技术》第9章多媒体数据库与检索_第1页
梁倩《多媒体技术》第9章多媒体数据库与检索_第2页
梁倩《多媒体技术》第9章多媒体数据库与检索_第3页
梁倩《多媒体技术》第9章多媒体数据库与检索_第4页
梁倩《多媒体技术》第9章多媒体数据库与检索_第5页
梁倩《多媒体技术》第9章多媒体数据库与检索_第6页
梁倩《多媒体技术》第9章多媒体数据库与检索_第7页
梁倩《多媒体技术》第9章多媒体数据库与检索_第8页
梁倩《多媒体技术》第9章多媒体数据库与检索_第9页
梁倩《多媒体技术》第9章多媒体数据库与检索_第10页
资源描述:

《梁倩《多媒体技术》第9章多媒体数据库与检索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

第9章多媒体数据库与检索 9.1多媒体数据库概述一、数据管理方法的发展从计算机技术的角度来看,数据管理方法已经经历了不同阶段。最早,数据是用文件直接存储的,因为早期的计算机主要用于数学计算,虽然计算的工作量大,过程复杂,但其结果往往比较单一,在这种情况下,文件系统基本上是够用的。 随着计算机技术的发展,计算机越来越多地用于信息处理,如财务管理、办公自动化、工业流程控制等。这些系统使用的数据量大、内容复杂,而且面临数据共享、数据保密等方面的需求,于是便产生了数据库系统。数据库系统的一个重要概念是数据独立性。用户对数据的任何操作(如查询、修改)不再是通过应用程序直接进行,而必须通过向数据库管理系统(DBMS)发请求来实现。DBMS统一实施对数据的管理,包括存储、查询、处理和故障恢复等,同时也保证数据库在不同用户之间数据共享,如果是分布式数据库,这些内容都将扩大到网络范围之上。 图9-1DBMS的三层模式依据独立性原则,DBMS一般被按层次划分为三种模式:物理模式、概念模式和外部模式,如图9-1所示。 物理模式的主要职能是定义数据的存储组织方法。如数据库文件的格式、索引文件组织方法、数据库在网络上的分布方法等。概念模式定义抽象现实世界的方法,概念模式通过数据模型来描述,数据库系统的性能(包括可用性、便利性及效率等)与数据模型直接相关。外部模式又称子模式,是概念模式中对用户有用的一部分。 数据模型的不断完善和变革,也就是数据库系统发展的历史。数据库数据模型先后经历了网状模型、层次模型、关系模型和面向对象模型等阶段。其中,关系模型因为有比较完整的理论基础,“表格”一类的概念也易于被用户理解,因而逐渐取代了网状、层次模型,在商业应用数据库中居主导地位。关系模型把现实世界事物的特征抽象成数字或字符串表示的属性,每一种属性都有固定的取值范围。于是,每一个事物都有一个属性集及对应的属性值集,把他们组织成具有以下性质的二维表格,便成为关系: (1)表格中的任何两行数据都不完全相同。(2)表格中每一列的所有数据属于同一属性。表头定义的是属性名,属性名不允许重复。不难看出,关系模型主要针对的是整数、实数、定长字符等规范数据,因此,关系数据库的设计者必须把真实世界抽象为规范数据,这要求设计者具有一定技巧,而且有些情况下,这项工作会特别的困难,例如用文字描述一个人的长相,抽象很难完成,抽象得到的结果往往难以和原始信息相吻合。 近年来,随着多媒体数据库的引入,对数据的管理方法又开始酝酿新的变革。我们知道,传统数据库的模型主要针对整数、实数、定长字符等规范数据。数据库的设计者必须把真实的世界抽象为规范数据,这要求设计者具有一定的技巧,而且在一定情况下,这项工作会特别的困难。即使抽象完成了,抽象得到的结果往往会损失部分的原始信息,甚至会出现错误。 当图像、声音、动态视频等多媒体信息引入计算机之后,可以表达的信息范围大大扩展,但又带来许多新的问题。在这种情况下,如何使用数据库系统来描述这些数据呢?另一方面,传统数据库可以在用户给出查询条件之后迅速地检索到正确的信息,但那是针对使用字符数值型数据的。现在,我们面临着这样的问题:如果基本数据不再是字符数值型,而是图像、声音,甚至是视频数据,那我们将怎样检索?如何表达多媒体信息的内容?我们应该如何组织这些数据呢?查询应该如何进行?这些都是我们不得不考虑的。 多媒体数据库是数据库技术与多媒体技术结合的产物。多媒体数据库不是对现有的数据进行界面上的包装,而是从多媒体数据与信息本身的特性出发,考虑将其引入到数据库中之后而带来的有关问题。多媒体数据库从本质上来说,要解决三个难题。第一是信息媒体的多样化,不仅仅是数值数据和字符数据,要扩大到多媒体数据的存储、组织、使用和管理。第二要解决多媒体数据集成或表现集成,实现多媒体数据之间的交叉调用和融合,集成粒度越细,多媒体一体化表现才越强,应用的价值也才越大。第三是多媒体数据与人之间的交互性。没有交互性就没有多媒体,要改变传统数据库查询的被动性,能以多媒体方式主动表现。 二、多媒体数据库的数据1、传统的数据库关系数据库主要针对的是整数、实数、定长字符等规范数据。关系数据库采用关系框架来描述数据之间的关系,通过把数据抽象成不同的属性和相互关系建立起数据的管理机制。对于一个具有复杂结构的实体(如雇员),关系数据库需要把它分解,分解的结果可以用最简单实用的关系(如雇员和部门)表示。实体的结构语义隐性地包含在两个关系的相同属性(部门编号)中。只有通过联结(join)、投影(project)等操作才能体现出结构语义。 2、多媒体带来的问题数据量庞大且媒体之间数据量的差异也极大,从而影响数据库的组织和存储方法。媒体种类的增加了数据处理的困难数据库的多解查询问题用户接口的支持多媒体信息的分布对多媒体数据库体系所带来的巨大影响在多媒体数据库管理系统中尽可能采用短事务,然而有时需要有处理长事务的能力。多媒体数据库对服务质量的要求多媒体数据管理还要考虑版本控制的问题 3、多媒体数据库的数据多媒体数据库可以说是一种数据容器,是因某种应用的需要而建立的,目的是组织有特定联系的数据,以便对这些数据进行管理、运用和共享。多媒体数据库所组织的数据可以包括数值、字符串、文本、图形、图像、声音、和视像等。1、数值在数据库中,数值可以用来表征事物的大小或高低等简单属性,例如,人事档案库中的年龄、工资、身材等。也可以表示事物的类别、层次等,如性别、部门、学历等。对数值数据可以进行算术运算,可以提供有关事物的统计特征。2、字符串字符串即由数字、字母或其它符号连接组成的符号串,其形式近乎于事物本身的特征,并常通过各个角度对事物进行描述,例如,电话号码、地址、时间等。对字符串数据可以进行连接运算,在数据库管理中是较便于检索的一种类型。 3、文本大量的字符串组成文本数据。文本主要以自然语言对事物进行说明性的表示,例如,简历、备注等。其内容抽象度高,计算机理解需要基于一定的技术。在管理上也增加了难度,例如,存储问题、语义归类问题、检索问题等。4、图形图形数据以点、线、角、圆、弧为基本单位,一个完整复杂的图形也可以分解为这些基本的元素来存储。此外,还必须保存各图形元素之间的位置与层次关系。例如,图形元素库、工程图纸库等。图形数据是基于符号的,因此存储量小,便于存取和管理,但图形的使用以显示为主,必须结合图形显示技术。5、图像图像数据以空间离散的点为基础,如果对这种原始数据进行存取的话,将不利于将来对数据的检索,所以通常都通过一定的格式加以组合。数据库中常用尺寸、颜色、纹理、分割等对抽象的语义来描述图像的属性。在特定范围内,图像数据库在存取和检索方面也已经有成功的应用,例如,指纹库、人像库、形体库等。 6、音频音频分为声音、语音和音乐。其中声音数据的范围太大太杂,不便于存储和管理。语音数据的存取也是建立在波形文件基础上的,鉴于语言、语音以及语气的诸多因素,波形的检索还存在着较大的难度,只有对各声波段附加数值、字符串或文本数据,并以它们作为检索的依据,才能达到非声波本身属性方面的的检索。在目前的实际应用中,只有对特定声音或特定语音的存取才具有实际意义。而音乐是表示乐器的模拟声音,它以符号方式记录信号,因此容易存取、检索和管理。它类似于图形,一段完整复杂的音乐可以分解音符、音色、音调等元素来存储。此外,还必须保存时间及其它相关属性。 7、动画和影像动画和影像类似与图像,与图像的区别是它的表现必须时间属性的变化密切配合。动画和影像数据可以分解成文字、解说、配音、场景、剪辑以及时间关系等多种元素,在空间和时间上的管理比其它数据要复杂得多,无论是对各元素的检索还是对组合元素的检索,都存在着相当的难度。但若作为一个整体,可以如声波那样附加以特定的数数据,实现非动画和影像本身属性方面的检索。 三、多媒体数据库体系结构1、多媒体数据库的一般结构形式(1)联邦型结构针对每一种媒体建立一个独立的数据库管理系统;这些数据库通过相互通信来协调和执行相应操作;对每种多媒体数据的管理是分开的。缺陷:当多种媒体的联合操作时,增加了用户的负担。如果各种媒体数据库设计时没有按照标准化的原则进行,他们之间的通信和使用都会产生问题。 图9-2联邦型多媒体数据库结构 (2)集中统一型结构各种类型的媒体统一建模,只用一个单一的多媒体数据库进行管理,并只用一个多媒体数据库管理系统对这些媒体信息进行操作,各种用户需求被统一到一个多媒体用户接口上,多媒体的查询检索结构可以统一表现。缺陷:目前还没有一个比较恰当而且高效的方法来管理所有的多媒体数据,因此很难实现。 图9-3集中统一型多媒体数据库结构 (3)客户/服务型结构客户/服务型结构由多媒体数据库、各媒体服务器、多媒体管理服务器、用户接口程序和用户应用程序组成。其中各种媒体数据库相对独立,并通过专用服务器和一个多媒体管理服务器相连。多媒体管理服务器综合各专用服务器的操纵,通过特定的中间件系统连接用户的接口程序,最终达到与客户之间的信息交换。这种结构比较适用于网络环境中,用户可以单独选择或组合选择多媒体服务器的服务。但作为开放互联网中的一种有效的应用,必须基于一定的标准,包括多媒体数据类型的模型、数据库模型、标准用户接口等。缺陷:要对服务器和客户进行仔细的规划和统一的考虑,采用标准化和开放的接口界面。 图9-4客户/服务型多媒体数据库结构 (4)超媒体型结构各种媒体数据库分散存储于与网络有连接的存储空间,互联网提供了一个信号传递的通道。该体系结构强调对数据时空索引的组织,通过建立适当的访问工具,就可以随意访问和使用这些数据。图9-5超媒体型多媒体数据库结构 2、多媒体数据库的层次结构(1)传统数据库的层次传统数据库层次划分为三层模式:物理模式、概念模式和外部模式。(2)多媒体数据库的层次划分在引入多媒体数据后,传统数据库层次划分肯定不能满足要求,就必须寻找恰当的结构分层形式。已有多种层次划分,包括对传统数据库的扩展、对面向对象数据库的扩展、超媒体层次扩展等。虽然各有所不同,但大都是从最低层增加对多媒体数据的控制与支持,在最高层支持多媒体的综合表现和用户的查询描述,在中间增加对多媒体数据的关联和超链的处理。在这里我们综合各种多媒体数据的层次结构的合理成分,我们提出一种多媒体数据库层次结构的划分: 图9-6多媒体数据库层次示意 媒体支持层建立在多媒体操作系统之上,针对各种媒体的特殊性质,在该层中要对媒体进行相应的分割、识别、变换等操作,并确定物理存储的位置和方法,以实现对各种媒体的最基本数据的管理和操纵。由于媒体性质差别大,对于媒体的支持一般都分别对待,在操作系统的辅助下,对不同媒体实施不同的处理,完成数据库的基本操作。存取与存储数据模型层多媒体数据的逻辑存储与存取,各种媒体数据的逻辑位置安排、相互的内容关联、特征与数据的关系以及超链的建立等都需要通过合适的存取与存储数据模型进行描述。 概念数据模型层对现实世界用多媒体数据信息进行的描述,也是多媒体数据库中在全局概念下的一个整体视图。通过概念数据模型为上层的用户接口、下层的多媒体数据存储和存取建立起一个在逻辑上统一的通道。存取与存储数据模型层和概念数据模型层也可以通称为数据模型层。多媒体用户接口层完成用户对多媒体信息的查询描述和得到多媒体信息的查询结果。这层在传统数据库中是非常简单的,但在多媒体数据库中这一层成了最重要的环节之一。用户首先要能够把它的思想通过恰当的方法描述出来,并能使多媒体系统所接受。次之,查询和检索到的结果需要按用户的需求进行多媒体化的表现,甚至构造出“叙事”效果。 9.2多媒体数据模型一、多媒体数据模型的发展数据模型是数据特征的抽象,描述的是数据的共性,计算机不可能直接处理现实世界中的具体事物。需要把具体事物转换成计算机能处理的数据,在数据库中用数据模型来抽象、表示和处理现实世界的数据和信息。数据模型应满足以下3方面需求:(1)能比较真实地模拟现实世界(2)容易被人理解(3)便于在计算机上实现根据数据模型的发展,可以划分为三个阶段:第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的数据库系统。 二、扩充的关系数据模型扩充的原因:传统的关系模型结构简单,是单一的二维表,数据类型和长度也被局限在一个较小的子集中,又不支持新的数据类型和数据结构,很难实现空间数据和时态数据,缺乏演绎和推理操作,因此表达数据特性的能力受到限制。在MDBMS中使用关系模型,必须对现有的关系模型进行扩充,使它不但能支持格式化数据,也能处理非格式化数据。 1、引入抽象数据类型(ADT)通过增加描述声音、图形或图像等特征的抽象数据类型(包含一个或多个子类型的数据类型),来增加RDBMS对多媒体数据的管理能力。这种扩展方法的优点是以极小的代价保留了关系型数据库的内核和管理方式,拓宽的对多种媒体的管理能力。但由于基于二维构造的多媒体数据模型无法反映各媒体之间的空间、时间和语义关系,有关的处理必须用其它应用程序来实现,所以在多媒体数据的同步和集成方面存在很多问题,且对多媒体数据的基于内容的检索和查询更加难以实现。 2、引入嵌套表这种拓展方法是在记录和表之间建立层次关系。在1NF关系模型中,必须遵守的原则是要求每一个属性均为原子数据类型,因此同一个属性可能不得不存在于若干个关系中。为了改变这种冗余的关系模式,NF2模型(NonFirstNormalForm),即非第一范式中引入了嵌套表的概念,不再遵守“表中不能再有表”的规定。这样就能使层次结构在关系数据库中得到应用,如表9-1,同时在关系数据库中引入抽象数据类型,使得用户能够定义和表示多媒体信息对象。从而来提高关系数据库处理多媒体数据的能力。 表9-1NF2关系模型中嵌套属性1属性2…GeneralGeneral 许多关系型数据库都利用标准的数据区域进行扩展,如FoxPro的General字段,Windows的标准动态注释、格式注释、图形等,去增加多媒体数据的表示。虽然NF2方法可以利用关系数据库传统优势(数据类型的数据表示和操作),可以延用关系数据库语言或其他通用语言。但无法增强建模能力,不能较好地反映多媒体数据所特有的时空关系,同时多媒体对象的存取、检索或其它处理上仍存在相当大的困难。 三、面向对象数据模型由于多媒体数据具有对象复杂、存储分散和时空同步等特点,传统的关系型数据模型以及采用扩展关系的方法都无法很好地体现这种多媒体所固有的特性。面向对象的方法的出现以及它在复杂数据方面的优势,渐渐引起了人们的重视。面向对象数据库建立在对象模型的基础上,以定义对象的属性、集合、行为、状态和联系等为主要描述方式。 面向对象系统中,通过引入类、对象、方法、消息、封装、继承等概念,可以有效地描述各种对象及其内部结构和联系,这种机制可以很好地满足多媒体数据库在建模方面的要求,并且能更好地实现数据库的存储、查询以及其他操作,目前来讲,虽然所能建立的多媒体对象模型,大多是能满足图形界面应用的对象,但是面向对象的方法为新一代的多媒体数据模型打下了良好的基础。许多多媒体资料可以抽象为被类型链联接在一起的结点网络,可以自然地用面向对象方法所描述。 面向对象的基本概念对象是问题领域中的事物的表示或描述,世界上任何事物都是对象。对象具有名字标识,并具有自身的状态和功能。对象包含三个重要的因素:(1)属性:对象的性质,即用来描述和反映对象特征的参数。对象的属性可以是系统或用户定义的数据类型,也可以是一个抽象的数据类型(2)方法:对象的行为,定义在对象属性上的一组操作称为对象的方法。实际是将一些通用的过程编写好并封装起来,作为方法供用户直接调用。(3)事件:响应对象的动作称为事件,它发生在用户与应用程序交互时。如单击控件、鼠标移动、键盘按下等。在面向对象的系统中,对象之间的通信和请求对象完成某种处理工作是通过消息传送实现的。消息传送相当于一个间接的过程调用,也就是用户编写的程序。 类是对象的抽象,也是创建对象实例的模板。类是由用户定义的、关于对象的结构和行为的数据类型,包含了创建对象的属性描述和行为特征的定义。换句话说,将那些具有相同的构造,使用相同的方法,具有相同变量名和变量类型的对象集中在一起形成类。类中的每个对象称为类的实例。类中所有的对象共享一个公共的定义,而赋予变量的值是各不相同的。继承是一种联结类的层次模型,并且允许和鼓励类的重用,对象的一个新类可以从现有的类中派生,这个过程称为类继承。继承有属性的继承和功能的继承两种,派生类可以继承其基本类的所有属性和功能,并在其基础上具有更多的属性和功能。继承性体现了一般与特殊的关系,并能很好的解决了软件的可重用性问题。例如,Windows应用程序窗口和文档窗口可以看作从一个窗口类派生出来的,但是这两个窗口子类添加了不同的特性。 封装是将大部分实现细节隐藏起来的一种机制,是对象和类概念的主要特性。封装是把过程和数据包围起来,对数据的访问只能通过已定义的界面。也就是说,现实世界可以被描绘成一系列完全自治、封装的对象,这些对象通过一个受保护的接口访问其他对象。封装保证了模块具有较好的独立性,使得程序维护修改较为容易。对应用程序的修改仅限于类的内部,可以最大限度地减少因应用程序修改而带来的影响。多态性包括参数化多态性和包含多态性。参数化多态性是指根据不同的参数类型自动调用对应程序段,例如同样是加法,数字相加和时间相加的实际计算方法是不同的。包含多态性允许不同类的对象对同一消息作出响应。例如同样是最大化操作,父窗口和子窗口的实现过程是不同的。多态性具有灵活、抽象、行为共享、代码共享的优势。 包含就是对象组合。复杂数据可能是多种简单数据的组合,所以一个对象中可以包含其它对象,这种对象称为复杂对象或复合对象。包含对象可以有多层,从而形成了对象间的包含层次。 在多媒体数据模型中,常用的语义关联主要有以下一些:但他们并不是标准的,在不同的系统中,可能会有不同的定义.聚集关联(A关联):定义一个实体类的一组属性,这些属性的域既可以是实体类也可以是域类。概括关联(G关联):表示实体之间的子类与超类的继承性关系,当一个子类又同时是另一个类的超类时,就形成了G关联层次结构,当允许有一个或一个以上超类时,就形成了G关联网络结构。相互作用关联(I关联):类似于E-R模型中的实体间的关系,用来表示两个实体类之间的相互作用或关系。I关联定义的类之间的关系可以是一对一、一对多或多对多关系。I关联可以由用户命名,也可以带有自己的属性、操作与约束规则。Has-method和has-rule关联:为表示一个实体类具有数据类型为method或rule的属性而引入的比较特殊的聚集关联。面向对象数据库系统 面向对象数据库系统包括数据库和数据库管理系统。系统开发主要包括定义、查询、操纵和功能模块设计。定义:包括类的创建和对象的创建两部分。对象的创建是以类为基础的,面向对象程序设计语言中,一般只提供如数字、字符等最基本的类。大量的复合类需要用户来创建,创建类需要提供5个方面的信息:类标识、相关属性组、操作程序组、语义完整的一组约束条件、可以继承的类型集。查询:包括结构、属性、行为和内容。查询依据可以是类名、对象名、内容或概念。如通过对象名可查询对象的属性值,通过类名查询类结构、该类中对象或对象的属性以及对对象操作等。操纵:包括可以对类和对象进行插入、删除和修改操作。模块设计:主要包括数据库管理系统要实现的多媒体管理和使用的过程代码,例如,数据的统计、报表、交互方式等。 ObjectorientedDBMS(面向对象数据库管理系统)1、Caché(InterSystems公司产品)提供了三种整合的、能并发访问同一数据的数据库技术:成熟的对象访问方式,高性能的SQL访问方式以及丰富的多维访问。在对象数据、关系型数据以及多维数据视图之间不需要映射,这样就大大节省了开发和运行时间。2、Db4o(开源数据库公司db4objects开发并负责商业运营和支持。)开源的纯面向对象数据库引擎,对于Java与.NET开发者来说都是一个简单易用的对象持久化工具,使用简单。3、VersantObjectDatabase(Versant公司开发)Versant提供了C、C++、JAVA(JDO)语言编程接口,XML工具包和异步复制构架。为用户开发和管理数据库提供了完全透明、易用灵活的工具。 9.3多媒体信息检索一、基于内容的检索技术及其特点基于内容的多媒体信息检索研究伴随着信息时代的到来而展开。随着多媒体计算机技术的迅猛发展,网络传输速度的提高,以及新的有效的图像/视频压缩技术的不断出现,使人们通过网络实现全球多媒体信息的共享成为可能。然而现有的技术还不能有效地满足人们对海量多媒体信息的需求,因此基于内容的多媒体信息检索应运而生。所谓基于内容检索(Content-basedretrieval),就是从媒体数据中提取出特定的信息线索,根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。 基于内容检索技术一般用于多媒体数据库系统之中,也可以单独建立应用系统。基于内容检索的主要研究内容:如何使系统直接从各种媒体中获取信息线索,并将这些线索用于数据库中的检索操作,帮助用户从数据库中检索出合适的多媒体信息对象。 基于内容检索的特点:1、从媒体内容中提取信息线索2、提取特征的方法多种多样3、人机交互进行4、基于内容检索是一种近似匹配5、基于内容的检索可以利用图像处理、语音信号处理、模式识别以及计算机视觉等科学中的一些方法作为部分基础技术。 二、基于内容检索系统的一般结构从基于内容检索的角度出发,系统由组织媒体输入的插入子系统、对媒体做特征提取的媒体处理子系统、储存插入时获得的特征和相应媒体数据的数据库以及支持对该媒体的查询子系统等组成,同时需要相应的知识辅助支持特定领域的内容处理。 插入子系统:负责将媒体输入到系统之中,同时根据需要为用户提供一种工具,以全自动或半自动(即需用户部分干预)的方式对媒体进行分割,标识出需要的对象或内容关键点,以便有针对性地对目标进行特征提取。特征提取子系统:对用户或系统标明的媒体对象进行特征提取处理。可以由人完成,也可以通过对应的媒体处理例程完成,提取些所关心的媒体特征。提取的特征可以是全局性的,也可以针对某个内部的对象,在提取特征时,往往需要知识处理模块的辅助,由知识库提供有关的领域知识。 数据库:媒体数据和插入时得到的特征数据分别存入媒体数据库和特征数据库。数据库通过组织与媒体类型相匹配的索引来达到快速搜索的目的,从而可以应用到大规模多媒体数据检索过程中。查询子系统:主要以示例查询的方式向用户提供检索接口。检索主要是相似性检索,模仿人类的认知过程,可以从特征库中寻找匹配的特征,也可以临时计算对象的特征。 用户查询模块查询格式化示例媒体媒体处理模块知识辅助模块插入模式新媒体对象媒体1数据库媒体n数据库媒体特征媒体特征。。。。多媒体数据库中基于内容检索系统的结构示意 存储的特征值查询特征插入的媒体对象查询的媒体对象媒体处理例程计算相似性查询的方法示意 三、基于内容检索的过程1、检索过程基于内容检索是一个逐步求精的过程。主要过程如图用户的查询说明示例描述计算特征并进行相似性匹配修改检索说明从检索结果中选择一个示例,进行特征修正返回一组检索结果结束是否是否满意? 初始检索说明:用户开始检索时,要形成一个检索的格式。系统对示例的特征进行提取,或是把用户描述的特征映射为对应的查询参数。相似性匹配:将特征与特征库中的特征按照一定的匹配算法进行匹配。满足一定相似性的一组候选结果按相似度大小排列返回给用户。 特征调整:用户对系统返回的一组满足初始特征的检索结果进行浏览,挑选出满意的结果,检索过程完成;或者从候选结果中选择一个最接近的示例,进行特征调整,然后形成一个新的查询。重新检索:逐步缩小查询范围,重新开始。该过程直到用户放弃或者得到满意的查询结果时为止。 2、分割分割,是指把媒体对象划分为几个有意义的子对象的过程。对于图像指划分区域对于声音指声音分段对于视频包括划分区域和分段两种含义分割有自动和人工两种方法。 四、媒体的内容语义媒体的内容语义是基于内容检索的基础。文本内容检索已经比较成熟,有对字符、词、词组、基于上下文的内容检索。图像媒体检索内容主要包括颜色、纹理、轮廓、对象及领域内容等。视频建立在图像的基础上,常用检索主要包括镜头、摄像动作、运动对象以及场景等。声音的内容检索包括特定模式的查找,特定词、短语、音乐旋律和特定声音的查找等。 关键技术(1)颜色特征的提取颜色特征表达方法有颜色直方图、颜色矩、颜色集、颜色聚合向量以及颜色相关图等,而颜色直方图是最常用一种方法。(2)纹理特征的提取纹理特征的提取方法主要有结构分析方法、统计分析方法和频谱分析方法。(3)形状特征的提取形状表示:基于边界的和基于区域的。五、基于内容检索的应用1.基于内容的图像检索 关键技术(1)镜头分割技术通过对镜头边界的检测将视频分割为各个独立的镜头。主要有基于全局特征的切变检测、基于局部特征的切变检测以及闽值法、光流法和模型法渐变检测法。(2)关键帧提取技术有基于镜头边界、基于图像信息、基于运动分析、基于某种聚类算法等各种方法。(3)动态特征提取技术利用摄像机操作的表示来查询镜头,可以利用运动方向和幅度特征来检索运动的主体目标。2.基于内容的视频检索 音乐检索。可以采用哼唱、节拍拍打、演奏输入、乐谱录入等多种方式提交查询请求进行检索。3.基于内容的音频检索 课程结束谢谢!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
最近更新
更多
大家都在看
近期热门
关闭