《一种支持语义的视频检索系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
中国科学技术大学硕士学位论文一种支持语义的视频检索系统研究姓名:徐峰申请学位级别:硕士专业:网络传播系统与控制指导教师:郑烇20100501 摘要随着网络技术、多媒体技术的不断发展以及硬件设备功能的不断增强,越来越多的个人用户以及专业媒体公司可以非常方便地制造出包含丰富语义信息的视频数据。这些海量视频数据的出现使得检索出符合用户要求的视频内容变得越来越困难,迫切需要有效的检索手段,从而真正满足用户检索需求,提高检索效率。但由于视频内容具有数据量大,结构复杂,语义信息丰富等特点,使得视频内容的检索成为多媒体检索中最具挑战的部分。传统的检索引擎大多是针对文本数据,且从技术上采用文本匹配的方式,难以适应视频内容的检索任务。基于内容的检索使用低级特征相似度匹配方式进行检索,它充分利用了视频数据的信号层信息,相对于简单的文本检索来说是一种很大的进步,但是给用户带来了很大的负担,他们一般难以选择合适的查询样例,用户希望可以在语义层次上检索视频数据。本文提出一种支持语义的视频检索方式(SemanticSupportedVideoRetrieval,SSVR),它充分利用视频数据的特点,允许用户输入简单概念,返回语义匹配的视频片段集合。SSVR的主要思想是在视频信号空间和用户思维空间之间建立一个语义层,从而可以准确、快速地检索出用户希望的视频内容。首先,利用视频处理技术提取视频的结构和低级特征信息,在此基础上使用本体和MPEG.7语义描述工具对视频进行标注,从而获取视频内容的语义信息。选择LSCOM中120种典型概念构建索引本体,利用索引本体建立视频内容的语义索引,这些结构化的语义索引存储在原生的XML数据库中,便于进行检索和推理:其次,当用户首次检索时提示用户设置偏好配置文件,这些配置文件可自动更新。利用用户偏好文件和上下文信息解析检索条件,将用户的初始检索要求映射到不同的查询类型并分配相应的权重;最后,利用本体相似度和查询推理算法将用户的检索概念映射到语义索引空间,并将匹配的索引项对应的视频片段描述信息返回给用户,如果用户满意则检索结束,视频流化服务器开始向客户端传输视频数据;如果用户不满意,则对用户的检索条件进行查询重写,并重新进行检索直到用户满意。SSVR可以极大地减轻用户负担,增强用户检索体验;和文本检索、基于内容检索方式相比,SSVR能提高系统的查全率和查准率。关键词:视频检索本体MPEG.7语义索引查询推理 AbstractWiththeprogressofnetworkandmultimediatechnologiesandenhancementinhardwaredevices,moreandmorepersonalusersandprofessionalmediacompaniescanconvenientlyproducevideodatawhichcontainabundantsemanticinformation,theemergenceoflargeamountofvideodatamaketheretrievalofvideoswhichconformtousers’desiremoreandmoredifficulty,andurgentlyneedefficientretrievalmethodtoenhanceretrievaleffect,thustrulysatisfyuser’sretrievalneedandimproveretrievalefficiency,butduetovideos’featurewhichincludealargenumberofdata,havecomplicatedstructureandluxuriantsemanticinformationandSOon,videosretrievalhasbecomethemostdefiantpartamongthemultimediainformationretrieval.Traditionalsearchenginesmostlyfocusontextretrievalandadoptthetextmatchingtechnology,thustheyCan’tfulfillvideossearchtaskwell.Content·Basedvideoretrievalmethodsmake,useofvideos’low—levelfeaturematchingstyletofinishthesearchtask,theyaremoreadvancedthantextretrievalmethods,buttheyimposemoreburdensonusers,commonUSerSalwaysfinditdifficulttoselecttheproperexampletolettheretrievalengineworkwell.theyprefertoretrievalvideodatainthesemanticlevel.ThearticlestudiesoneSemantic—SupportedVideoRetrieval(SSVR)method,itfullyusesvideosfeature,allowsuserinputretrievalconditionintheformofsimpleconcepts,andgivebackvideosegmentswhichmatchthesemanticofUSer’Sinput.ThemainideaofSSVRiStobuildthemiddlesemanticlayer,thusCanaccuratelyandquicklyfindthevideoswhichconformtouse’sneed.Firstly,adoptvideoprocessingtechnologytogetvideos’structureandlow—levelfeatureinformation,onthisbasis,makeuseofOntologyandMPEG-7toannotatevideodata,thusgetthesemanticinformationofthevideos.Choosingthe120conceptsfromLSCOMandconstructingOntologyforindexing,thenCanmakeuseofindexingOntologytobuildsemanticindexforvideos,thesestructuredsemanticindexarestoredinnativeXMLdatabase,andCanberetrievedandinferredeasily.Secondly,whenfirstusethesystem,itwillremindtheusertosetuptheUSerpreferenceprofile,thisfileCanbeupdatesautomaticallySystemCanutilizetheprofileandcontexttoresolveUSer’Sretrievalcondition,maptheinitialsearchconditiontosomesearchclassesandgiveeachofthemproperweightvalue.Atlast,makeuseofOntologysimilarityandinferringIII AbstractalgorithmstomaptheUSe/"retrievalconcepttosemanticindexspace,andsendthematchingcontenttotheuser,ifuserssatisfytheresult,thenvideostreamingserverbeginstotransportthecontent,ifnot,searchenginewilloverwriteuser’sinputconditionandagainsearchuntilusersatisfies.SSVRcanalleviateUSerS’burden,thusgiveusersSatisfyingretrievalexperience;whenComparedwithText.BasedretrievalandContent.Basedretrievalstyle,SSVRcanincreasesystem’Sprecisionandrecallwell.KeyWords:videoretrieval,Ontology,MPEG一7,semanticindex,searchinferringIV 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名:丕玺出荤签字同期:盖迓当≤二L中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。广田公开口保密(——年)作者签名:导师签名.豸噬 第1章绪论本章首先介绍本文的研究背景以及国内外相关研究的现状,接着分析了本文的研究动机、目标以及主要的研究内容,最后给出全文的结构安排。1.1研究背景视频数据包含了非常丰富的信息,它可以将音频、视觉和文本信息进行同步,从而使得它们可以通过协作共同表达语义信息,这使得很多应用都采用视频的形式来记录和表示数据。各种数字终端设备的出现使得制造视频内容变得越来越简单和方便,同时各种存储(Lutwycheetal,2000)和分发技术(SujataBanerjeeetal,2003;DongyanXuetal,2004)的成熟以及互联网的不断发展都为视频数据的快速增长创造了客观条件。很多专业媒体公司可以7*24小时不间断制造视频内容,同时广大的互联网用户也可以使用数码相机等普通设备制造和上传视频。视频数据的指数增长使得海量视频数据正加速出现在我们的周围,这给广大的普通用户带来了巨大的挑战,他们难以准确、快速地检索到自己需要的视频数据。为了改善用户的检索体验,提高视频资产的使用效率,迫切需要增强对视频数据的处理能力,尤其是基于互联网的视频检索能力。传统的基于关键字匹配的检索方式难以适应海量视频检索要求,这主要是因为:(1)关键字包含的信息可能具有不确定性,缺少明确的语义约束;(2)用户通常并不很清楚自己的检索需求,因而输入的关键字过于宽泛,不能表达出真正的检索意图;(3)检索引擎不能充分利用视频的结构、内容和语义信息,只是对元数据进行简单匹配。传统的基于内容的视频检索方式(Content.BasedVideoRetrieval,CBVR)相对于基于关键字匹配的检索方式来说是一种很大的进步(HongjiangZhangetal,2002;徐建华,2000),它可以对视频内容进行分析,抽取出视频的低级特征,用户检索时输入样例,系统返回和样例在特征上超过一定的相似度阈值的内容。但是在实际的应用中,CBVR的效果也不是很理想,主要原因在于:(1)用户难以提供合适的样例;(2)系统采用基于低级特征相似度匹配的方式进行检索,但是低级特征和高级语义概念间缺少直接的映射方式,这就是所谓的“语义鸿沟”ShankarVembuetal,2006;Smeulders,2000),导致检索的结果通常与用户的需求相差甚远。为了克服传统检索方式的不足,使用户可以从海量视频数据中快速检索和过滤信息,系统需要支持语义级别的视频检索。首先需要对视频数据进行有效的分析与处理,充分挖掘视频中包含的结构、内容、语义以及元信息;其次需要以一1 第1章绪论种标准的模型来描述这些信息(Bloehdorn,2004;Calicetal,2005),使得可以高效地共享、重用这些描述信息,同时支持知识推理;接着需要将描述模型映射到索引空间,建立语义索引,并能够根据不同系统的目标调整索引空间;最后需要建立有效的检索模型,它赋予用户定制系统的能力,可以充分挖掘用户的检索意图,并可以有效地完成从用户查询空间到索引空间的映射。视频分析与处理的任务主要包括视频镜头分割、关键帧以及相应特征提取等,这是进行视频语义检索的基础。镜头分割的目标是将视频分割成镜头的集合,可以采用基于镜头边界检测的方式来进行,具体算法包括模板匹配法(HaitaoJiang,1998)、直方图法等。关键帧提取的目标是获取镜头中代表性的帧,可以采用基于运动分析的提取算法(WolfWayne,1996),基于图像信息差异性的提取算法(Zhangzetal,1997),基于镜头活动性信息的提取方法(Gresleetal,1997)等来获得关键帧。特征提取的任务包括视频的低级特征和语义特征的提取,视频的低级特征一般采用自动的方式来获得,语义特征可以采用机器学习(Y.Songetal,2005;Snoeketal,2005)的方式来自动提取或者手工标注的方式来获得。“多媒体描述接口”(MultimediaContentDescriptionInterface,简称MPEG.7)是运动图像专家组(MovingPictureExpertsGroup,MPEG)制定的一个国际标准,采用统一的架构来管理各种多媒体内容,包括音频、视频、文本、3.D图像等,得到了广泛的应用。MPEG.7提供了一整套强大的工具来描述多媒体数据的结构、内容、语义以及元信息,包括描述定义语言(DescriptionDefinitionLanguage,简称DDL),描述符(Description,简称D),描述方案(DescriptionSchema,简称DS)等。基于MPEG.7来描述和管理视频数据的优势主要体现在两个方面:(1)MPEG.7描述能力强大■可职充芬砸孺阿弗随赡辩酐瞬暂阿盲惠、内容信息、语义信息以及元信息;(2)MPEG.7支持共享和协作,这是标准的优势所在,非常适合在因特网这样的开放环境中共享多媒体描述信息。MPEG.7的DDL建立在XMLschema(XSchcma)基础上。XMLSchema在结构定义、集合描述以及数据类型的定义、约束方面都具有非常强大的能力,但是它缺少语义描述能力。DDL继承了XMLSchema的优点,同时在语义描述方面能力不足,导致会出现语义模糊的情况,即“同一概念有多种词汇表示;同一个词汇有多种概念含义"。本体(Ontology)等语义网技术(StephenDilletal,2003)可以弥补MPEG.7语义描述能力不足的缺点,可以用来进行语义消歧、知识推理。本体论起源于哲学领域,它在计算机科学中有其特殊的含义,其中比较正式的定义由T.R.G/'l/ber提出、后经R.Studer改进,即:一个本体是·个概念体系的显示的形式化规范2 第1章绪论(史树敏,2008:艾丹祥,2004)。本体的目标是捕获相关领域的知识,提供对该领域知识的统一理解,确定该领域内共同认可的概念,并从不同层次的形式化模式上给出这些概念之间明确的关系定义(M.Bunge,1977),这样可以明确消除语义的二义性。本体描述语言OWL(WebOntologyLanguage,OWL)具有强大的建模能力,可以表达非常丰富的语义信息,可以定义推理规则,非常适合进行知识的推理。基于本体的检索技术是一个新的研究热点(Eeroetal,2003),可以提高系统的检索能力。本文构建了一种支持语义的视频检索系统(Semantic.SupportedVideoRetrievalSystem,SSVRS),它在传统视频处理技术的基础上构建了领域本体来辅助获取视频语义信息,使得标注更加精确,标注的结果可以很容易地进行推理以及共享;定制了MPEG.7,使得描述的信息更加适合语义检索,并在此基础上建立了语义索引:建立了用户交互模型,使得用户可以非常方便地按照自己的喜好来定制系统,同时检索系统也可以根据交互模型来分析用户的潜在需求:在系统中引入规则和本体相似度,增强了系统的推理和检索能力。SSVRS可以完成语义级的视频检索任务,极大地增强了用户的检索体验。1.2国内外相关研究Jain(1994)指出人们使用视频数据的主要用途包括娱乐、获取信息、信息交流以及进行数据分析等。不同用户的需求相差甚远,比如为了娱乐目的可以检索整部视频;为了分析特定的事件,比如比赛中的得分,则更希望检索出相关的视频片段。检索整部视频往往只需要一些元信息,采用基于关键字匹配的检索方式即可,但是检索特定的视频片段要复杂的多,它需要检索引擎理解视频的含义,这就需要检索系统可以克服“语义鸿沟”。“语义鸿沟"产生的原因在于视频低级特征和高级语义概念间缺少明确、直观的映射方式。为了突破“语义鸿沟’’,支持语义级的视频检索,国内外的相关研究机构和公司进行了大量、深入的研究,常用的方法是建立一个中间概念层(Naphadeetal,2004),并将低级特征映射到概念层,借助概念层可以显著提高视频检索效果并且通常只需要3000个左右的概念即可(Hauptmannetal,2007)。从低级特征到概念层的映射方式主要有两种:(1)人工标注,即利用人的先验知识将低级特征和高级语义进行关联,这种方式需要花费大量的人力,并且对人的背景知识和标注能力要求很高,专业人士和业余标注者的标注效果相差很大(S.A.Golderetal,2006;M.Guyetal,20061K.K.Matusiak,2006),但是它可以显著提高视频检索的效果(D.A.Shamrnaetal,2007).;(2)基于机器学习的自动标注,它通过对样本的低级特征进行学习建立3 第1章绪论概念分类器来将概念和低级特征相关联,然后利用这些概念分类器去自动识别新输入的视频片段(Olivaetal,2001;Yavlinskyetal,2005),达到标注的目的。这种方式的优点在于一旦分类器训练完成,可以极大地减少标注的工作量,但是分类器的训练需要花费大量的机器时间,并且概念分类器的准确度也很低,目前只在特定的领域取得较好的效果。另外一些学者尝试从改进检索手段的角度来提高系统的性能,并且已经研制出大量性能良好的系统,这些研究的重点在于视频内容的处理、交互式操作以及多模态检索方面。如都柏林城市大学(DublinCityUniversity,Ireland)研制的FisChl瓣Tv(Fischl小Tv),该系统基于Web,支持视频节目的录制、检索、播放等功能,并提供个性化以及视频节目推荐等服务,它最大的特点在于提供交互式的检索方式,可以分析用户的行为,挖掘用户的潜在需求。哥伦比亚大学的CuZero(CuZero)也是一个出色的交互式视频检索系统。荷兰阿姆斯特丹大学智能系统实验室(IntelligentSystemsLabAmsterdam)丌发了mediamill(mediamill)视频检索系统,该系统主要包括图像视频处理,计算机视觉,语言学,机器学习,信息视觉化等多学科技术,结合了文本查询,语义检索等技术组建检索模块,达到了较好的效果,它最大特点在于采用多模态的检索方式,并可以根据检索的结果自动调整权重,进行结果的融合。哥伦比亚大学的语义视频检索引擎能够在海量新闻广播视频上进行多模态的语义检索,该系统最初是为了评价TRECVID2005测试基准而研制,后来包括了大量的的视觉概念探测器,该系统综合利用各种特征,针对每种特征采用最佳的检索技术来达到多模态的语义视频检索目标。为了鼓励在多媒体检索领域进行深入研究,NIST(NationalInstituteofStandardsandTechnology,NIST)资助了TRECVID(TextRetrievalConferenceVideoRetrievalEvaluation,TRECVID),它提供实验数据和评估标准,每年有大量研究机构的视频检索系统参与TRECVID的任务。ACMInternationalConferenceonImageandVideoRetrieval(CIVR)、VideOlympics(VideOlympics)等也是多媒体检索领域非常著名的会议。这些都极大促进了视频检索技术的发展。本文构建了视频本体和体育领域本体并使用LSCOM(Large-ScaleConceptOntologyforMultimedia,LSCOM)中120种典型的概念来构建索引本体,建立语义索引;建立用户交互处理模型,增强用户与系统的交互能力,让用户可以定制系统的行为并提供相关反馈;通过基于用户交互模型以及本体的查询扩展、查询重写可以动态地分析用户的需求,完成从用户需求空间到语义索引空间的映射,提高系统的查全率;通过基于本体相似度和用户的偏好设置来对检索结果进行过滤和排序可以提高系统的查准率。4 第1章绪论1.3研究动机和目标1.3.1研究动机海量视频数据的出现给视频检索带来了极大的挑战,传统的检索技术己无法满足用户的视频检索需要,导致了视频数据的利用率不断下降,其主要原因在于:(1)视频数据量大、信息丰富,通常一部电影就有几百兆,视频中的语义信息难以提取和描述;(2)机器只能理解视频的低级特征信息,不能将这些低级特征信息和用户概念空间中的语义信息自动关联;(3)用户真实需求难以捕捉,有时用户自己也不清楚自己的需求;(4)视频检索引擎缺少推理能力,只能进行基于关键字的全文匹配或者基于低级特征的相似度匹配。为了提高视频资产的使用效率,增强用户的检索体验,SSVRS致力于解决导致视频使用率下降的四个原因,具体包括:(1)利用成熟的视频处理技术(包括镜头分割、关键帧提取以及低级特征提取)来获取视频的结构信息以及低级特征信息,并通过构建领域本体来标注关键帧和复杂事件,提取视频中的语义信息,最后使用经过定制的MPEG一7来描述这些信息;(2)采用LSCOM中120种典型的概念作为索引项,并明确这些概念间的语义关系,然后使用它们来建立视频语义索引,并采用结构化的方式来组织这些索引。用户检索时,检索引擎将用户概念空间中的信息和索引空间中的概念进行匹配,不需要检索引擎判断概念和低级特征间的关系;(3)建立用户交互模型,它可以让用户定制系统,同时系统也可以借助用户交互模型更好地分析和挖掘用户的需求;(4)检索引擎采用本体和规则进行知识推理,可以检索出在语义上相近的内容,如要求检索“美国总统”演讲的视频,SSVRS可以检索出“奥巴马”演讲的视频。1.3.2研究目标本文从制约视频检索引擎的四个因素开始进行研究,建立视频内容分析模型来提取、描述和组织视频内容的各种信息;建立用户交互模型赋予用户定制系统的能力,系统也可以使用交互模型来分析用户的检索意图;建立语义检索模型,使用基于推理和本体相似度的检索方式来提高系统的查全率和查准率。具体的研究目标如下:(1)分析视频数据的特点,利用视频处理技术自动提取视频中结构信息和低级特征信息(包括颜色、纹理、形状等);定制MPEG.7,明确描述工具的语义和使用的限定条件,使其更加适合视频语义检索的需要;采用prot696(prot696)构建视频本体和体育领域本体,利用这些本体5 第1章绪论来对视频的关键帧和复杂事件进行标注,提取出其中的语义信息并明确这些语义信息间的关系;使用LSCOM中120种概念典型概念构建索引本体,从而建立视频语义索引,并采用结构化的方式来描述这些语义索引。可以根据不同系统的目标来建立相应的语义索引,即一个视频描述文件可以对应若干个语义索引文件;视频的描述文件和索引文件存储在原生的XML数据库OracleBerkeleyDBXML(OracleBDB)中,使用XQuery(XQuery)进行检索;(2)用户可以通过用户交互模型来定制检索偏好,包括查询/过滤偏好以及浏览/观看偏好,用户通过这些偏好信息可以控制检索系统的响应行为;系统可以记录用户的检索历史并使用这些信息分析用户的检索条件,挖掘出用户的潜在需求,从而实现查询的扩展和重写;用户交互模型可以将用户的检索历史信息自动映射到用户偏好描述中,从而实现用户偏好描述的自动更新;(3)建立语义检索模型,将用户的输入映射到相应的查询类别中,根据不同的查询类别选择最佳的查询方式;在语义索引空间中,利用规则和JENA的查询推理能力将查询类别和语义索引相关联;根据本体相似度以及用户偏好对查询结果进行过滤和排序。1.4本文主要研究内容本文分析了视频语义检索系统需求并设计了一种支持语义的视频检索系统架构,主要包括视频内容处理、用户交互式操作以及和视频语义检索三个部分。视频内容处理部分主要包括本体的构建、视频语义信息的获取以及视频语义索引的建立。用户交互操作部分主要包括用户对系统的定制操作以及用户定制信息的自动更新处理。视频语义检索部分主要包括用户查询意图的解析与扩展,基于本体规则的查询推理以及基于用户偏好和本体概念相似度的过滤与排序。1.5论文结构本文内容结构安排如下:第一章为绪论,首先介绍了论文的背景和国内外相关研究现状,接着分析了研究的动机和目标,最后给出了本文的主要研究内容和结构安排。第二章详细分析了视频语义检索系统需要的关键技术和标准,主要包括MPEG.7、Ontology、OWL、JENA(Jena)、SPARQL和XQuery。6 第1章绪论第三章分析了视频语义检索系统的需求并提出了一种支持语义的视频检索系统架构,接着详细地研究了视频内容处理模型,主要包含视频语义标注和视频语义索引构建。第四章构建了用户交互模型,研究了用户检索偏好和检索历史信息的作用以及用户偏好信息的自动更新算法。第五章研究了视频语义检索模型,主要包含用户查询意图的解析,查询的映射与推理以及基于本体相似度和用户偏好信息的过滤与排序算法。第六章对全文进行总结并给出了下一步继续研究的方向和思路。7 第2章视频语义检索相关技术研究2.1多媒体描述接口2.1.1MPEG.7概述随着多媒体数据的不断增长,查询、过滤和管理多媒体数据变得越来越困难:为了应对多媒体数据的指数增长带来的挑战,需要建立有效的模型来描述多媒体数据,MPEG.7因此而诞生。MPEG.7提供了DDL来定义MPEG.7文档的结构和内容信息,并且提供了丰富的描述符和描述方案,具有强大的描述能力。2.1.2定义描述语言DDL是一种Schema语言,它构建在XMLSchema的基础之上,主要作用包括:(1)定义MPEG.7的描述符和描述方案的语法、结构以及取值约束:(2)定义元素在描述方案内或者描述方案间的结构关系、继承关系、空间关系、时间关系、时空关系以及概念关系;(3)提供丰富的模型来关联描述信息和原始的多媒体数据,描述信息是符合特定DS的XML文档,独立于具体的平台,对机器和人均具有良好的可读性;(4)指定描述符的数据类型,包括基本的类型(整型,文本,日期,时间)和复合类型(柱状图,枚举);(5)它在XMLSchema的基础上进行了扩展,增加了矩阵和数组类型以及baseTimePoint和baseDuration;(6)赋予用户定制适应特定应用领域的描述符和描述方案的能力。2.1.3多媒体描述方案DS可以是原子的,也可以通过聚合D和DS而形成。多媒体描述方案(MultimediaDescriptionSchema,MDS)是MPEG-7标准的重要组成部分,在SSVRS中具有重要的作用。它的主要组成部分如图2.1所示:9 第2章视频语义检索相关技术研究图2-1MDS组成MDS的核心部分是基本元素,它包含了一系列的描述工具,可以描述多媒体内容的时间、链接、媒体位置、标注等信息,并且可以定制描述的术语;它也是MDS其他部分的基本组成部分。基本元素包含了Schema-I-具、基本工具、基本数据类型以及链接和媒体位置描述工具。和其他基本元素的作用不同,SchemaT具的作用不是描述多媒体内容信息,而是验证和管理这些描述信息,一个合法的MPEG.7描述文件必须包含根元素和顶层元素。根元素是Mpe97,它封装了整个描述信息,并规定了描述模型。在MPEG.7中有两种合法的描述模型:完全描述(completedescription)和描述单元(descriptionunit),它们对应的标签分别是Description和DescriptionUnit,在SSVRS中,我们使用完全描述模型来描述视频信息。在完全描述模型中,顶层元素是作为根元素的直接子元素出现的,它的作用是根据不同的描述任务选择描述工具,在MPEG.7中主要有三种类型的描述任务:(1)内容实体信息描述;(2)内容抽象信息描述;(3)内容管理信息描述。内容实体信息描述提供描述多媒体内容实体信息的模型,这些实体信息包括:图像、视频、音频以及多媒体文档集合等。内容抽象信息描述提供模型来描述多媒体内容的概要信息、图像的不同视角信息、音频和视频的信号信息以及多媒体内容的语义信息等。内容管理信息描述提供模型来描述一些通用的管理任务,包括多媒体的创建信息管理、多媒体内容的分类信息管理、多媒体内容的使用信息管理以及用户的使用信息管理。根元素和顶层元素的关系如图2.2所示:10 第2章视频语义检索相关技术研究图2-2MPEG.7根元素和顶层元素内容实体元素组织结构如图2.3所示:图2-3内容实体元素结构内容抽象元素组织结构如图2-4所示:图2-4内容抽象元素结构ll 第2章视频语义检索相关技术研究内容管理元素组织结构如图2-5所示:图2.5内容管理元素结构MDS基本元素中提供的链接和定位描述工具将MPEG.7描述文件和多媒体数据进行关联映射,这样可以从描述文件中直接定位到相应的多媒体内容。在SSVRS中,检索引擎从视频描述文件服务器中检索出符合用户要求的视频描述信息并提取出其中的链接和定位等信息,然后将这些信息提交给视频流化服务器,视频流化服务器根据链接和定位信息选择合适的视频片段进行流化,然后向客户端传输这些流化数据。MPEG.7提供了两种方式将描述文件和媒体信息进行关联:(1)通过媒体的唯一标识符UID来关联;(2)通过媒体定位工具来关联,MPEG.7中共有三种类型的媒体定位工具,分别是通用的MediaLocator,它使用URI来指向媒体数据或者直接包含媒体数据,URI与UID不同,它不是一个标识符,而是媒体数据的物理位置;TemporalSegmentLocator,它在时序媒体(如视频、音频)中定位视频片段(如场景、镜头);lmageLocator,它可以在视频中定位图像或者帧。为了播放视频片段,需要知道视频片段的起始时间和持续时间,MPEG.7提供了两种类型的时间:(1)多媒体内容中的时间;(2)真实世界中的时间,这两种时间的表示方式基本相同,真实世界中的时间一般需要加上时区信息。视频片段的起始时间点用mediaTimePoint来表示,它的格式是:-YYYY-MM.DDm:mm:ss:nFN,其中Y表示年,M表示月,D表示天,T是一个分割符,h表示小时,m表示分钟,s表示秒,N表示将1秒等分成N个片段,n表示片段的个数。视频片段的持续时间用mediaDuration来表示,它的格式是:PnDTIlHnMnSnNnF,其中P表示时间段的开始,T是分割符,其余同mediaTimePoint。在mediaTimePoint和mediaDuration的基础上,MPEG.7定义了三种类型的时间表示:(1)SimpleTime,它的时间点采用绝对时间表示;(2)12 第2章视频语义检索相关技术研究RelativeTime,它设置了~个时间参考点,其它时间点用它们和时间参考点之间的时间位移来表示;(3)IncrementTime,它规定了时间单元的长度,其它时间点用它们和参考点之间的时间单元个数来表示。MDS基本元素定义了一个基本的抽象类型层次结构来管理描述符和描述方案。在MPEG7中,任何类型均直接或者间接继承自Mpe97BaseType,它的直接子类包括HeadType、DSType和DType。DSType的子类包括VisualDSType和AudioDSType,任何视觉和音频描述方案都是VisualDSType和AudioDSType的子类。DType的直接子类包括VisualDType和AudioType,任何视觉和音频描述符都是VisualDType和AudioDType的子类。这个类层次如图2.6所示:图2.6MDS抽象类层次结构MDS基本元素中的基本工具是其它描述方案和数据类型的基本构造单元,它主要包含图和关系描述工具、文本标注工具、分类方案和术语工具、代理描述工具、情感描述工具和排序描述工具。关系和图可以用来构造复杂的描述结构,其中关系是一个有向图,它的类型在Classification方案中用Term进行定义,可用四元组(source,target,strength,type)来表示;图可用(V,E)来表示,V代表节点集合,E表示关系集合。文本标注是指利用自然语言来描述多媒体内容,MPEG.7提供四种类型的文本标注工具:(1)自由文本标注(FreeTextAnnotation),它使用普通文本信息来标注,不便于机器处理;(2)关键字标注(KeyWordAnnotation),它使用关键字集来标注,便于机器处理,但是失去了关键字之间的结构信息;(3)结构化标注(StructuredAnnotation),它具有自由文本标注的简单性和关键字标注的表达能力,并且能够保持标注文本的结构信息;(4)依赖结构标注(DependencyStructure),它基于dependencygrammar理论(Michael,2001),提供了强大的描述工具来表示标注文本的语法结构。分类方案(Classificationschema)可以为不同的应用领域定义专用的术语,如定义视频的流派和格式方面的术语,它用domain属性指定应用领域,在一个分类方案中可以使用URI来导入其他的分类方案。ClassificationSchema规定了术语的定义和使用信息,其中TerrnDefinition用来定义术语(标识符、名称和说明信息);TermUse和ControlledTermUse用来说明如何使用术语;href用来导入已经定义13 第2章视频语义检索相关技术研究好的ClassificationSchema。在MPEG.7中,代理包括:人(真实的或者虚构的人)、组织以及人的集合,分别用PersonType、OrganizationType和PersonGroupType来表示。情感描述工具可以用来为每个视频片段打分(分数在.1和l之间),分数反映了观众对多媒体内容的喜爱程度。排序描述工具可以指明如何对多媒体片段进行排序,如下面的xml片段表示:按照摄像头移动次数降序排列一个视频信息中的视频片段集合。
此文档下载收益归作者所有