欢迎来到天天文库
浏览记录
ID:23517716
大小:3.22 MB
页数:48页
时间:2018-11-08
《基于内容的视频搜索结果优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第1章绪论频出现的人类说话声音提取出来,然后使用机器翻译(MachineTranslation,MT)技术将语音翻译成查询所使用的语言。然而,视频中的话音和视频的内容并不高度一致,例如新闻报道类视频里播音员的语音和该视频的视觉内容就不相关,而无声电影甚至没有任何语音信息可以提取出来。另外应该指出的是,目前ASR/MT技术的准确率还远远不能支持精确的视频、语音信息处理。可以看出,使用ASR/MT技术提取文本信息仍然有较大的噪声,不能提高可靠的文本。在通过以上方法或多或少的得到视频数据对应的文本信息后,就采用文本搜索的基本框架,对每个视频对应的文本信息进行过滤、分词、建立索引和倒排表,从而实
2、现一个视频搜索系统。但是总体上来说,因为视频数据不同于纯文本数据,无论是使用人工标注的文本还是“元数据”,都会引入较大的噪声,可靠性不够高。1.1.2基于内容的视频搜索为了解决基于文本的视频搜索技术的缺陷,多媒体技术研究员们转向研究使用视频数据的内容信息作为搜索中使用的索引,也就是基于内容的视频搜索(ContentBasedVideoRetrieval,CBVR)。基于内容的视频搜索是利用视频的视觉、音频特征,进行基于内容的相似度匹配,输出内容特征相似的视频作为搜索的结果。视频的相似性完全由视频特征的相似性表征,这些特征可以由计算机自动地从数字视频数据中抽取出来,这个过程不需要人工干预,
3、从而避免了人工标注的大量工作和过程中的主观差异。总体上说,基于内容的视频搜索系统包括视频内容特征抽取、视频结构分析、建立索引、检索等五个部分(Zhang,2002),如图1.2所示。图1.2基于内容的视频搜索系统框架内容特征抽取是一个基于内容的视频搜索系统的基础步骤,视频的内容特3第l章绪论征包括视觉特征(如图像的颜色、细部纹理、物体形状、运动趋势等底层特征,以及人脸、户外、室内等中级语义特征)和音频特征(如爆炸、欢呼、击球、对话等)。视频结构分析主要试图从时序结构上对视频进行分割,把一个时序上连续的原始视频按其内容层次的不同,分成若干具有独立语义的段落单元,如视频关键帧(Key-Fra
4、me)、分镜头(Sub-Shot)、分场景(Sub—Scene)、故事单元(Story)。其中关键帧是指从视频采样出的能表征视频内容的帧序列;分镜头是指摄像机一次成像的连续帧序列,分镜头是视频数据中的基本结构单元;分场景指若干个在语义上和时序上相关的分镜头组成的集合,其具有一定的抽象和主观语义;故事单元指一组语义相关的分场景组成的集合,这些分场景经过组合可以完整描述一段有内容意义的故事情节,蕴含了视频数据的高层抽象概念。以上列举的视频结构按照至上而下的顺序分别为故事单元、分场景、分镜头和关键帧。得到经过分解的视频结构后,就可以根据视频搜索用户的查询要求建立视频的索引,从而支持用户对视频的
5、搜索。初级的基于内容的视频搜索系统通常使用一些基本的底层特征进行搜索(如图像上的颜色、纹理信息),然而,由于底层特征不能包含语义信息,无法结合用户的搜索意图将视频内容的语义表达清楚,到了90年代末期,基于学习方法的视频搜索开始兴起(Dimitrovaeta1.,2002),形成了基于内容的视频搜索中一个重要的研究方向,即基于视频内容自动标注(AutomaticAnnotation)的视频搜索。视频标注又称为高层语义特征提取(High—LevelFeatureExtraction)或概念检测(ConceptDetection),是指预先定义一些高层语义概念集合,如物体(人、道路、汽车、天空
6、等)、场景(室内、室外、城市、风光、办公室、车间等)、事件(游行、爆炸、野餐、足球赛等)等等。在视频标注中,首先提取这些概念的人工标注的训练样本的底层特征:然后进行建模和学习过程,得到这些概念的检测子,并将标注结果推广到整个视频数据集。在搜索时以这些概念作为索引,得到最终的搜索结果。这种基于视频标注的视频搜索常又被称为基于语义的视频搜索。然而,无论是基于视频结构特征还是基于视频内容标注的视频搜索技术都存在若干缺陷:首先,预先定义的概念和视频种类的数量是有限的,完全不能满足实际的众多用户的不同需求:其次,基于内容的视频检索系统需要对原始视频进行解码和像素级别的计算,常常需要较高的时间和空间
7、复杂度:最后,实现一个基于内容的视频搜索系统需要较高质量的训练样本,这些训练样本要经过人工标注得到,在标注过程中存在主观差异和低精度等问题。因而完全基于内容视频搜索技术距离真正的实用化和商业化还较远。4第l章绪论总之,到目前为lt,无论是基于文本的视频搜索技术还是基于内容的视频搜索技术.尚不能向用户提供高度可靠、精准和方便的视频搜索服务。12视频搜索结果优化的研究意义研究中发现,在一个实际搜索过程中,用户不仅期待搜索结果中返回正确的
此文档下载收益归作者所有