视频搜索关键技术浅析

视频搜索关键技术浅析

ID:12180913

大小:110.01 KB

页数:11页

时间:2018-07-16

视频搜索关键技术浅析_第1页
视频搜索关键技术浅析_第2页
视频搜索关键技术浅析_第3页
视频搜索关键技术浅析_第4页
视频搜索关键技术浅析_第5页
资源描述:

《视频搜索关键技术浅析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、视频搜索关键技术浅析  视频是集图像、声音、文字等为一体的综合性媒体。随着互联网技术的发展和网络带宽的提升,网络视频数据量成爆炸式增长,如何对互联网上的海量视频数据进行搜索已成为国内外的研究热点,是新一代搜索引擎的主要研究内容。  视频搜索是通过对海量的非结构化的视频数据进行结构化分析,提取视频内容的特征(包含语义特征),在此基础上实现从内容上对视频进行检索。与传统文本搜索相比,视频搜索存在很大的技术难度。首先,视频内容的特征难以提取与处理,特别是语义特征的提取存在很大的困难。其次,视频搜索在索引建立、查询处理以及人机交互等方面都与传

2、统的文本搜索存在很大区别,还有一些技术难题有待解决。  一、视频结构化分析  视频结构化分析是指对视频流进行镜头分割、关键帧提取和场景分割等处理,从而得到视频的结构化信息。  镜头分割的关键在于确定镜头的边界,其中渐变镜头边界的检测目前仍然是一个具有挑战性的课题。现有镜头分割方法多以视频内容的不连续性为划分镜头的依据。研究者们通常选取视频的某种特征来度量视频内容的不连续性,如颜色特征、运动矢量特征、边缘特征等。  由于同一个镜头中的各帧图像之间的内容有相当程度的冗余,因此可以选取反映镜头中主要信息内容的帧图像作为关键帧。镜头分割后,对

3、每个镜头可提取若干关键帧,并用关键帧来简洁地表示镜头。  场景分割通常也称为故事单元分割,其目标在于获取视频的最小语义结构单元——场景。一般而言,场景是由一组连续的、同属于一个故事单元的多个镜头组成。通过融合视频的文本、声音等信息对已分割出的镜头进行聚类,将内容相近的连续镜头合并为一个单元组,从而得到场景信息,为进一步进行视频内容分析提供基础。  二、特征提取  特征提取是进行视频搜索的基础,要实现有效查询,就必须对视频信息进行建模和表示,实际上就是分析视频数据,提取描述特征。一般说来,主要提取以下特征:  视觉特征:主要包括视频帧图

4、像的颜色、纹理、形状、运动等低层视觉特征。其中,DavidG.Low于1999年提出了一种对图像缩放、旋转和仿射变换保持不变的图像局部特征描述算子——SIFT(ScaleInvariantFeatureTransform)算子,在图像和视频检索中越来越受到人们的重视。  听觉特征:听觉特征反映了视频中音频的频谱分布和变化规律、节奏、韵律等,主要包括:短时能量、MFCC系数、基音频率、分带短时能量、短时能量的均值和方差、MFCC系数的均值和协方差、过零率的均值和方差等。  文本特征:作为视频高层语义的一种,视频字幕、视频语音、以及互联网

5、Web中的相关文本信息是不必通过语义推理的视频高层语义内容,它对视频内容有很强的描述作用,因而对视频的高层语义分析具有很重要的价值。主要包括以下:  ASR文本:视频中一般总是伴随着人说话的声音,我们称这种声音为语音。利用自动语音识别技术,我们可以将语音转换为文本信息。在特定的视频中,反映主题的并且检索频率较高的语音词汇往往在视频局部多次重复出现,即使语音识别引擎不能每次都正确识别,但只要识别一两个实例,也能迅速定位所需要的视频片段。  字幕文本:视频帧中出现的文字,特别是后期编辑叠加的文本字幕,经常包含了重要的语义信息,如新闻视频中

6、的主题、日期和人名,以及电影视频中的演员表等。最后利用面向视频的文字识别技术(VideoOCR)检测与识别视频中的文本信息。  Web文本:在Web页面中,常有一些与视频相关的外部文本信息,如与新闻视频相关的讲稿或文字报导、与足球比赛相关的文字直播或比赛战况播报等等。通过对Web页面中文本和视频的空间相关性等信息进行挖掘和融合,通常能获得与当前视频相关的语  义信息。  基于以上文本特征,借助领域相关的命名实体词典和相关知识库,可提取包含时间、地点、人物以及描述事件的关键词等信息,以支持特定时间、地点、人物以及事件的检索。  其它特征

7、:如视频中是否存在人脸,以及摄像机的运动特征等。人脸是视频中常见对象,并且蕴涵了丰富的语义信息。  三、语义概念(高级语义特征)提取  多媒体信息检索已经有数十年的历史,最初的多媒体检索是人对多媒体信息进行手工文字标注,然后通过一般文本检索技术来实现多媒体检索。后来,人们提出通过媒体的低层特征(如帧图像的颜色、纹理、形状、视频的运动特征)对多媒体信息进行基于内容的检索。实际上,人们经常在日常生活中习惯使用诸如“飞机、建筑、天空、海滩、日出、花草树木、轮船”等概念,因而往往希望能够进行基于语义的查询,这就需要利用多媒体数据的高层语义信息

8、。如何建立视频的低层特征和高层语义描述之间的映射,有效克服所谓的“语义鸿沟”,是一直以来困扰科研人员的技术难点,也是当前的一个研究热点。    虽然目前从事视频语义概念提取技术研究的单位很多,出现了众多各具特色的系统方案

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。