欢迎来到天天文库
浏览记录
ID:13065468
大小:34.50 KB
页数:10页
时间:2018-07-20
《基于内容的多媒体检索》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于内容的多媒体检索基于内容的多媒体检索摘 要 对基于内容的多媒体检索的有关概念、特点进行介绍,基于内容的分析方法的提出,在压缩域上直接对MPEG音频信号进行分析,达到多媒体实时分析检索目的。算法分为三步:首先利用压缩域特征对音频信号进行分割,然后应用分层方法把分割出来的音频片段粗分成音乐、语音和其它三个基本类别;由于话者身份是语音信号中的重要检索线索,最后利用隐马尔可夫链实现了与文本无关的话者识别,并用识别出来的话者身份对语音信号和其相应的视频进行标注。关键词 音频检索概念 多媒体 基于内容的检索压缩域隐马尔可夫链话者识别多媒
2、体检索引言 随着计算机应用技术的发展与互联网速度的提高,用户可以访问到的文本、音频和视频等多媒体信息不断增加。这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理检索出需要信息。 于是,从90年代初开始,基于内容的图像(视频)检索成为多媒体领域研究的热点之一[1][2]。在基于内容的图像(视频)检索中,颜色、纹理、形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。基于内容的多媒体检索原理与特点 多媒体检索是一种基于内容特征的检索(CB
3、R:content-basedretrieval)。所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。 与传统的信息检索相比,CBR有如下特点: (1)相似性检索:CBR采用
4、一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。 (2)直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。 (3)满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的
5、应用要求。 (4)大型数据库(集)的快速检索:CBR往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。基于内容分析方法的提出 我们知道视频、音频都是按时间顺序来组织的,传统方法查找其中某个片断都是通过快进或快到等顺序来浏览内容查找,这种方法不仅要求用户注意力高度集中,而且特别浪费时间。由于视频、音频内容包含复杂丰富的信息数据,对视频、音频检索已成为实际应用中一个难题,而基于内容分析方法是目前视频、音频检索主要发展趋势。 如何解决多媒体信息内容描述问题,目前主要是采用基于内容分析视频处理与检索方法,这
6、种方法是近年来随着多媒体数据处理技术发展而提出的。基于内容分析的方法是从另一个角度来认识多媒体信息,从早期基本颜色检索,到综合利用多种多媒体特征进行检索。如:颜色、纹理、形状、场景、镜头、帧等特征信息。目前该技术已经发展到实用阶段,其中多媒体内容描述接口MPEG-7是目前被广泛接受的一种国际标准,其核心就是基于多媒体内容分析。 MPEG序列媒体标准是目前最为广泛应用的视/音频媒体标准,目前广泛应用的主要有MPEG-I、MPEG-II、MPEG-4等,它们都是对数字运动图像及伴音编码进行压缩的一种国际标准,其中MPEG-4采用按
7、照具有一定时间关系和空间关系的对象来进行视、音频编码的处理方式。而MPEG-7是在MPEG-4基础上发展起来,MPEG-7重点是对视音频信息内容进行不同程度描述与定义,而与多媒体信息的编码和存储方式无关。 由于音频也蕴含了大量的语义信息,近年来,基于内容的音频检索[3]也受到越来越多的关注,其主要思想是通过提取音频流中的时域(频域)特征来描述音频内容。由于多媒体本质是由文本,视频和音频等多种媒质交互融合而成的,它们之间存在或多或少的语义关联,一种媒质和另外一种媒质可以表示同一语义,媒质之间可以相互索引,如[4]中通过音频分类实
8、现为视频数据建立索引。但是,无论是基于内容的图像(视频)检索或是基于内容的音频检索,目前还是基于视觉或听觉感知特征相似度比较的检索,而我们对多媒体内容的描述是基于其所蕴涵的语义信息的。因此,将多媒体数据流分类成预先定义的语义模型是多媒体检索面临的挑战[5]。语义
此文档下载收益归作者所有