欢迎来到天天文库
浏览记录
ID:57763452
大小:735.38 KB
页数:9页
时间:2020-03-30
《基于梯度向量统计特征的复杂场景文本定位.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于梯度向量统计特征的复杂场景文本定位摘要:在对视频内容进行分析时,人工文本可以提供很多非常重要的语义信息。本文在传统的梯度检测算法基础上提出一种新的方法进行文本检测。首先利用加权平均梯度能量特征和运动能量特征对采样帧粗检测,形成候选文本区。然后通过连通域分析,滤除掉部分虚检的候选文本区。最后利用候选文本区梯度方向的统计特征进行验证。实验证明本方法在处理复杂背景视频图片时具有很好的鲁棒性。关键词:视频文本检测加权平均梯度能量运动能量梯度向量视频追踪1引言随着视频编辑技术的发展,视频后期制作通常会添加一些文字,帮助观众更好地理解视频的内容。例如,新闻视频中嵌入的标题是对报道内容的简要
2、概括,体育类节目则可能包含[1]参赛队伍和比分等字符。视频包含的文本可划分为两类:场景文本和人工文本。场景文本是在拍摄过程中得到的,本身就是视频内容的一部分。人工文本则是视频后期制作过程人为添加的,与视频内容密切相关。视频文本检测和定位是进行视频文本识别和基于内容的视频检索的重要步骤。然而,由于视频内容的复杂性、文本本身的不确定性(包括颜色、字体和[2]大小等)等因素,文本检测和定位仍然存在很多的挑战。目前,文本检测主要有三种方法:基于连通域、基于边缘梯度和基于纹理。基于连通域的方法相对简单,它假定属于同一连通区域的文本像素具有相同的特征,因此对于复杂背景[3],[4]或者同时包含
3、人工文本与场景文本的视频,效果不够理想。基于纹理的方法认为视频文[6]本具有特殊的结构并表现出不同的纹理特性。该方法首先利用Gabor滤波器、DCT纹理能[7][8]量或者小波变换等计算图像纹理特征,再通过神经网络或者支持向量机等适当的分类器进行文本区和非文本区的划分。因此,该类方法要求文本像素和非文本像素之间具有明显的[9]纹理差异,通用性不强。基于边缘和梯度的方法则利用文本区域和背景之间的对比度。当背景比较复杂,存在较多的强边缘时,例如背景包含树枝、栏杆等,字符定位的效果不理想。本文仍然采用梯度的方法进行文本检测,但是同时考虑字符在视频时域上的特点以及字符笔画的方向信息,提出一
4、种新的文本检测定位方法。它综合运用运动矢量和字符的方向性特征,并利用视频文本的时间域特点进行文本区域的跟踪。粗检测时,利用加权平均梯度能量特征和运动能量特征,以去除掉大部分非文本区。精检测时,则利用连通域分析和梯度方向分布的统计特征进行,以滤除虚假的文本区。2字符定位算法通过观察发现,字符笔画更多的是集中在0度、90度方向,以及少量的45度方向。而背景区则不同,由于背景的复杂性以及无规律性,往往使得背景边缘方向分布与字符区域有着明显的区别,如图1所示。显然,对于文本区域,图像边缘的方向分布呈现U型特征。而当背景是杂乱无章的枝叶时,其边缘方向分布呈现近似均匀分布的特点。(a)文本区的
5、梯度方向分布(b)背景为树枝时的梯度方向分布图1不同背景下梯度方向分布本文针对如上所述的文本所具有的特征,提出一种综合利用文本梯度向量的幅度和方向,并结合其他文本特征实现文本区准确定位的方法。具体算法的流程如图2所示:采加权梯度能定连通域梯度方精确定视频追样量和运动能位分析向验证位踪帧量检测帧图2算法流程图2.1梯度能量和运动能量视频的人工文本区域与背景区域有很强的对比度,并且存在很多的笔画边缘,使得文本行具有很高的梯度能量。因此,视频文本检测广泛使用基于梯度能量的方法。对于新闻等背景相对简单的视频,单独使用梯度能量能够检测出大部分文本区域。图像的边缘有幅度和方向两个属性,沿边缘方
6、向像素变化平缓,垂直于边缘方向变化剧烈。导数和微分运算是最基本的边缘检测方法。图像fx,y的梯度定义为:fGxxfx,yf(1)Gyy[10]22梯度算子定义为一介导数算子,定义为:Gfxy(,)GG。(2)xy在像素域内利用梯度算子对图像求梯度,可以检测出任意方向上的边缘点。对于编码的视频,这需要在求取梯度值之前对视频进行解码,势必影响视频处理的实时性。由DCT逆变换可知,图像函数可以用DCT系数来表示,所以可对用DCT系数表示的图像函数求梯度。[10]本文首先利用压缩域边缘检测算子在压缩域内计算各像素的梯度幅值G
7、M和梯度方向GRO。然后,把视频帧分成1616大小的块Block(i,j),计算每一块内像素的加权平均梯度能量AVG。11AVG(i,j)GM(x,y)(5)MM(x,y)Block(i,j)21x,y4其中,M为块的大小,x,y表示坐标为x,y的像素的梯度方向。由于文本区字符的方向主要集中在0度和90度方向,为了更好的突出这个特点,本文采用加权平均梯度AVG的方法。通过式(5)可以看出,梯度方向越是接近垂直或水平方向的像素其权值越
此文档下载收益归作者所有