欢迎来到天天文库
浏览记录
ID:34634691
大小:176.31 KB
页数:3页
时间:2019-03-08
《小议基于质心检测算法的文本数字水印技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、小议基于质心检测算法的文本数字水印技术1.引言数字水印是利用人类感觉器官的不敏感性,以及数字信号本身存在的冗余,将一定的水印信号嵌入到一个载体信号中,它从视觉上与原始载体无差别,而且嵌入的水印信号不影响宿主信号的感觉效果和使用价值。并且通过特殊的方式,可以从宿主信号中提取出水印或是检测出它的存在性。依据载体的不同,数字水印可分为图像数字水印、视频数字水印、音频数字水印、文本数字水印等。目前数字水印的研究太多集中在图像和视频方面,用于文本的数字水印研究得很少。一个英文文本文件一般由单词、行和段落等有规律的结构组合而成,对其作一些细微的改动是难以察觉的。基于此,B
2、rassil和Maxemchuk等人提出了行移编码、字移编码等多种在PostScript格式文本中插入隐藏信息的方法.纸张文档在受到影印等处理后所受的破坏很大,但是文本中行的长度足以提供明显的特征。因此,通过改变统一的行间距来插入隐藏信息的行移编码很适合用于以纸张形式发行。对于行移,最有效的检测方法是质心检测Brassil等人提出了行移的标记策略和对应的质心检测方法。汉字的重心和字形的中心相近,字体大小相等的汉字文本行图像的高度基本相同。基于这些特点,本文进行了改进和简化,并对2种方法作了对比分析。2.Brassil的行移标记方法和质心检测方法一个格式化文本文
3、档的页面可用数字化的二值图像表示,即f(x,y)∈{0,1}x=0,1,2...,W-1;y=0,1,...,L-1;(1)其中x,y表示像素点的行坐标和列坐标,f(x,y)的值为坐标(x,y)处象素的强度,对于二值黑白图像,白象素点时取0,黑象素点时取1。W和L分别是文本图像的水平象素数和垂直象素数,每一个数组行对应着文本图像的一个水平行。轮廓是文本图像的一维投影,水平轮廓定义为:表示对一于每个y,计算该行所有黑象素点的个数,其中t和b分别为该文本行的上下边界。文本行的重量为表示该文本行所有黑象素点的个数之和,其中t和b分别为该文本行的最上方和最下方的像素的
4、行坐标。提出的标记策略是:轻微上移或下移中间文本行,同时保持上下2个相邻文本行(参照行)的位置不变在实际应用中采取奇数行不动,移动偶数行的标记策略,移动量一般取为0.1693mm(即1/150英寸,在118.11像素/cm(300dpi)下相当于2个像素)。以下称未植入水印的文档为初始文档,由扫描仪、复印机、传真机等设备生成的经过预处理(去椒盐噪声、倾斜校正、缩放补偿等)后带水印的文档称为再生文档。因为再生文档文本行的水平轮廓受到一个独立同分布加性高斯白噪声(轮廓噪声)文本行受到一个独立同分布加性高斯白噪声N(y)~N(0,σ2)的影响。分别代表初始文本的三个
5、已知变量,H代表初始文本行质量,ω代表初始文本行的高度,δ表示初始文本行质心与中心的偏差。从式(7)中可以看出,质心噪声V的方差v不仅与轮廓噪声方差σ2成正比,还通过H、ω和δ与原来未作标记的轮廓h(y)有关。假设有分别定义在区问11[b,e]、22[b,e]与33[b,e]上的相邻的3个文本行,其中bi是图像中第i个文本行纵坐标的起点,而ie是纵坐标的终点,ci是第i行的质心纵坐标。现对中间文本行进行标记,将中间行移动量记为ε(ε>0表示上移,ε6、不同,但可以在缩放补偿预处理阶段建立对应关系,为简便计,此处设两者坐标一致),由于检测需要未受破坏参照行的3个参数H、ω和δ,所以不能实现盲检,而盲检是实际应用中所需要的,因此需要对该方法进行改进。3.改进的标记策略和简化的检测算法Brassil等提出的改进标记策略是使用上下两行作为参照行,对中间行进行上下移动从而嵌入水印信息。在这里,我们可以使用的改进标记策略是不使用参照行,从页面的第2个文本行起开始调整行间距,也就是说从第2行起,各文本行都相对于上一文本行进行上移或下移。大多数汉字笔划分布为左、右、上、下,比较均匀,汉字的重心和汉字字形的中心相差不多,对G7、B2312中的一级字库的汉字在小4号字体和300dpi的条件下做测试,在该条件下,一个汉字图像的大小为50×50,汉字质心高度偏离中心高度的均值为0.074974,方差是0.313951。把汉字质心高度偏离中心高度的分布看作高斯分布,可以推出汉字文本行质心偏离文本行中心的高度的均值和方差非常小,这和实际测量得到的结果是相符的.在118.11像素/cm(300dpi)和小4号字体的条件下,某页42个文本行的偏移量的均值是?0.0026,方差是0.0177,可以认为的均值近似为0,方差很小。基本等长的汉字文本行,其质量分布也比较集中,可以认为分布密度近似相同.上面8、同一文本的各行质量分布的均值为1340
6、不同,但可以在缩放补偿预处理阶段建立对应关系,为简便计,此处设两者坐标一致),由于检测需要未受破坏参照行的3个参数H、ω和δ,所以不能实现盲检,而盲检是实际应用中所需要的,因此需要对该方法进行改进。3.改进的标记策略和简化的检测算法Brassil等提出的改进标记策略是使用上下两行作为参照行,对中间行进行上下移动从而嵌入水印信息。在这里,我们可以使用的改进标记策略是不使用参照行,从页面的第2个文本行起开始调整行间距,也就是说从第2行起,各文本行都相对于上一文本行进行上移或下移。大多数汉字笔划分布为左、右、上、下,比较均匀,汉字的重心和汉字字形的中心相差不多,对G
7、B2312中的一级字库的汉字在小4号字体和300dpi的条件下做测试,在该条件下,一个汉字图像的大小为50×50,汉字质心高度偏离中心高度的均值为0.074974,方差是0.313951。把汉字质心高度偏离中心高度的分布看作高斯分布,可以推出汉字文本行质心偏离文本行中心的高度的均值和方差非常小,这和实际测量得到的结果是相符的.在118.11像素/cm(300dpi)和小4号字体的条件下,某页42个文本行的偏移量的均值是?0.0026,方差是0.0177,可以认为的均值近似为0,方差很小。基本等长的汉字文本行,其质量分布也比较集中,可以认为分布密度近似相同.上面
8、同一文本的各行质量分布的均值为1340
此文档下载收益归作者所有