基于文本字符频度点积的零水印研究

时间:2022-06-10 10:49:02

基于文本字符频度点积的零水印研究

摘要:在分析现有文本零水印缺陷的基础上,该文提出了基于字符频度点积的数字零水印的思想,为了能提取更能体现文本特征的字符,该文研究时去除了一些无特征、无意义,并且是大家常用的一些高频词汇,这些词若是统计进来,无疑给系统运行造成了一定的工作量,并且会使特征值出现偏移;在水印的检测上,该文采用向量点积函数作为数字水印的检测模型,保护作品和被检测作品相应文本字符的频度做积运算,并求出cosθ值,根据这一值来确定被检测文本的真伪或是盗版情况;该文还结合了互关联后继树,把水印进行了二维编码和对字符的频度进行统计。经过反复的实验证明:这一思想是非常可靠、科学。

关键词:零水印;频度;点积;互关联后继树;二维编码

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)22-5129-04

随着计算机技术的发展,无纸化办公已经成为了现实。各类电子读物的安全问题也日渐突出,无疑在这一方面数字水印技术起到了举足轻重的作用。加上数字产品易于复制和修改等原因,盗版问题日渐严峻。如何保护所有有者的权利,已经成为世界各国的学者和工程技术人员关注的热点问题。近十年来数字水印技术被广泛认为是解决知识产权问题的关键技术之一,数字水印的研究有助于保护文本数字信息的版权及增加文本数字信息在互联网上传输的安全度。

数字水印技术是指通过一定的算法将一些数据直接嵌入到受保护的数字产品中,但又不影响原有数据变化和使用,并且不能被他人随意修改,只有通过专用的检测工具才能提取的技术。数字水印不仅要实现有效的版权保护,而且加入水印的产品与原始产品使用上没有任何差别。

1 零水印概念和典型水印算法

1.1零水印概念及用途

早期的水印算法都是基于文本格式进行编码的,算法通过改变文本字间距或行间距来嵌入水印,或是基于字符特征编码水印算法一般是通过修改文本字符特征或在文档中附加空格以嵌入水印,这两种算法均是基于HVS 的视觉掩蔽特性来进行嵌入水印。但是加视觉掩膜使得水印的嵌入过程复杂化,不利于现实之中的应用。基于这些问题,提出了零水印的概念。

零数字水印指这种不修改原图像或文本任何数据的水印称为“零数字水印”。零水印技术真正地解决了数字水印的不可感知性和鲁棒性之间的矛盾

1.2目前提出的典型水印算法

尽管水印最近几年才得以发展,但是目前已经提出了许多有关数字水印的算法,这些方法大体上可分为两类:一类是频域水印算法;一类是空域水印算法。

频域水印算法有:1)NEC算法;2)扩展频谱通信技术;3)压缩域算法;4)生理模型算法。

空域典型水印算法有:1)Schyndel算法;2)Patchwork算法。

2 本文水印算法策略

随着零水印算法的出现,从技术上真正的解决了数字水印的不可感知性和鲁棒性之间的矛盾。零水印的构造最为主要的问题是怎样才能提取保护作品最为有代表性的特征

在文献[1]中提到了利用汉字偏旁部首进行编码运算来提取作品特征,偏旁是通过分解合体字而得到的汉字结构符号,所以它不是整个汉字体系的结构成分,而只是其中合体字的结构成分,除了能够充当偏旁的独体字有一定的意义以外,它不是文本构成的最小单位,而字包含了一定的意义在里面,所以整字才是文字使用单位;其次,汉字是由偏旁部首构造而成的合体字或是独体字,所以不同的汉字可能有相同的偏旁部首,所以这种统计并不能很好体现的文本的关键特征。

其次,在汉字集中有很多汉字本身是没有意义的,但是这类字却属于最常用字,例如:“的,一,是,了,我,不,人,在,他,有,这,个,上,们,来,到,时,大,地,为,子,中,你,说,生,国,年,着,就,那,和,要,她,出,也,得,里,后,自,以”这42个字符的使用频率之和为30%,这类字符中的“的”、“了”、“地”、“得”、“着”和“也”,并没什么意义,可以去掉频度的统计。

本文论述的水印提取算法是以字符(去除了无意义的常用词)的频度值为文本关键特征,这种水印比部首频度更具有一定意义的代表性;同时采用互关联后继树的商空间变化思想,根据系统中现有的基本字符列表,随机产生出字符变化编码种子,从而给水印进行加密处理。经过以上叙述方法提取出来的关键特征通过互关联后继树进行加密换算,形成一种肉眼不能看懂的密文,为了保证第三方保存的水印的原版性,该文提出了采用MD5对密文水印进行了hash值的求取,并一道交由第三方进行注册保存。

3 算法设计与实现

3.1 利用互关联后继树进行加密和对字符的频度进行统计

互关联后继树[8]是由复旦大学胡运发教授提出的一种新型的数据索引模型。其基本思想是将任何文字(或符号)序列看成二维符号序列空间(即由符号和编号组成)。采用商空间变换的方法,将原二维符号序列空间(符号及其在原空间中的编码),变换成新的二维商空间中的符号序列(符号商区间表及其后继的商区间编号)。

具体来说,任何文本T=a1a2...an的互关联后继树索引主要是由两部分组成:

1)按字典序排列好的基本字符作为树根、他们在商空间中的区间与文本T的起始字符的编号;

2)后继区间表和后继序列表。

我们把后继节点和后继序列都是有序的后继树称为“双排序互关联后继树”。为了能更清楚的了解双排序互关联后继树我们举一个实例来说明。

通过互关联后继树,我们不需要遍历保护文本就能很快的统计出字符的频度(字符的频度就是树根字符的区间上限值),并且可以通过字符的索引号替换相应的字符,从而达到乱码的效果。

3.2采用点积与它们夹角的余弦成正的数学模型来进行水印检测

3.3 cosθ值确定

7)输出结果:待测文本具有原作品的水印,版权应归原作者;

8)Else

9)输出结果: 待测文本不具有原作品的水印,版权应归新作者;

10)End

11)Else

12)原作品水印被破坏

13)End

4 实验测试和性能评价

4.2性能评价

首先:鲁棒性。该文进行了各项看攻击性实验测试(如文档的恶意修改、格式变换等手段),从实验结果可以知道,本算法克服了空预算法的由于格式变化和恶意修改造成的水印破坏,具有良好的抗攻击能力;

其次:不可见性和水印容量。此水印是零水印,不对原任何的修改,因此具有良好的不可见性,同时从理论上来说也具有了无限的容量;

最后,安全性。本算法采用了互联关联后继树的模型,把字符进行了二维空间编码,从而把安全性提高到了一定的高度,而且为了防水印修改引入了MD5,来保证水印的原版性和完整性。

5 总结

频度对字符的增加或减少很敏感,利用特征字符在文字区间上的独立性,可形成强水印。为什么可作强水印?理由是假设我们的载体文字有10个区域。由于特征字符串的独立性,某些区间(例如一个或两个区间)上文字变化,不会影响另外一些区间上特征字符的存在。如此,我们仍然有9/10,或8/10的把握说载体的水印存在。

在本章论文对本文提到的水印,用到文本文档版权保护,是具有极高的应用价值。作者会再不懈努力从字符串的角度出发,更深层次的研究出更具鲁棒性的水印出来。

参考文献:

[1] 孙圣和,陆哲明,牛夏牧.数字水印技术及应用[M].北京:科学出版社,2004.

[2] 杨义先,钮心析.数字水印理论与技术[M].北京:高等教育出版社,2006.

[3] 尹浩,林闯,邱锋,丁嵘.数字水印技术综述[J].北京:计算机研究与发展,2005,42(7).

上一篇:自适应Canny算法的植物叶片图像边缘检测应用 下一篇:浅谈数字视频水印技术