反盗版卫士 互联网版权监测系统解读

时间:2022-10-01 06:53:29

反盗版卫士 互联网版权监测系统解读

揭开面纱 了解版权监测工作流程

首先我们来了解一下版权监测系统是怎么进行盗版监测和判定的。一般来说,监测系统首先需要建立正版版权数据库。比如对于电影等视频的监测,监测系统从权利人提供的正版节目或者视频网站在播节目中提取以视频画面、声音等为特征值的“基因”, 采集后将其保存在监测系统服务器作为版权比对的原始依据。

接着监测系统通过网络爬虫、海量视频搜索等抓取各个电影网站播放或者保存的视频文件,提取其视频画面、声音等资源传输到检测服务器进行比对,如果抓取的资源和数据库中某个视频的指标相同(或者一定比例的相符)则判断其为盗版。然后通过抓取网站的联系邮箱向其发送侵权邮件,通知其删除或者提讼,从而完成一个完整的采集、比对、确认侵权的流程(图1)。

侵权认定原理――比对数据

从上面的描述我们知道,认定侵权的一个重要基础就是正版视频“基因”,那么一个视频文件什么元素才可以作为识别“基因”?视频主要是由音频(视频伴音)和每帧画面组成的,因此其中音频文件和图片就是一个视频的正版“基因”数据。

1.音频比对

对于音频数据基因的提取,主要是将一段视频伴音(可以是开头、影片高潮片段和结尾音频数据)提取出来,通过软件分析其音频信号源的信号波形,将音频波形数据作为比对源。比如Goldwave就可以轻松获取音频的波形文件,在其中打开音频文件即可知道其波形文件(图2)。

这样当网络爬虫获取某个和正版数据库里波形文件相同的音频时,通过比对,如果两个波形文件类似(比如可以通过两个文件同一时间段的峰值分布比对),那么就基本可以判定这个为盗版视频了(图3)。

2.视频画面比对

对于视频画面,则主要通过提取关键情节帧画面来作为数据源。主要提取开头、影片高潮片段和结尾画面(因为任何盗版网站即使掐头去尾处理视频,也不可能将最精彩的部分去除)。很多软件都可以提取视频所有帧数画面,这样检测系统就可以提取其定时间单位(如1秒/帧)的画面作为比对数据库资源。

那么视频画面是怎么进行比对的呢?相信很多朋友都用过搜狗浏览器的识图搜索引擎(即“以图找图”功能),其实监测系统的图片判断功能与此类似。要判断某张图和数据库资源是否相同,首先我们要提取原图的特征数据,比如在识图中常用颜色分布法,它的原理是利用每张图片都可以生成颜色分布的直方图,然后通过直方图进行比较。如果两张图片的直方图很接近,就可以认为它们很相似。

比如我们这里截取优酷正在播放的《产科男医生》1分30秒的一帧图片,用PS打开可以看到图片红黄蓝和RGB的直方图(图4)。

假设这部视频是优酷独家买断版权的视频,现在随即在另外一个视频网站截取同样片段的图片,经过比较大家可以发现它们的直方图是非常相似的(图5)。这样结合音频和视频图片的比较,我们就可以断定某网站在侵权播放《产科男医生》这部视频。

当然上面的例子我们是以手工看图的方法进行比较,在实际操作中,监测系统一般将波形文件转化为数字信息以便于提高比对精度和效率,对于图片的直方图则转化为一个64维向量,然后借助公式快速进行比对。图片识别还会使用内容特征法、感知哈希算法等综合进行判断。另外,借助集群式、分布式服务器,监测系统可以快速处理和比对海量的搜索结果,从而更有效地对网上盗版进行打击。

网络反盗版任重而道远

大家都习惯免费使用互联网上的各种资源,为了迎合大家的需要,互联网上有成千上万的网站在提供各种盗版服务。一方面,版权监测系统要完全监测出所有盗版基因并不现实,另一方面即使监测某网站侵权,很多网站也会通过“避风港”原则合理地“纵容”盗版。因此,互联网盗版与反盗版斗争仍然任重而道远。

不过,互联网版权监测系统的出现仍然可以有效遏制网上盗版,而且随着大家版权意识的提高和相关法律法规的健全,互联网上的盗版资源也会越来越少。作为用户,我们也应该养成“我用正版我光荣”的理念。

上一篇:如何进行小学班级管理工作 下一篇:海王波塞冬的宝藏