网站数据采集原理及防范策略的研究

时间:2022-10-12 02:59:27

网站数据采集原理及防范策略的研究

摘要:网站数据的采集对于一个网站的建设具有十分重要的作用,该文将针对网站数据采集的基本原理和常用的防范策略进行研究。首

>> ASP网站数据库的安全漏洞和防范策略的研究 GoogleHacking的入侵原理及防范策略 网站数据库的安全防范及对策 主动监听技术原理及防范策略研究 网站统计中的数据收集原理 基于ThinkPHP的野外数据采集系统网站的搭建与研究 学校网站存在的安全隐患及防范策略 GPS数据采集系统的设计及实施研究 视频数据采集系统的原理及其应用 浅析数据采集系统中典型的模数转换原理 典型网络欺骗攻击原理及防范的研究 网站注入式攻击的原理与防范 网站数据库的安全防范及对策浅谈 浅析网站数据库的安全防范及对策 计算机数据安全的探讨及防范策略 基于云计算的数据安全风险及防范策略 测试系统的数据采集及通讯 DLL木马的原理及其防范策略 阀门数据采集系统的硬件研究 基于数据采集平台的高职院校师资队伍建设策略研究 常见问题解答 当前所在位置:l。因此,只需要使用变量替换代表每页地址变化的字符即可获得相应的页面地址。目前,一个Web页面的分页页面中内容的超链接一般表示如下:连接

,只需要编写适当的代码既可以获取该页内容所对应的URL链接。在动态生成的页面中大多数内容页面中都包含相同的html标记,因此可以根据已定义规则的标记提取相关的需要部分的内容。例如:每个Web页面都有相应的标题,代码中呈现为标题,编写相应的MID截取函数就可以获得两个title标签之间标题,也可以用正则表达式来获取,如:body("标题","","")[3]。

图1 网站数据采集基本原理图

3 网站防采集策略

目前,常用的网站数据防采集策略包括以下几种:

1)通过在单位时间内限制固定IP地址对同一个网站所有站点的访问次数来避免网站数据采集。

一般情况下,用户在正常访问某一个网站时不会在极短的时间内多次访问同一个网站,只有网络引擎爬虫和网站数据采集工具会造成这样的现象。但是这种方法容易造成误判,并且如何设计时间的阈值是这种方法的关键。

2)通过人工的方式屏蔽可疑的访问源IP。

网站的管理人员通过在后台设置计数器来记录访问的源IP及在单位时间内的访问频率,进而通过人工干预的方式判断并屏蔽可疑的IP地址。这种方法适用于小型的网站,大型的网站可能需要大量的人力来进行,同时这种方法难以解决通过的方式进行数据采集的问题。

3)将网站的内容以flas、图片或者PDF文档的格式进行呈现。

目前的搜索引擎爬虫和网站数据采集工具还不具备对PDF文档和图片的识别和分析能力。这种方法能够有效地避免网站数据被非法采集,但是它的适用面较窄,仅适用于一些用于多媒体视觉呈现的网站。

4)通过在网页内嵌套藏网站的版权信息或者利用水印技术对Web页面进行加密。

一般情况下,这些用于保护网站数据的信息被写在了相应的CSS文件中。这种方法虽然不能阻止网站数据被非法采集,但它能够使得被采集的数据无法完整的呈现在其他网站中。因为,网站数据采集工具或网络爬虫一般不会同时采集网站中的CSS文件,那些数据丢失了相应的格式化设置,就被显示出来了。

5)通过在网站中对访问者设置权限来保护数据。

这种方法要求用户只有在登录了系统后才能够浏览网站的数据。自动化的数据采集工具和网络爬虫无法对每一个网站进行登录,这种方法可极大程度上避免数据被采集,但同时网站的用户友好性就降低了。

6)利用脚本语言对网站做隐藏分页设置

由于网站数据采集工具和网络爬虫不会针对一个网站的隐藏分页进行数据的分析,因此,这种方法能够有效地阻止自动化工具对网站数据的采集。这种方法适用于对搜索引擎依赖度不高的网站,同时它无法阻止人工进行网站数据的采集。

7)对于动态的网站,可以采用随机的模版避免非法数据采集。

由于网站数据采集工具是根据网页特定的结构来定位所需要采集的数据,一旦网站的模版出现变更,采集工具中事前设定好的采集规则就会失效,这样就可以避免网站的数据被非法地采集。这种方法造成的问题是破坏网站的用户友好性。

8)在网页中使用动态不规则的html标签代替传统的静态html标签。

在html标签中包含空格和不包含空格的效果是一样的,因此包含和不包含和< div>标签,在页面显示中的效果也是一样的。但是一般的网站数据采集工具中,这两个是完全不同的标记。因此,随机地在每个页面的html标签中添加若干个空格数就会导致网站数据采集工具相应的规则失效。但是这种方法违反了网页设计的规范。

4 结论

随着互联网技术的不断发展和个人PC机的不断普及,越来越多人参与到网站的建设和维护中。如何有效地避免网站中的数据被非法的采集是每一个网管员必须掌握技能。该文主要研究了网站数据采集的基本原理和八种常用的网站数据防采集的方法,希望能为网站的建设和维护提供更多的帮助,。

参考文献:

[1] 巫志勇.基于XMLHTTP的网站数据自动采集[J].福建电脑,2007(01).

[2] 温世豪.疯狂的站长[M].北京:清华大学出版社,2010.

[3] 吴振丰.网站建设与管理[M].北京:高等教育出版社,2006.

上一篇:基于内容图像检索的特征性能评价研究 下一篇:货币政策、金融关联与企业现金持有决策