基于IP地址段的网站内容监控的研究

时间:2022-10-26 01:06:17

基于IP地址段的网站内容监控的研究

摘 要:实时发现并对网络信息进行安全性监控是IDC业务管理部门目前一个难题,也是网络监控的一个重要任务。这里提出一种在指定IP段内发现网站域名并对网站内容进行分析监控的技术框架。通过该技术对海量数据进行降噪和智能分析,能以最快的速度发现网站及经营内容。实验证明,提出的技术框架相比于同类系统,数据库更新周期快,更新周期仅为1天左右,检索到的内容更快速、准确。

关键词:IDC; 监控; 网站; IP地址

中图分类号:TN915.08-34文献标识码:A文章编号:1004-373X(2011)21-0115-04

Study on Website Content Monitoring Based on IP Address

LIU Le-qun, SHI Jun-hua

(Department of computer Science and Technology, Hefei Normal University, Hefei 230601, China)

Abstract:

It is a difficult problem and important task currently for IDC business management to find network information and monitor its security real-timely. A technology framework is proposed which can find the domain name and monitor the content of network within assigned IP segment. The technology can find websites and its business content as quickly as possible after noise reduction and intelligent analysis of massive data.Experimental results show that the proposed technical framework has faster database update cycle which is only about 1 day, and can retrieve content more quickly and accurately compared with similar systems.

Keywords: IDC; monitoring; website; IP address

收稿日期:2011-05-25

基金项目:高等学校省级优秀青年人才基金重点项目

(2010SQRL149ZD)

0 引 言

网络信息安全是一个关系国家安全、社会稳定、民族文化继承和发扬的重要问题。其重要性,正随着全球信息化步伐的加快越来越突显出来。随着互联网的发展,用户对网络的访问和需求越来越大,随着网络信息资源的丰富,网络流量越来越大,各种网站经营的业务范围混乱,而缺乏有效的监督管理技术,给网络运营商的业务管理、信息安全管理带来了很多负面效应和问题。如何安全有效的管理网络业务,即:如何发现网站,进而发现网站内容及其主要叙述的关键词,同时追踪其迁移轨迹和内容变更等更是成为互联网上的业务管理和信息安全管理中的一个难题。

如果采用传统的技术发现网站,可以通过域名查找IP,而逆向无法实现(除非域名做了反向解析,但是此类域名极少),而且,国内同类产品目前是通过搜索引擎原理实现的,其网站发现方案采用蜘蛛技术,通过网络抓取而获得,遍历整个互联网时间周期长(约为1个月)。数据更新速度慢导致不能及时在指定IP段内进行网站的发现和网站内容分析。

本文通过IP地址分段表,提取用户访问路径,获得所有被访问的网站域名、访问流量信息和IP地址等信息,通过系统获取的域名提取网站主页内容,从而确定网站的主要经营业务。原则上,只要历史上被用户访问过一次的网站,均可被记录发现,从而及时发现各种有害网站,帮助网络运营和监管部门进行网络管理,提高IDC的监管。

随着网络技术的迅猛发展,现行的网络环境日益复杂,网络上各种信息鱼龙混杂,丰富的网上信息资源带来了海量的数据分析和处理,使得网络运营者对网络信息的管理和维护工作难以有效展开。为全面发现骋欢瓮络地址中存在的信息内容,并对内容实现垂直分类,现拟研究一种在指定IP段内发现网站域名,并对网站内容进行分析、分类的技术框架,目标是通过该技术框架,在网站接入地址动态变化和内容动态更新环境下进行智能分析。

1 相关研究

为了及时发现网站及内容,首先必须要取得该地址段内的所有网站域名。现有较普及的技术主要是搜索引擎使用的网络爬虫技术和在用户软件中装插件方法。

网络爬虫技术,即通过自动读取一篇文档遍历Web的超链接结构,从而递归获得被引用的所有文档。搜索引擎对搜集到的内容按照关键词进行索引,建立索引数据库提供全文检索。这种方法受多种因素限制:一是硬件规模、网络爬虫的性能、网络带宽等因素直接影响整个搜索引擎索引网页的数量、质量和更新周期;其二,索引技术的先进性、自然语言的识别能力等方面则直接影响搜索的准确性和响应速度;其三,网络中的一些孤岛站点由于不与其他网站建立连接,很可能无法被爬虫发现。这些因素影响了搜索引擎的信息全面性。因此,网络爬虫技术在该领域的应用存在投资巨大、不适于小规模应用、难以提供个性化服务等问题,所以至今尚无成功利用该技术的应用案例。

以插件形式安装到用户软件系统中的方法,如alexa工具条等,可以收集用户上网信息,定期向服务端汇报,从而收集网络上的地址列表。该技术实现难度不大,获得数据较全面,局限之处在于要求绝大多数用户安装此服务,才可以获得更全面的信息。所以该方案也无法获得应用和推广。

2 系统框架结构

系统主要解决的是在指定IP段内发现网站并对网站内容分析,从性能上说,一是实现实时发现,实时跟踪,提高数据库更新周期;二是解决网络孤岛的问题,只要历史上被访问过一次的网站、网页、服务站点,均可以被该系统发现,而不需要考虑网站与其他节点之间的链接数量的多少。系统可以实现针对指定IP段内的网络域名的提取,包括主域名、二、三级等下级域名、以IP作为访问的地址,在发现域名的基础上,系统将继续判断该地址所提供服务的类型(如Web,FTP等),最后将分析所提供服务的信息内容,提取关键词,进行信息归类,提供检索。系统拓扑结构如图1所示。

3 系统功能设计与实现

整个系统分为数据采集、数据分析、内容抓取、信息分析、检索响应块5个模块,如图2所示。各模块之间互相配合衔接,顺序执行。为提高整个系统的鲁棒性,提高在各模块出现异常状况下的容错能力,各模块之间采取数据缓冲存取的方式。为减少系统在做大容量数据处理时对硬件的依赖,全面使用了内存数据库技术,最大程度减少对硬盘读/写。

3.1 数据采集

模块位于整个系统入口,负责采集并清洗用户上网信息并将其序列化。该模块不间断进行数据采集,确保数据的及时更新。模块运行逻辑如下:

上一篇:物联网时代小区智能化系统设计研究 下一篇:降低电极接地电阻的方法