数据挖掘技术下信息安全监督与控制框架构建

时间:2022-06-28 04:48:44

数据挖掘技术下信息安全监督与控制框架构建

摘要:本文以数据挖掘技术为基础,提出了信息安全监督与控制的基本框架结构,该框架以多种方式对网络数据与信息进行收集加工,最终形成信息安全数据库,之后对数据进行挖掘,生成信息安全监督与控制的对象与监控对象之间的关联特征,进而推动对信息的有效监督与控制。

关键词:数据挖掘;信息安全;监督控制

中图分类号:TP393.08 文献标识码:A 文章编号:1007-9599 (2012) 17-0000-02

1 数据挖掘与网络信息安全

数据挖掘技术最早产生于上世纪80年代,当时主要作用在于从大量的魔术随机数据中,提取人们事先不清楚但又有潜在利用价值的信息。之后随着计算机技术的不断发展与成熟,以网络应用为基础的数据挖掘技术开始出现并大范围扩展开来。这里网络数据挖掘技术主要是以计算机网络为基础,利用数据挖掘相关技术,自动对数据进行抽取的过程,从影响数据的相关因素入手分析用户所需要的深层信息。通常网络数据挖掘主要包括网络结构挖掘、内容挖掘、使用挖掘等几方面。

在计算机网络系统中,会有很多包含信息安全的数据被隐藏于文本文件或者音频、视频等文件中。而网络数据挖掘技术恰好可以针对数据的这类特点对数据进行分析与整理,发现数据之间的关系及数据本身所存在的某些特征,进而对信息安全进行有效监督与控制。

2 以数据挖掘技术为基础的信息安全监督与控制框架基本原理

随着现代化计算机技术的不断发展与进步,社会逐步进入网络化和信息化的时代,网络时代信息的有效收集、提取、存储与分析等势必也会与网络产生千丝万缕的联系,而数据挖掘技术可以及时有效的发现信息本身的特征及不同信息系统之间的关系,进而追踪信息发展,以实现对信息的监督与控制的目的。

现阶段,网络信息的安全性受到很大的威胁,而保证网络信息安全的监督与控制手段主要集中在多种工具的综合利用上,通过多元化的收集工具对信息进行收集,并在此基础上采用一定的计算机算法对数据进行综合处理,之后将信息进行归类,提取需要的信息。这一信息收集处理过程与数据挖掘技术结合,使得整个过程分为数据的采集、预处理、挖掘、结果四部分,程序变得相对简单。但如果与互联网相连接,则会衍生出多种技术的综合使用,比如针对某一特定网站或者数据库的搜索等。通过网络数据挖掘技术与信息处理分析与归类技术对互联网所收集的信息与数据进行整理存储,在以某种特定算法对数据进行分析,之后找出数据的基本特征和数据之间的某种关系,从而为相关方面的决策提供建议。

随着数据挖掘技术的不断发展,目前在包括银行、保险、零售等行业在内的多种行业领域都成功使用了数据挖掘技术,有效实现了对信息的监督与控制。

3 以网络数据挖掘技术为基础的信息安全监督控制框架构建

3.1 数据获取。数据的获取主要是对包括图片、文本、视频、音频等在内的多种数据形式进行信息的收集,数据来源主要包括网站、博客、论坛等,而数据的获取途径主要由垂直搜索、人工方式、网络爬虫等几种。

首先,垂直搜索。垂直搜索主要是针对一些泄密率相对较高的网站(比如政府部门网站、电子政务网站及国家军事部门网站等)所设计出来的监督控制方式,垂直搜索更多的是对网站的数据与信息进行一定结构与形式的抽取,将抽取出来的信息设计成特定的结构,从而方便数据的挖掘。另外在对信息进行收集的过程中,也可以设定词语控制表,对数据进行筛选与过滤,从而提高数据获取的准确性,提高数据获取的效率。

其次,网络爬虫。网络爬虫主要是一种计算机程序,以一定的算法将整个Web网页进行链接,形成特定的网络。互联网也正是通过多种超级链接的方式将不同层次与内容的信息联系起来,形成一种信息网络。网络爬虫信息获取方式有时需要对特定的信息进行收集,因此就不需要将所有网络进行分析与浏览,而只需要建立一个搜索词语的控制表,对需要检索的信息进行IP地址或者URL地址的限制,则可自动删除部分不需要的项目,从而提高信息检索的效率。

再次,人工方式。上述垂直搜索与网络爬虫搜索两种数据收集方式,均是以计算机程序为基础所形成的网络自动查找方式,这种方式由于有计算机系统的参与,因此信息收集的速度快,信息量大,但其准确性却不可同日而语,尤其是针对一些相对隐蔽的信息来讲。因此在对数据进行收集的过程中,还需要加入人工采集的方法,有针对性的采集需要的信息,提高数据采集的准确性。

3.2 数据预处理。以计算机和互联网为基础所收集的信息具有量大、复杂等特点,如果对这些数据进行直接使用,会在很大程度上降低系统本身的准确性,因此需要对这些数据进行预处理,比如数据的清洗、集成、变换、消减等。

首先,数据的清洗主要是填补遗漏的数据、除去明显错误的数据等,保证数据来源的准确性与完整性。其次数据的集成,即将多种来源的数据合并起来,比如通过网络爬虫收集到的数据和通过垂直搜索搜集的数据,要将其有效统一起来形成数据集。之后对数据进行转换,主要是对数据的一种标准化操作过程,比如采用哪种格式化的数据库,有些是文本形式的数据,有些是文本结合视频形式的数据,需要将其转换为统一的格式。最后还需要对数据进行消减,因为并不是所有的数据都是有价值的,需要根据数据的最终价值区分哪些数据有用,哪些数据没用,将没用的数据剔除出去,以保证数据挖掘的高效性与准确性。

3.3 数据挖掘。经过前期数据获取与预处理之后,生成统一的数据库,之后便需要对这些数据进行数据挖掘处理。首先从数据库中提取需要进行处理的数据,之后从模型库中选择相对应的模型,从算法库中选取要采用的算法,将三者进行有效结合对数据进行处理。现阶段模型库模型主要包括综合平衡模型、预测类模型及结构优化模型等;数据挖掘的算法主要包括关联分析、聚类分析、序列分析、集成挖掘、图挖掘等。

另外,要提高数据挖掘的整体准确性与针对性,还需要不断进行挖掘方法的试错,通过试错来找到最好的算法,也就是我们所熟悉的挖掘训练。这个过程主要表现如下:首先从数据库中抽取一部分数据作为训练样本,之后从算法库中选取某种算法,从模型库中选取某种模型,将数据挖掘的结果与参照集进行一定的对比,如果结合与要求相符则开始正式的挖掘,反之则需要重新选择。

3.4 结果应用。通过对数据进行数据挖掘技术分析,可以发现两点内容,首先对象的特定,即在网络中使用者所关心的信息安全对象的某种信息,通常这类信息可能是个人的资料,或者图片,或者文本等。比如通过数据挖掘技术,发现某个IP地址在某个网站上经常散步黄色消息,或者在某个论坛上国家安全信息等,则这些人就会被列入信息安全监督对象。其次数据之间的关联性,比如通过数据挖掘技术发现某两个或者多个对象之间存在某种关联,通过对关联数据分析便可确定关联网,比如在某网站对某一IP地址进行攻击,而此IP地址又在某论坛经常出现,则可认为这个论坛与攻击者之间存在某种联系,需要对其进行监督。

4 结论

综上所述,随着计算机网络的不断发展,尤其是3G、云计算等先进技术的出现,在很大程度上对信息的安全性造成了一定的威胁。本文从数据挖掘的角度对信息安全的有效监督与控制进行了分析,并构建了信息安全监督与控制基本框架,在一定程度上为信息安全的监控提供了思路,但实际的操作过程中,还存在许多问题,但随着计算机技术与数据挖掘技术的不断深入发展,信息安全监督与控制体系必将越来越完善,信息的安全指数也会越来越高。

参考文献:

[1]范建华,张肖.信息保护的重要手段——数据挖掘——以银行业环境为例[J].金融经济:下半月,2012,2:32-35.

[2]刘勇国,李学明,廖晓峰.基于数据挖掘的入侵检测[J].重庆大学学报(自然科学版),2002,25(10):128-131,135.

上一篇:挤出房产泡沫让中国经济持续健康发展 下一篇:库巴“下嫁”受冷落国美重组电商业务