数据挖掘在缉毒工作中的应用

时间:2022-06-29 11:46:36

数据挖掘在缉毒工作中的应用

摘要:数据挖掘又称为数据库中的知识发现,其目的是要在大量数据中“挖掘可理解的知识”。本文通过对1998年-2007年香港地区呈报的吸毒人数数据进行数据挖掘,得出年份和吸毒人数数量之间的稳定关系,相关缉毒部门可以据此科学制定决策,合理安排工作重点,调整工作方向,提高工作效率。

关键词:数据挖掘;缉毒工作;相关分析

近年来,我国公安缉毒部门采取了多项措施加大打击的力度,尽管禁毒工作取得了新的进展,但禁毒斗争形势依然不容乐观,境外渗透不断加剧,国内海洛因成瘾人员复吸率仍然较高,以青少年为主体的滥用兴奋剂类新型人数增长很快,呈现出来源多元化、滥用多样化的局面,对我国禁毒工作提出了新挑战。于是,怎样运用科学的方法,利用有效的信息资源,提高缉毒工作的效率、扩大工作成果成为公安缉毒部门亟需解决的问题。在此,本文将以香港地区为例,将数据挖掘方法引入到缉毒工作中。

1 数据挖掘方法概述

近年来,数据挖掘引起了各界的极大关注,其主要原因是出现大量统计数据,并且迫切需要将这些数据转换成有用的信息。数据挖掘的目的是为了发现隐藏在海量数据中的令人感兴趣的有用信息,因此明确发现何种知识就成为整个过程中第一个也是最重要的一个阶段。例如在我国的缉毒工作中,对已掌握的吸毒人员数据进行数据挖掘,可以极大提高缉毒工作人员对缉毒工作现状的认识,从而调整工作思路,改善工作方法,提高工作效率。

1.1 数据准备和预处理

数据准备分和预处理分为以下三个子步骤:

(1) 数据选取:它的目的是为了明确对哪些样本数据进行操作,也就是需要对哪些目标数据操作。我们可以根据建模的目的来从原始数据集中选择一些与建模关联性很大的几组样本数据作为输入数据。

(2) 数据预处理:由于选择的样本数据来源十分复杂,不能适应建模要求。这时需要对样本数据进行一定的预处理操作。包括对数据进行标准化处理、数据的过滤与匹配、数据的净化处理等操作。如对数值进行统一处理、把连续值数据变为离散型值数据等。

(3) 数据转换:它主要是为了将建模时使用的样本数据转换成适合挖掘的形式。常用的数据转换方法主要包括:平滑、聚集、数据概化、进行规范化、属性构造等方法。

1.2数据挖掘模型选择

按照所需要挖掘的模式类型选择适宜的数据挖掘算法、模型及参数。当然没有任何一种算法或工具适合所有的数据。通常也很难在开始的时候就能够确定采用哪一种算法对你所要解决问题来说是最好的方法。因此在多数情况下,需要构建不同的模型(算法或参数),从中选择最适宜的。

一般地,从数据分析的角度出发,我们可以将数据挖掘分为两种类型:描述型数据挖掘与预测型数据挖掘。

描述型数据挖掘是以简洁概述的方式来表达数据中所存在的一些有意义的性质;而预测型数据挖掘则是通过对所提供的数据集使用特定方法分析而获得一个或者一组数据模型,并将此模型应用于预测未来新数据的有关性质。描述型数据挖掘通常包含关联分析、聚类分析、序列分析等方法;预测型数据挖掘则包含统计回归、分类等方法,其中常用的预测模型包括人工神经网络、决策树、灰色系统理论和线性回归等。

1.3 结果的对比和分析

当使用数据挖掘技术得到结果以后,决策管理人员还需要对数据挖掘的结果进行对比和分析。一般应根据数据挖掘操作的目的来决定挖掘是否成功。因此,决策管理人员在对挖掘结果进行分析时,可以考虑以下两个方面的问题:用训练样本数据在模型上预测,往往比实际结果准确,因此我们在建模时,样本数据要尽可能选择全面;相反,使用预测集进行预测时,实际结果可能比建模时的结果差,这就需要我们反复的对模型进行分析和对比。在对结果进行分析与对比时,我们应该注意到可视化技术是一种非常好的结果分析工具,它将数据挖掘结果表现得更加清楚,所以更有利于对数据挖掘结果的分析。

2 数据挖掘在缉毒工作中的应用

2.1数据来源与分析

本文选取1998年至2007年香港地区呈报的吸毒人数统计数据为样本,见表1.

通过分析数据不难看出:年份和吸毒人数存在相关关系,可以进行相关分析。所以本文建立回归模型寻找年份和吸毒人数存在相关关系。

2.2吸毒人数相关分析

研究表明年份、吸毒人数数量的相关关系,所以本文建立二次曲线回归模型探寻年份、吸毒人数数量的相关关系。设二次曲线回归方程为■,其中,x代表年份,y代表吸毒人数。通过EXCEL的数据分析功能,可知,回归系数■

2.2.3 相关性检验

R检验:当显著性α=0.05水平自由度■时,查表可得相关系数临界值■。由回归模型计算相关系数■故在α=0.05的显著性水平上,通过R检验,说明两变量之间相关关系明显。

2.2.4 分析和预测年份、香港地区吸毒人数呈报数量相关关系为■

借助于对年份和香港地区呈报的吸毒人数数据的相关关系,缉毒部门可以说在一定程度上提前掌握了工作中所需的一部分情报材料,从而获得先机,提前做好工作部署和准备,调整警力配置和重点安排,从而为决策服务。相关数据呈报的吸毒人数预测值与实际值之间的相对误差不是很大,因此说明上文年份与吸毒人数数据之间的关系分析是可信的。

3 结束语

通过数据挖掘方法可以从香港地区呈报的吸毒人数中,挖掘出相应的信息,从而对于香港地区的禁毒工作开展起到一定的指导和参考作用。同样,数据挖掘方法也可以应用到我国的缉毒工作中。在实际工作中,工作人员对数据挖掘的利用还是比较少的,现实的运用主要还是利用计算机对吸毒人数、数量进行的简单统计、汇总和比较,或对增长率等内容进行简单的统计分析,很少对这些数据作更深入的分析,更很少利用这些数据做出一些预测为缉毒实际工作服务。通过数据挖掘进行预测分析,可以为缉毒部门安排勤务、分析形势和制定政策直接服务。

当前,全球持续泛滥,产量居高不下,制造、走私、滥用活跃,国际毒情的发展变化对我国的影响不断加大。同时,国内滋生、诱发违法犯罪的消极因素仍然不少,我国禁毒形势不容乐观,禁毒工作仍面临严峻挑战。面对传统与新型的双重压力,我国禁毒部门应进一步采取措施,将数据挖掘等数学方法应用到实际的工作中,进一步提高工作的科学性和针对性,遏止来源、危害和吸毒人员新滋生。

上一篇:浅谈固定资产投资管理的现行模式与改革取向 下一篇:试论法律在企业管理中所发挥的作用