粗糙集在犯罪信息中的应用

时间:2022-09-14 08:58:49

粗糙集在犯罪信息中的应用

摘要:在信息爆炸的时代,随着数据信息的不管累积,如何从大量的数据信息中找到有用的信息变得越来越关键。从犯罪数据的特点出发,将大规模人群的行为属性数字化。在此基础上,基于粗糙集来建立属性约减模型。通过删除冗余特征属性得到关键属性,从而有效地帮助警察处理案件。

关键词:数字化;粗糙集;属性约减

中图分类号:TP391 文献标识码:A

0 引言

时下,人们的物质生活获得了极大提高与改善,社会也在逐步和谐有序地朝前发展。但同时也要看到,由于我国人口基数较大以及人口流动相对频繁,各种违法犯罪行为仍时有发生。而且,目前的警力配备仍属有限,尤其对于小型的案件就难以投入足够的警力去侦测排查。那么,如何利用已有的犯罪信息来帮助警察处理案件,即已成为公安部门的焦点课题之一。近年来,数据挖掘[1]这一技术已经广泛地应用在信息处理领域中,如数据库营销、客户关系管理、顾客行为预测及市场趋势预测等[2]。

在现有的一些案件处理相关文献中,数据挖掘技术也已进入普及应用。文献[3]是依据不同案件的特点,构建了自组织特征的神经网络,对相同或类似的案件进行分类,提高案件执行效率。夏颖等人[2]利用犯罪信息的特点,使用聚类分析提取具有相似犯罪特征的案件或者涉案人员单独成类,再分析每类中的共性特征,依据这些特征去处理相似的其他案件,为按键侦破提高效率。

本文采用基于粗糙集的属性约简算法建立模型,删除决策表中的冗余对象信息,在得到的初步精简的决策表上,设计启用属性约简算法,对决策表中的各个行为属性进行筛选,删除冗余属性,最终求得关键属性,来提升案件侦测过程的处理效率。

1 粗糙集理论概述

粗糙集是1982年波兰数学家Z. Pawlak提出的一种数据特征分析识别理论,广泛用于不完整数据和不精确知识的表达、学习与归纳的研究开展[4-5]。在粗糙集理论中,通常用信息系统表示知识,而信息系统可视为是一张二维数据表。其中,行对应于研究对象本身,称为元组,列对应于对象的属性,属性又可以分为条件属性和决策属性。

假设用 表示一个信息系统,如式(1)所示:

(1)

式中, 是对象的集合, 即论域; 是属性的集合; 是总函数,使得 ,并且, 是集合 中的对象元素。属性集划分为条件属性集 和决策属性集 ,即 ,把这样的信息系统称为决策信息系统或者决策表,而决策属性集 一般只包含一个属性。这里,用 表示条件属性集合 中的第 个属性, 的取值为1,2,3,…, 。

2 属性约简模型实例

2.1 建立决策表

本文选取性别、年龄、婚姻状况、人口来源、文化程度、收入状况、有无稳定工作、有无犯罪前科、有无犯罪动机、是否精神正常等10个行为属性[6]构成属性决策表,并且在属性决策表中,不存在重复的属性列。将人群的行为属性数字化,如表1所示。根据表1,构建原始决策表,具体如表2。所示。

2.2 属性约简算法

文献[7]的研究提出,在描述同一现象的各种信息中,有些是相近的,有些是重复的。针对这些信息进行约简处理,找到描述现象的关键属性,从而尽可能真实揭示现象本质。在决策表中,如果某条件属性去掉之后,决策表仍能够保持相容,不影响决策结果,则该属性是冗余的,可以约简。因此,关于信息决策表中属性约简的实现步骤如下:

1)在决策信息表中,一行为一个对象。对条件属性和决策属性都相同的多个对象,只保留其中一个,其余删除,得到精简后的信息表;

2)将每个对象的属性进行冗余分析,去除非关键行为属性。冗余分析过程可做如下描述:

输入:

输出:约简后的

主要步骤:对于属性集合 ,其中 ,如果不存在 ,且 , ,则去掉冗余属性 。

3)在1)和2)的基础上,求出最小约简的信息表,得到警方需要的关键属性。

2.3 求解过程

首先,对表2中的20个案例对象进行筛选。因为这些案例是随机选取而得,没有一定的规律,就需要对冗余信息实现筛选,排除重复出现的案例对象。通过比较不同对象间的各个行为属性值,包括决策属性,如果对象的各个行为属性完全相同,则需要删除一个对象信息,得到一个精简的案例对象信息表,如表3所示。

然后,再对各个行为属性进行筛选。通过考虑不同行为属性对决策的影响程度,删除对决策作用很小的行为属性。例如,在分析行为属性性别时,先把行为属性删除,在保证决策属性不同的情况下,通过比较不同对象之间的其他行为属性是否相同。如果不同对象之间的各个行为属性值完全相同,则说明行为属性为冗余行为属性,可以删除;否则,行为属性为关键行为属性,必须保留。依次循环考虑10个行为属性,筛选出关键行为属性为:婚姻状况、收入、有无稳定工作、有无犯罪前科和有无犯罪动机。如表4所示。

2.4 结果分析

1)在原始决策表中,选取的20个对象各不相同,因此,通过冗余分析,在删除冗余行之后的决策表3和原始决策表2相比较,并没有出现实质性的变化。

2)当删除冗余行之后,对每个属性进行冗余分析。研究发现,在删除冗余属性之后的决策表中,明显减少了无效属性。这对案件的处理发挥了良好的推动作用。

3 结束语

本文利用基于粗糙集的约简模型,对信息进行了筛选处理,大量减少了无效属性。通过数据挖掘,可以从海量已有信息中归类出有用的知识,对未知事件的研究发挥了积极作用,可以为案件的处理提供有效指导。但是在实际运用过程中,依然存在一定不足,如对这种大规模人群的行为属性进行统计,需要的工作量也迹近庞大,那么在人口流动性较强的地区,如何随时关注人群的关键属性等,也仍是一个值得进一步探讨的重要问题。

参考文献

[1] HAN J W , KAMBER M. 数据挖掘:概念与技术[M]. 范明,孟小峰,译. 北京:机械工业出版社,2008.

[2] 夏颖,王哲,程琳. 聚类分析在犯罪数据分析中的应用[J].合肥工业大学学报(自然科学版),2009,32(12): 1924-1927.

[3] 程琳. SOM网络模型在刑事案件并案侦查中的应用[J].计算机数字与工程,2009,37(11):95-99,151.

[4] ZDZISLAW P. Rough Set theory and its application to data analysis [J]. Cybernetics and Systems, 1998, 29(7):661-688.

[5] 张文修, 吴伟志,梁吉业,等. 粗糙集理论与方法[M ] . 北京: 科学出版社, 2001.

[6] 中国年鉴信息网.刑事法治发展研究报告[EB/OL].[2013-05-19].http:///yearbook/.

[7] 王智君.粗糙集规则简约的方法在模式识别中的应用[J]. 微计算机应用,2009,30(5): 1-4.

上一篇:美国高校校名趣谈 下一篇:论原料药稳定性试验的重要性