智能反垃圾邮件技术应用研究

时间:2022-10-24 08:26:46

智能反垃圾邮件技术应用研究

【摘 要】在对互联网信息过滤分析的基础上,提出了一个新的反垃圾邮件方案。介绍了遗传算法在该系统中的应用,针对垃圾邮件的先验知识往往体现在对原始数据中有价值的特征属性变量集的选择上,利用遗传算法对特征属性变量子集的选择进行优化,找到相对最优的由特征向量表示的特征属性变量集。

【关键词】适应度 反垃圾邮件 数据挖掘

【中图分类号】TP3【文献标识码】A【文章编号】1672-5158(2013)02-0163-02

该遗传算法生成的模型建立在解决垃圾邮件的数据分析的新方法基础上。在模型的决策树上,每个结点数据被设计成拥有一个随机系数,这样的话,数据与系数相乘成为判断该项数据记录是否代表邮件合法的确定性权重。这里的系数基于Ephemeral Random Constants(ERC),是特定于数学建模的遗传算法生成的随机数。该系数的微小变化也会导致进化变异产生。

此系统中,之所以要选取特征子集,是考虑到特征子集的选取是在反垃圾邮件中提高机器学习算法性能的可行办法。特征子集的选取能提高学习算法的准确度,减少计算量,同时可以减少测试数据量,降低分类过程中的消耗等。进行特征子集选取,最重要的目标就是提高邮件检测的准确率,减少分类运算等过程中的数据量。

在系统调用序列数据的挖掘过程中,使用特征向量法,用特征向量的一位标识一个短序列,用挖掘算法就能从特征向量集中找出垃圾邮件的规则来。然而,由于短序列的数量较大,导致特征向量位数过大,特征向量集也相应过大。为了更高效可行地使用数据挖掘算法,采用遗传算法对特征向量集进行优化,寻找特征子集,利于后续的数据挖掘。

在使用遗传算法的过程中,用特征向量的位数决定其个体的大小,随机构造50个二进制位串的个体,其中“0”、“1”代表该位置的短序列是否入选特征子集,如图2所示。在此基础上,进行遗传得到最优个体,该最优个体必然是“0”、“1”交替的位串,将其所有“1”所在位置进行分析,可以得到“1”所在位置代表的短序列集,这就是要寻找的特征子集。后续挖掘算法根据该特征子集中的短序列,对训练数据进行分类等挖掘工作。(如图2)

采用标准交叉算子和变异算子,交叉概率取0.6,变异概率取0.001。遗传过程中,个体的选择比较复杂。因为这里是针对垃圾邮件检测进行的优化,所以在选择个体时,是将该个体代表的入选子集的短序列应用到数据分类算法(RIPPER),该算法训练数据并应用规则得到测试数据,根据检测的性能来确定上述要选择的个体的适应度值。根据个体的适应度值就可以对其进行选择,继续遗传优化工作。

研究表明,个体的适应值可以取决于有垃圾邮件被正确检测到和有正常邮件被误判为攻击,同时考虑个体中置“1”位的数目。本系统设计的适应度函数为:F(Xi)=(a/A-b/B)/(δ*m);Xi表示某个个体,(a/A-b/B)的含意正如前述,m是Xi中“1”的个数,δ是m对于该适应度函数的相关系数。也就是说,a/A是检出率,b/B是误报率,高检出率低误报率使适应度函数值高,低检出率高误报率使适应度函数值低。个体中置“1”的位数越少,适应度值越大,当然这是出于寻找最小特征子集的考虑,其影响的强弱,用相关系数δ去控制。

本系统采用的遗传算法的基本步骤如下:

1.设定进化代数g=0,生成包含n个个体的初始化群体P(g);

2.在该群体中对每个个体估值,计算各自适应度f(x);

3.通过如下步骤,生成新的群体P(g+1):

A.根据个体适应度f(x),从P(g)中选择两个个体作为父代;(适应度值越大,选中的机会越大);

参考文献

[1] Richard Blum,开放源码邮件系统安全,人民邮电出版社,2002年11月

[2] 曹麒麟,张千里,垃圾邮件与反垃圾邮件技术,人民邮电出版社, 2003年2月

[3] 黄羽.基于智能体技术的入侵检测系统及相关技术研究:[硕士学位论文],电子科技大学,2003年3月

上一篇:促进贵州省农村扶贫开发的财税政策研究 下一篇:论通信机房搬迁工程的进度管理