浅析基于特征提取的垃圾图像过滤算法的实现

时间:2022-10-22 11:16:31

浅析基于特征提取的垃圾图像过滤算法的实现

摘要:随着现代社会科学技术的进一步发展,人们使用电子邮件作为通讯手段的频率也随之增加,但垃圾电子邮件不断的泛滥,如何过滤这些垃圾邮件已成为当前的一个热门研究方向。本文提出了一种基于Kolmogorov(柯尔莫哥洛夫)复杂性的垃圾图像分类过滤模型,希望能为垃圾图像过滤机制的发展提供参考性的建议。

关键词:垃圾图像;Kolmogorov;机制;复杂性;CAPTCHA

中图分类号:TP309 文献标识码:A文章编号:1007-9599 (2011) 11-0000-01

Spam Image Filtering Algorithm Realization Based on Feature Extraction

Dong Xinli

(Henan Yongcheng People's Hospital Collection Room,Yongcheng 476600,China)

Abstract:With modern science and technology,further development of society,people use email as a means of communication also increases the frequency,However,the proliferation of junk e-mail constantly,how to filter the junk mail has become a hot research direction.In this paper,based on Kolmogorov (Kolmogorov) complexity of spam filtering model image classification,hope for the spam filtering mechanism for the development of the image reference in the recommendations.

Keywords:Spam image,Kolmogorov,Mechanism,Complexity,CAPTCHA

垃圾图像邮件的定义是指邮件的内容是以图像的形式来表达的电子邮件。之所以被称为是垃圾图像是因为电子邮件正文图像的内容是由先前的垃圾文本信息进行转换而来的。一般情况下,垃圾图像邮件都是的伪装性做的都很好,除了垃圾邮件内容的垃圾图像以外,邮件内容的其他部分与正常的电子邮件是没有任何比较明显差异的,而现在通用的垃圾邮件过滤技术,比如邮件黑名单、邮件白名单和文字过滤器等这些技术对垃圾图像邮件是起不到任何作用的。

本文首先分析了现有的垃圾图像检测分类机制,然后对垃圾图像的判别模型和垃圾特征的选择进行了分析,接下来提出了一种基于柯尔莫哥洛夫复杂性模型的算法的实现。

一、垃圾图像检测分类机制

(一)现有垃圾图像检测过滤机制的概述

目前现有的垃圾图像检测过滤机制大体上分为两种:

1.光学字符识别。光学字符识别(OCR, Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。光学字符识别技术有三个重要的应用领域:办公自动化中的文本输入、邮件自动处理、与自动获取文本过程相关的其他领域。这些领域包括:零售价格识读,订单数据输入,单证、支票和文件识读,微电路及小件产品的状态及批号特征识读等。

2.基于垃圾图像特征的过滤方法。传统图像在分类领域的一些研究成果值得借鉴,我们可以通过对垃圾图像特征进行定义,然后对其特征进行提取,以选择不同的垃圾图像的特征,对图像进行向量化的处理,然后进行分类的过滤,这样可以保证在不同的条件下能够取得比较高的正确率。

(二)其它垃圾图像检测方法的引入

在传统的机器学习算法和数据挖掘中存在这样的一个假设,如果训练样本和测试样本的概率分布是相同的,而实际情况下,在实际的应用过程中训练样本和测试样本的概率分布却往往是不相同的,这样就会导致原来在实验条件下性能很高的分类器放到实际的应用场合中往往起不到在实验条件下做出来的良好效果。

国外的相关研究人员从不同的角度出发提出新颖的解决思路,无参数分类就是其中之一。无参数分类认为,在应用机器学习、数据挖掘算法时,应该尽量少使用参数,这样就可以相对的减少偏见和先验假设的影响,换而言之,就是使用数据驱动的方式来进行知识发现和自动学习。这种观点为本文的研究提供了一定的启发作用。

二、垃圾图像特征的提取

任何图像在原始的测量空间中都可以被表示为MN维的矩阵,这种表示方法一般不直接应用于对垃圾图像分类器的设计。原因很简单,原始测量数据的维数比较高,不能够直接反映出图像不同类别的本质特征,并且还容易受噪声等信息的干扰,对分类器的稳定性造成一定的影响。对垃圾图像特征的提取就是将图像样本从高维的原始测量空间中映射到低维的特征空间中去,用数学公式可以表示为:

A:XY (1-1)

X 代表原始测量空间;Y代表特征空间。

互信息具有较强的理论基础,且实现简单,在特征选择中常用来评价特征和目标属性间的紧密程度。M.Dredze等人依据互信息公式:

(1-2)

计算出每个特征值x与图像标签值y的互信息, 然后将得到的互信息的得分分别按照由高到低的顺序进行排列,在本文中我们可以选择前N个互信息得分最高的特征。

给定垃圾图像训练数据集SpamImage和正常图像训练数据集HamImage,其中:

(1-3)

其中M代表样本的个数; 代表第M个垃圾图像;

(1-4)

其中N代表样本的个数; 代表第N个正常图像;

接下来我们定义 和 为:

(1-5)

其中||中的内容代表对数据压缩后得到的数据大小。

这种模型具有以下几个优势:

(1)模型的实现比较简单,处理方便;(2)通用性较好;(3)完全由数据驱动,准确性高。

三、结束语

本文首次提出了一种基于Kolmogorov复杂性的垃圾图像分类模型,并通过对获得的垃圾图像数据集进行相应的验证分析,本文提出的方法是一种新颖的分类模型,能有效对垃圾图像与正常图像进行分类,同时也表明,基于Kolmogorov复杂性的分类方法在邮件垃圾图像信息过滤中具有潜在的应用价值。

参考文献

[1]程红蓉,秦志光,万明成,曾志华.垃圾图像判别中的特征提取与选择研究[J].计算机应用研究,2009,06

[2]KEOGHE,LONARDI S,RATANAMAHATANA C A.Towards parameter - free data mining[C]/Proc of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. NewYork:ACM Press,2004:260-215

上一篇:试谈计算机软件中的插件技术 下一篇:特大型桥梁中抗震阻尼器使用方法探讨