基于朴素贝叶斯分类的手机垃圾短信过滤系统

时间:2022-04-10 08:24:31

基于朴素贝叶斯分类的手机垃圾短信过滤系统

摘要:该文介绍一种手机垃圾短信过滤的方法,通过将朴素贝叶斯分类技术与黑名单技术相结合,应用于垃圾短信的过滤中。全文详细介绍了过滤系统的结构和流程,为了进一步提高分类器的准确性,对朴素贝叶斯分类多元模型公式进行了相应改进。

关键词:手机垃圾短信;黑名单;朴素贝叶斯分类

中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)26-1797-03

Handset Trash Short Note Filtration System Classifies which Based on Simple Baye

ZHANG Yong-gan

(Putian Institute Electronic Information Project Department, Putian 351100, China)

Abstract: This article introduced one kind of handset trash short note filtration the method, through classifies simple Baye the technology and the blacklist technology unifies, applies in trash short note filtration. Full text detailed introduction filtration system structure and flow, in order to further enhance the sorter the accuracy, classified the multi-dimensional model formula to simple Baye to make the corresponding improvement.

Key words: handset trash short note; blacklist; simple baye classifies

1 引言

随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式。移动短信业务在飞速发展的过程中,一方面给广大使用者带来了各种方便;另一方面由于各种垃圾短信的大量出现,也带来了信息安全上的问题,影响了人们的正常生活。因而非常有必要将这些垃圾短信过滤掉。

通过对短信业务结构的分析,短信的发送方式有两种,一种是SP-手机,另外一种是手机-手机,无论哪一种都是通过短信服务中心进行存储、转发,再到用户手机上。所以可以从两个方面对垃圾短信进行过滤,一种是短消息服务中心的过滤方式,另一种是手机终端的过滤方式。无论是从短消息服务中心的过滤方式还是手机终端的过滤方式,都存在一些不足。现在一些高端手机上已经运用了黑名单技术来实现垃圾短信的过滤,但功能有限。考虑手机容量越来越大,本系统采用了手机终端的过滤方式,通过黑名单技术与文本分类技术相结合的方法,利用朴素贝叶斯分类方法对短信内容进行分类识别,从而实现对垃圾短信的过滤。

2 系统结构

本系统主要包括两个子系统,分别为黑名单子系统和朴素贝叶斯分类子系统,其中黑名单子系统主要是实现对黑名单的各项操作,其中包括将新号码加入到黑名单、在黑名单中查找号码、删除黑名单里的号码、实现黑名单里号码等功能。而朴素贝叶斯分类子系统主是实现对短信内容的识别,通过学习建立一个短信分类器,然后将分类器应用于实践中。其中包括分词、特征向量的选取、分类器的学习、及分类器的应用。具体系统结构见图1。

3 系统流程

本过滤系统是应用于手机终端,所以整个过滤过程是介于短信到达手机与通知用户收到短信之间 进行,具体手机垃圾短信过滤程序流程如下:

1)获取发送短信的手机号码;

2)在黑名单中查找手机号码,如果发现手机号码在黑名单中,则自动实现过滤;

3)否则,获取短信文本内容;

4)调用短信分类程序进行短信识别,如果由短信分类模型测试出短信不是垃圾短信,直接执行第7步。

5)如果由短信分类模型测试出短信是垃圾短信,就弹出一个提示信息给用户,由用户来决定是否阅读此条短信,如果用户选择阅读,则执行第7步。

6)如果不阅读,则将短信过滤掉。

7)通知用户阅读;

8)如果用户发现是垃圾短信,就人工地将号码加入黑名单去。

具体的流程图见图2。

4 朴素贝叶斯分类技术

在利用朴素贝叶斯分类技术对短信进行识别时,先要将短信进行分词处理,由于分词技术不是本文重点讨论的问题,故这部分不作详细说明。下面重点就对朴素贝叶斯分类技术进行说明。

贝叶斯分类是一种统计学分类方法,它基于贝叶斯理论,可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率。朴素贝叶斯分类模型训练的过程其实就是统计每一个特征词在各类别中出现规律的过程。朴素贝叶斯分类模型有两种,分别为朴素贝叶斯分类的多元模型和多项模型。多元模型只考虑特征词是否在文本中出现,而多项模型除了考虑特征词是否在文本出现外,还要考虑特征词出现的次数。考虑到手机短信文本内容较少,在同一条短信中出现相同词的机率比较小,多项模型的计算复杂度较高等原因,本文采用朴素贝叶斯分类的多元模型。

对于朴素贝叶斯模型的多元模型,由于该模型只考虑了特征词在文本中是否出现(出现计为1,否则计为0),因此用该模型进行文本分类的准确度不是很高。为了强调特征词在未知文本中出现的重要性,经过反复试验,对多元模型公式改进如下:

其中,wt表示第t个特征词,|V|是特征词的个数,Bxt表示wt是否在文本X中出现(出现记1,不出现记0),常数R是对分类器进行测试时所得到的经验值。

下面就给出朴素贝叶斯分类程序的具体实现流程。准备好分类语料库和用于分词的词典,其中分类语料库已按其内容分成类。为了防止数据过分适应的现象,将分类语料库分成两部分,一部分是训练样本短信库,用于朴素贝叶斯分类器的学习之用;另一部分是测试样本短信库,用于朴素贝叶斯分类器的测试之用,因为只有准确率达到一定高度的分类器,在实际中才有运用价值。在实验过程中将全部样本的2/3作为训练样本,另1/3为测试样本。具体流程图见图3。

5 结果评估与分析

本过滤系统最重要的部分就是分类器是否能够较好的识别出垃圾短信,所以在实验时,主要是对分类器的准确率进行测试。由于短信内容的范围非常广泛,没办法将其收齐,所以本系统只收集了三类有代表性的短信来做实验,分别为:中奖短信、黄色短信、祝福短信。由于本系统具有良好的扩展性,如果要引入不同的类别短信,操作也非常简单。

在实验中,收集了三类不同的短信,其中黄色短信、祝福短信各300条,中奖短信37条。为了防止学习模型倾向于过分适合数据,在实验中将数据源分成两大部分,其中黄色短信200条、祝福短信200条、中奖短信23条作为训练样本,用于朴素贝叶斯分类模型建立学习所用,余下的短信作为测试样本,用来检测分类模型的准确率。

在程序设计的过程中有两个参数需要重点研究,分别为特征向量词个数N和参数R(经验值),不同的值会得到不同的准确率。以下是通过实验得到的数据。

综合三张表的结果,考虑到手机容量小的特点及结果的准确性,本系统选取N=50,R=100,最后的各类短信测试结果为表4:

通过上面的结果可知,在此实验中短信分类的准确率较高,主要由于实验中只选取了三类短信,而且特征比较明显。随着不断的加入各类短信,准确率一定会有所下降。

6 小结

本论文主要是针对当前垃圾短信泛滥的现状提出了一种过滤的方法,通过将文本分类技术与黑名单技术结合起来实现对垃圾短信的过滤,具有一定的尝试性和创新性。但由于时间紧迫及实验条件所限,其工作还需进一步完善。

参考文献:

[1] 张燕,傅建明.垃圾短信的识别与追踪研究[J].计算机应用研究,2006,(3):251-253.

[2] 张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004.

[3] Han J W, Kamber M. DATA MINING Concepts and Techniques[M]. Higher Education Press, Morgan Kaufmann Publishers,2001.

[4] Eyheramendy S, Lewis D D, Madigan D. On the Na?ve Bayes Model for Text Categorization[D]. Artificial Intelligence & Statistics,2003.

上一篇:知识网格中基于TM的知识表示技术研究 下一篇:基于FIPA的多Agent系统通信研究