欢迎来到天天文库
浏览记录
ID:24656049
大小:56.50 KB
页数:7页
时间:2018-11-15
《基于粗糙集的增量式垃圾邮件过滤方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于粗糙集的增量式垃圾邮件过滤方法研究徐丹,韩艳杰,寇曼曼(河南省地震局,河南郑州450016)摘要:在粗糙集理论基础上,提出一种增量式的垃圾邮件过滤方法。该方法将邮件样本的局部最小确定性作为阈值来控制规则产生,并在邮件识别过滤过程中增加了反馈环节,将错判和未识别样本作为增量样本进行再学习,动态调整邮件规则的置信度。根据阈值选择可信度较高的规则进行更新,从而减少了规则的个数,提高了样本的正确识别率,最后用实验证明了该方法的有效性。.jyqkainNameServer)的RBL(Real?timeBlockList)识别[1]等。(2)基于数据挖掘技术,利用文本分类和
2、统计算法的识别,比如Bayes[2]、SVM[3]、人工神经网络[4]等,识别准确率较高,但速度慢,不适用于邮件规模较大的情况;同时,它们大都没有考虑交互的问题,对错判邮件的处理不够完善。(3)基于规则匹配的识别方法。文献[5]结合粗糙集理论的数据分析技术研究了邮件过滤系统的建模和特征发现等问题,并用经验数据进行实验,得到了较好的结果。刘洋等基于粗糙集理论将邮件向量同规则向量统一定义,有选择的进行二次过滤,得到了80%左右的正确率[6]。以上所介绍的方法都只能静态的对电子邮件进行分类过滤,如何对邮件信息进行动态的增量式学习将是未来研究的热点。文献[7]在扩展决策矩阵
3、的定义的基础上提出一种能够增量的从样本数据中提取确定性和可能性规则的方法,该方法对缺乏领域知识时的规则获取有重要意义;文献[8]首先根据粗糙集方法提取规则,然后在自定义的归纳分配表上利用概率论的思想提取可以覆盖新样本的规则强度高的规则,并用实验证明了它的有效性,如何将连续属性进一步离散化是该方法的下一步需要考虑的问题之一。文献[9]提出了一种基于概率粗糙集模型的增量式规则学习算法,该算法能够有效地从不一致和含有噪声的决策表中提取带有确定性因子和支持数的决策规则,提取的规则具有很好的抗噪声能力,但是在数据量较大的情况下,该方法未能得到有效验证。本文提出的增量式电子邮件
4、过滤方法是在基于粗糙集的电子邮件过滤模型的基础上增加反馈环节,将识别过程中错误识别和未识别的邮件信息作为新增的矛盾样本进行再学习,通过邮件决策信息表的局部最小确定性与矛盾规则和样本可信度的比较,对规则集进行更新,有效地提高了邮件的正确识别率。本文介绍了基于粗糙集理论的邮件分类模型的相关基本概念,在此基础上提出了一种基于粗糙集的增量式电子邮件过滤方法,并利用UCI中的SpamDatabase数据集对该方法进行了实验,并分别与增量前的学习效果和ID4算法进行比较,从而验证了该方法的有效性。1相关基本概念定义1(电子邮件决策表信息系统):电子邮件决策表信息系统是一个四元组
5、S={U,R=C?D,V,f}。其中:U是邮件的集合;R为属性的集合;C为邮件条件属性的集合;D表示决策属性集合;V是属性值的集合;f是信息函数,它指定U中每个对象x的属性值[10]。2基于粗糙集的增量式邮件过滤方法为了更有效地获得邮件规则,需要将学习识别后反馈的错判和未识别信息作为新样本进行再训练,原始的非增量式学习方法是将错判和未识别样本放入原始信息决策表,进行重新训练。这种方法比较简单,但在样本集非常大的时候,重新训练的周期较长,且规则更新速度非常慢,影响学习的效率,不能满足实时邮件过滤要求。本文提出的增量式邮件过滤方法针对错判和未识别样本的情况,能从矛盾的邮
6、件决策信息表中提取带有置信度的决策规则,从而实现邮件规则集的动态更新。基于粗糙集的自主式增量邮件过滤方法需要经过以下两个步骤:(1)根据粗糙集的方法:邮件决策信息表→数据预处理→属性约简→值约简→规则集,抽取数据集进行匹配,记录匹配过程中出现的错判和未识别样本。(2)将上述反馈的错判、未识别样本加入新增样本训练集中,将计算样本的置信度加入到原始规则集中。输入:邮件规则集M,新增样本x。输出:更新后的规则集M′。Step1:根据原邮件规则集中的规则对新增对象x进行匹配,匹配结果分为2种情况。(1)若x:θx→ψx的条件属性特征和已有规则θy→ψy匹配,而决策属性特征不
7、匹配,即?y∈U,θx≡θy,ψx≠ψy出现矛盾样本,转向Step2。3实验仿真本文抽取UCI机器学习数据库中的垃圾邮件数据集Spambase[12]进行实验,该数据集包含4601个实例,其中包括1813封垃圾邮件,2788封非垃圾邮件,每个实例分别用58个特征属性来描述(包括57个条件属性特征和1个决策属性特征),用0,1对垃圾邮件和非垃圾邮件分别进行标识。以下实验分为两个部分:测试1为增量前后的对比实验,测试2为ILRS算法与决策树ID4算法的增量式电子邮件学习效果的比较。3.1增量前后的实验对比从Spambase的4601条实例中随机抽取含有500,100
此文档下载收益归作者所有