三支决策基于粒度的邮件过滤

三支决策基于粒度的邮件过滤

ID:31362174

大小:108.00 KB

页数:6页

时间:2019-01-09

三支决策基于粒度的邮件过滤_第1页
三支决策基于粒度的邮件过滤_第2页
三支决策基于粒度的邮件过滤_第3页
三支决策基于粒度的邮件过滤_第4页
三支决策基于粒度的邮件过滤_第5页
资源描述:

《三支决策基于粒度的邮件过滤》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、三支决策基于粒度的邮件过滤  摘要:现在目前的邮件处理方式一般将邮件分为:普通邮件和垃圾邮件。但在实际中,经常会有安全的邮件被放进垃圾邮件中。为了减少这部分的损失,现我们可以将邮件分为:普通邮件、可疑邮件和垃圾邮件。我们采用三支决策的方法,将邮件分为三类,来达到减少误判的目的。同时,由于现在的人们为了隐藏垃圾邮件,会将发送的内容中的一些字换成形似的其他字,来达到避开分类的目的。因此本文提出将粒计算也加入到分类的标准中,更好的能识别垃圾邮件,为邮件进行过滤分类。  关键词:邮件过滤;三支决策;粒计算  中图分类号:TP393文献标识码:A文章

2、编号:1009-3044(2016)17-0248-04  1概述  随着科技的发展,网络的普及,收发邮件已经成了人们日常生活中不可缺少的工作。我们都知道邮件拥有普及性、实用性等优点,然而有些人正是看中了这种高效的操纵性,频繁、大量的制造垃圾邮件,妨碍了邮件本该带来的方便,制造了不便。针对垃圾邮件过滤的问题,有人提出基于黑白名单过滤、反向DNS查询等方法。而这类方法很容易被有意识的修改某些信息而绕过过滤因而产生误判。因此,减少误判也是我们所需要关注的重点。6  现在也有许多关于分类的机器学习算法来自动的对邮件进行分类。其中,贝叶斯分类器取得

3、了很好的效果。朴素贝叶斯分类器以及其他的邮件分类算法,对邮件过滤一般处理为两类,即要么是垃圾邮件,要么是非垃圾邮件。而这种方法在现实生活中则太过绝对,很容易产生误判。因此,本文基于姚一豫教授提出的三支决策理论,结合贝叶斯算法、粗糙集、粒计算等,以提高垃圾过滤的准确性。  2相关理论  2.1朴素贝叶斯垃圾邮件过滤  其中,可以很容易的从以往的数据统计中得到。这样一来,(1)式可被改写为:  同理,我们也可以写出邮件属于垃圾邮件类的条件概率为:  由(3)(4)式我们可以得到:  其中。若超过某一阈值,则划为非垃圾邮件类,否则,则划为垃圾邮件

4、类。  2.2知识粒度  3邮件过滤模型建立  3.1三支决策模型  在朴素贝叶斯算法中,当后验概率超过一定阈值时,可以将邮件归为非垃圾邮件类。在本文中的基于三支决策方法,我们将确定两个阈值,来对邮件进行三类的分类。一个阈值来决定邮件是否需要再判断,另一个阈值来确定是否把邮件归为垃圾邮件类。  本文中的三支决策方法是基于决策粗糙集理论和贝叶斯定理,其中,决策粗糙集是由两个状态集和三个行动集来进行的。6  3.2过滤过程建立  目前,许多不法分子为了躲避关键字的过滤,经常采取一些手段来编辑邮件。例如邮件的内容中,用很多特殊符号和繁体字,以及利

5、用字形相似的文字来代替书写,躲避关键词。为了减少因这些问题带来的误判,本文将邮件划分为有限个粒度,层层递进的来对邮件进行处理。  我们将邮件划分为个粒度:。例如A1=[发送人],A2=[发送时间],,……,。显然。  决策过程:  (1)对粒度进行三支决策分类,若能够划分到正常邮件或垃圾邮件,则立即处理进行划分。不能确定的邮件划为可以邮件类,等待后阶段添加粒度,在进行决策。  (2)依次添加信息粒度,重复进行(1)中的过程,对划分为可疑邮件的邮件逐步添加属性粒度信息,及时进行决策。  (3)若所有的属性信息全部添加完后仍划为可疑邮件,则交由

6、收件人自己判断。  过程流程图如下:  由(12)式得:  来划分一次分类中邮件所属的区域。  3.3模拟实验分析  本文从自己的邮箱中提取数据集,一共400封邮件,其中124封正常邮件,276封垃圾邮件。接下来对邮件的关键字进行提取,过滤一些意义不大的字眼,如“啊”,“一”,“的”6等。提取每一个词,计算每个词在正常邮件和垃圾邮件中出现的频率。例如,在276封垃圾邮件中,有23封包含这个词语,那么它出现的频率就是0.083。其中,为了避免太过绝对,若某个词只出现在垃圾邮件中,那我们就假设它出现在正常邮件中的频率为0.01。同时,统计垃圾邮

7、件中,发件人的邮箱和发送时间的频率。并且,统计每一封垃圾邮件中繁体字出现的频率。  现有一封新邮件,我们将它分为5个粒度,A1=[邮件发件人],,,,。  其中,对于来说,若数据量不够大的时候,可能无法作为分类的标准。当数据量足够大的时候,我们可以统计各个发件人发送的邮件在正常邮件中的概率,和在垃圾邮件中的概率。对于来说,大多数垃圾邮件的发送时间为非工作时间,我们可以统计在某些时间段类,邮件为正常邮件的概率和为垃圾邮件的概率。对于来说,一般当繁体字和特殊符号过多时,该邮件为垃圾邮件,我们可以统计繁体字和特殊符号出现在正常邮件中的概率,和出现

8、在垃圾邮件中概率。对于来说,则需提取单词来进行分析,运用条件概率和贝叶斯公式,来对邮件进行分类。  现对进行分析。设为正常邮件类,为可疑邮件类,为垃圾邮件类。我们假设一封邮件为正

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。