贝叶斯算法在反垃圾邮件技术中的应用

贝叶斯算法在反垃圾邮件技术中的应用

ID:9485811

大小:54.50 KB

页数:3页

时间:2018-05-01

贝叶斯算法在反垃圾邮件技术中的应用_第1页
贝叶斯算法在反垃圾邮件技术中的应用_第2页
贝叶斯算法在反垃圾邮件技术中的应用_第3页
资源描述:

《贝叶斯算法在反垃圾邮件技术中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、贝叶斯算法在反垃圾邮件技术中的应用卢海燕本溪广播电视大学(本溪117000)摘要调查显示,电子邮件的使用已经成为当前最重要的互联网应用,而垃圾邮件则成为互联网上最大的危害之一。针对这种严峻的安全形势,各种安全技术得到应用,如连接数量控制、实时黑名单(RBL)、关键特征匹配等。但是垃圾邮件并未因此而得到有效遏制,反而日益猖狂。本文主要介绍了一种较新型的反垃圾邮件技术——贝叶斯过滤技术,分析其基本原理,优点和缺点,以作为防范垃圾邮件的技术探讨。关键字垃圾邮件反垃圾邮件贝叶斯算法0引言长期以来,人们不断探索着垃圾邮件的解决

2、之道,从早期的关键字匹配,到通过连接频率来提高发送垃圾邮件的成本,再到设立专用服务器,提供RBL实时黑名单查询,直到全世界范围内关于垃圾邮件立法的呼吁。无论哪种方式方法,要想从根本上解除垃圾邮件的泛滥,还是需要一套能够有效防范垃圾邮件的安全技术。邮件。在邮件传输的过程中,发送者与发送服务器、发送服务器和接收服务器之间都未做认证,因此发送方可以使用互联网上任意一台SMTP服务器来发送他的邮件,这就是所谓的OpenRelay。随着垃圾邮件的泛滥,大部分的邮件服务器都关闭了OpenRelay,在发送放和发送服务器之间进行认

3、证,从而保证只有合法用户才能使用这台服务器发送邮件,这就是增强的ESMTP协议。然而这个方法无法解决在发送服务器和接收服务器之间的合法认证,垃圾邮件仍然无法避免。垃圾邮件无法避免的技术原因当前邮件传输的主要协议是SMTP协议,从设计之初,为了满足简单传输的需要,该协议没有任何认证手段,因此缺省的SMTP邮件服务器对于邮件的来源和目的地不做控制而是支持发送。通常的邮件传输过程是邮件的发送者使用SMTP协议将邮件发送给SMTP服务器,由它根据邮件的目的地址,使用SMTP协议将邮件发送至目标SMTP服务器,该服务器受到邮件

4、后放入接收人的邮箱,最后由邮件的接收者使用POP3或IMAP协议从邮箱服务器上接收自己的12贝叶斯过滤技术介绍2.1贝叶斯公式贝叶斯公式是英国数学家T.贝叶斯在200多年前提出的计算条件概率的公式,也称逆概率公式。如果事件组A1,A2,…Ak为一完备事件组,则对任一事件B(其P(B)≠0)有:P(Ai)P(B

5、Ai)P(Ai

6、B)=k∑P(Ai)P(B

7、Ai)i=1bility可以估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时,按照步骤(2)生成TOKEN串。查询hashtable_probability得到

8、该TOKEN串的键值。其中i=1,2,⋅⋅⋅⋅贝叶斯公式实际上是综合利用先验概率和样本信息从而计算后验概率的一种方法。2.2贝叶斯算法在反垃圾邮件技术中的应用首先,我们可以将电子邮件分为正常邮件和垃圾邮件两类,贝叶斯过滤器针对这两类邮件进行自学习。分析每封电子邮件中的每一个单词,确定正常邮件和垃圾邮件中词汇发生频率的差异。贝叶斯算法分析邮件的工作过程如下:(1)过滤器收集大量的垃圾邮件和正常邮件,建立垃圾邮件集和正常邮件集。(2)过滤器提取邮件主题和邮件体中的独立字串。(3)每一个邮件集对应一个哈希表,hashtab

9、le_good对应正常邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。(4)计算每个哈希表中TOKEN串出现的概率P=(某TOKEN串的字频)/(对应哈希表的长度)(5)综合考虑hashtable_good和hashtable_bad,推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为:A事件----邮件为垃圾邮件;t1,t2…….tn代表TOKEN串则P(A

10、ti)表示在邮件中出现TOKEN串ti时,该邮件为垃圾邮件的概率。设P1(ti)=(t

11、i在hashtable_good中的值)P2(ti)=(ti在hashtable_bad中的值)则P(A

12、ti)=P1(ti)/[(P1(ti)+P2(ti)];(6)建立新的哈希表hashtable_probability存储TOKEN串ti到P(A

13、ti)的映射(7)至此,垃圾邮件集和正常邮件集的学习过程结束。根据建立的哈希表hashtable_proba假设由该邮件共得到N个TOKEN串,t1,t2….tn,hashtable_probability中对应的值为P1,P2,…PN,P(A

14、t1,t2,t3…tn

15、)表示在邮件中同时出现多个TOKEN串t1,t2…….tn时,该邮件为垃圾邮件的概率。由复合概率公式可得:P(A

16、t1,t2,t3…tn)=(P1*P2*…PN)/[P1*P2*…PN+(1-P1)*(1-P2)*…(1-PN)]当P(A

17、t1,t2,t3…tn)超过预定阈值时,就可以判断邮件为垃圾邮件。2.3贝叶斯算法的优劣因为贝叶斯算法是基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。