朴素贝叶斯算法在垃圾邮件过滤中应用

朴素贝叶斯算法在垃圾邮件过滤中应用

ID:32958200

大小:57.14 KB

页数:7页

时间:2019-02-18

朴素贝叶斯算法在垃圾邮件过滤中应用_第1页
朴素贝叶斯算法在垃圾邮件过滤中应用_第2页
朴素贝叶斯算法在垃圾邮件过滤中应用_第3页
朴素贝叶斯算法在垃圾邮件过滤中应用_第4页
朴素贝叶斯算法在垃圾邮件过滤中应用_第5页
资源描述:

《朴素贝叶斯算法在垃圾邮件过滤中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、朴素贝叶斯算法在垃圾邮件过滤中应用引言:垃圾邮件严重影响了正常的网络通信和商务活动,给网民造成了巨大的经济损失。本文将朴素贝叶斯算法运用于邮件分类,设计和实现了基于朴素贝叶斯算法的邮件过滤器,能够实现邮件的过滤和识别功能,具有高效、经济的优点,应用于垃圾邮件过滤领域可以明显提高过滤的效果。因特网的快速发展和应用使电子邮件已经成为人们生活和工作不可缺少的工具。但是,随着而来出现了大量的垃圾邮件。据中国互联网协会反垃圾邮件中心发布的《2012年中国反垃圾邮件状况调查报告》显示,中国网民每周收到垃圾邮件数量为15.3封,平均每周收到垃圾邮件比例为34.7%,用户平均每周需要花费7.3

2、分钟来处理垃圾邮件。垃圾邮件不但给用户带来了不便,而且严重影响了正常的网络通信和商务活动。本文将朴素贝叶斯算法用于垃圾邮件过滤,因此,研究有效的垃圾邮件过滤器具有很重要的现实意义。1.反垃圾邮件技术1.1电子邮件原理电子邮件与普通邮件原理相似,邮件先根据发信者的地址存入发送服务器,发送服务器根据收件人者的邮件地址把邮件传到收件方服务器,收信人登录邮箱时,收件方服务器会把邮件送入收件人邮箱。具体的传送过程如下:发信人利用客户端软件写好邮件,客户端软件利用SMTP协议将要发送的邮件发送到本地的邮件服务器,接着本地服务器查看收信人的邮件地址,如果收信人的地址不在本邮件服务器,那么本邮

3、件服务器就将本邮件发往相邻的邮件服务器或直接发往目标邮件服务器里。如果用户使用客户端查看邮件内容,客户端软件使用POP协议从邮件服务器取得邮件内容,用户才能查看。1.2反垃圾邮件技术目前,主要存在反向查询、挑战、密码技术和过滤等四种办法减少垃圾邮件的产生。反向查询类似黑白名单,可以智能地识别哪些是伪造的邮件,哪些是合法的邮件,能从很大程度上解决垃圾邮件问题。挑战是通过延缓邮件处理过程来阻碍大量邮件发送者。采用密码技术采用证书方式来验证邮件发送者的方案,如果没有适当的证书,就可以认为是伪造垃圾邮件。反向查询、挑战和密码技术实现起来较为复杂。而过滤是一种最简单却很直接的处理垃圾邮件

4、技术,主要用于接收系统来辨别和处理垃圾邮,通过在邮件服务器上安装反垃圾邮件插件、反垃圾邮件网关和在客户端上安装反垃圾邮件插件,但存在漏报和误报的可能。贝叶斯技术过滤技术准确性高、误报率低,具有能够根据新来的邮件进行调整自主学习的能力。将其用用于过滤垃圾邮件是高效经济解决垃圾邮件的技术之一。1.贝叶斯过滤原理贝叶斯是统计学上用来随机事件A和B的条件概率(或边缘概率)的一则定理。P(A

5、B)和P(B

6、A)用来描述两个条件概率之间的关系,P(A

7、B)表示的是在B发生的情况下A发生的可能性。P(A)称为先验概率,即在B事件发生之前对A事件概率的一个判断。P(A

8、B)称为后验概率,即在B

9、事件发生之后对A事件概率的重新评估。P(B

10、A)/P(B)称为”可能性函数”,这是一个调整因子,使得预估概率更接近真实概率。贝叶斯定理的描述如下[3]:对于一个统计试验e,样本中间S是所有可能结果的集合,并且{B1,B2....Br}是S的一个划分,令{P(A):A?S}表示定义在s中所有事件上的一个概率分布,则对于s中的任意事件A和B,都有P(A)>0,P(B

11、A)=P(AB)/P(A)表示条件概率,贝叶斯定理表示如下:P(Bi

12、A)=P(A

13、Bi)*p(Bi)/P(A)(i=l,2,3……,r)将贝叶斯算法运用于垃圾邮件过滤时,首先要收集大量的垃圾邮件和非垃圾邮件,建立垃圾

14、邮件集和非垃圾邮件集;其次是提取垃圾邮件集和非垃圾邮件集特征来源中的独立字符串TOKEN,并统计提取出其出现的次数即字频;第三是对垃圾邮件和非垃圾邮件个建立一个哈希表,表中是各独立字符串到字频的映射关系;第四是计算每个哈希表中TOKEN串出现的概率,根据概率推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。同时将新到达的邮件重新经过贝叶斯过滤器分析,通过使用各个特征来计算邮件是spam的概率。通过不断的分析,过滤器也不断地获得自更新。从而使得贝叶斯过滤器就具有了自适应能力,能够处理新的陌生邮件,所接收到的垃圾邮件数量越多,准确率就越高1.基于朴素贝叶斯算法的

15、垃圾邮件过滤系统3.1系统流程该系统的工作流程是将已知类别的邮件集作为训练样本,分类器进行训练;当有新的邮件到来时,分类器将该邮件的特征词与特征词库中的特征词进行匹配,若匹配成功则记录该词的权重,最后从未知邮件中存在于特征词库的所有特征词中选取一定数目的单词,将它们权重进行相乘,得到该邮件属于垃圾邮件的权重,若权重值大于给定阙值,则判断该邮件为垃圾邮件,否则为正常邮件。3.2系统实现系统采用Java+MyEclipse编程实现,具体包括预处理模块、过滤模块、数据模块和数据模块组成。3.2.1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。