基于贝叶斯算法的垃圾邮件过滤技术综述

基于贝叶斯算法的垃圾邮件过滤技术综述

ID:876084

大小:591.03 KB

页数:29页

时间:2017-09-22

基于贝叶斯算法的垃圾邮件过滤技术综述_第1页
基于贝叶斯算法的垃圾邮件过滤技术综述_第2页
基于贝叶斯算法的垃圾邮件过滤技术综述_第3页
基于贝叶斯算法的垃圾邮件过滤技术综述_第4页
基于贝叶斯算法的垃圾邮件过滤技术综述_第5页
资源描述:

《基于贝叶斯算法的垃圾邮件过滤技术综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、继续教育学院毕业论文题目:基于贝叶斯算法的垃圾邮件过滤技术综述学生姓名:李达夫学号:092028010027班级:CMU3097专业:指导教师:邹政2011年10月基于贝叶斯算法的垃圾邮件过滤技术综述摘要现在电子邮件成为一种快捷、成本少的通信技术手段,很大地方便了人们的通信与交流。但是,垃圾邮件的产生,影响了电子邮件的正常通信,占用的传输带宽,并对系统安全造成了很大的威胁。因此,反垃圾邮件的研究问题已经成为具有重大现实意义的全球性的课题。目前,对付垃圾邮件的主要方法和手段是通过反垃圾邮件立法和使用邮件过滤技术进行处理,现已经相继出现了多种邮件过滤技术。常用的包括黑/白名单

2、技术、基于内容的分析方法以及基于规则的方法等。基于内容分析的技术正逐步进入邮件过滤技术当中,并且成为当前研究的热点,其中,基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯算法的垃圾邮件过滤模型。本论文对中文垃圾邮件的特点进行了比较系统的分析和研究,结合贝叶斯(Bayes)理论,构造基于贝叶斯分类的垃圾邮件过滤模型,在特征提取方面,采用互信息值的方法,在分类方法上,引入了适合本文的分类方法,并采用了一种更加适合于贝叶斯计算的表示方法。关键词:电子邮件;垃圾邮件;邮件过滤;贝叶斯理论目录第一章绪论41.1引言41.2垃圾邮件的定义及其危害41.2.1垃圾邮件定义41.2.2

3、垃圾邮件危害51.3国内外反垃圾邮件现状61.4研究目标与内容7第二章垃圾邮件技术82.1.1电子邮件的概述82.1.2电子邮件的格式82.1.3邮件传送过程82.3.1客户端垃圾邮件过滤技术10第三章基于标准邮件集构造垃圾邮件分类向量153.1标准邮件集153.1.1标准邮件集的背景153.1.2垃圾邮件和正常邮件的收集153.1.3标准邮件集的概述163.2基于标准邮件集的垃圾邮件分类向量163.2.1分类的实现163.2.2提取分类向量的过程173.3基于贝叶斯原理的过滤系统的实现193.4算法的实现19第四章实验结果及分析224.1基于贝叶斯算法的过滤系统实验环境

4、224.2基于贝叶斯算法的过滤系统总体结构图234.3实验结果及性能分析23第五章总结与展望265.1论文总结265.2待改进的问题27参考文献……………………………………………………………………………28第一章绪论1.1引言伴随着电子邮件的迅速普及,越来越多的人使用电子邮件。但是,电子邮件在为人们提供极其方便的传递信息的同时,也成为垃圾邮件、病毒、恶意程序或包含敏感内容邮件传播的重要载体,对系统安全造成了严重的威胁。最早在1975年的RFC706“OntheJunkMailProblem”中就提到了垃圾邮件,首次关于垃圾邮件的记录可以追溯到1985年8月的一封以电子邮件

5、发送的连锁信。历史上比较著名的事件是1994年4月份,Canter和Siegel的法律事务所把一封信发到6000多个新闻组,宣传获得美国国内绿卡的法律支持。这是第一次使用Spam(垃圾邮件)一词,用来描述新闻或电子邮件的主动性发布。一些商人开始学习Canter和Siegel,为商业公司提供广告信件和发送服务。1995年5月,网上出现了历史上第一个专用的垃圾邮件工具Floodgate,一次可以自动把邮件发给很多人,垃圾邮件越来越多与商业联系起来。1995年8月,第一次有人公开贩卖200万个邮箱地址,各种垃圾邮件网站和组织也相继出现。随着垃圾邮件的出现和泛滥,人们开始了反垃圾

6、邮件的不懈努力。1996年的1月,第一个反垃圾邮件组织“自由骑士”成立;1996年7月,著名的反垃圾邮件网站SpamHaus成立,例如使用REMOVE.TO.REPLY的工具来过滤邮件地址。近几年来,垃圾邮件的泛滥是由于专门发送垃圾邮件的服务器大批涌现。根据中国互联网协会反垃圾邮件中心的统计,2005年以来几乎每月我国都有100多台服务器被国外权威反垃圾邮件组织列入黑名单。由于网络的开放性,垃圾邮件成为互联网上的一个日益严重的全球性安全问题,越来越得到社会大众和研究人员的重视和关注。1.2垃圾邮件的定义及其危害1.2.1垃圾邮件定义垃圾邮件的英文名称为Spam或JunkM

7、ail,一般使用Spam一词。很多组织或机构都给垃圾邮件下过定义。例如,著名的反垃圾组织spamhaus提出,垃圾邮件具备以下两个特征:(1)不请自来。用户事先并未提出要求或者同意接收该邮件。(2)批量性。该邮件的副本在短时间内被大量发送给一个或多个用户。2003年,中国互联网协会在《中国互联网协会反垃圾邮件规范》中对垃圾邮件作了以下定义:(1)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(2)收件人无法拒收的电子邮件;(3)隐藏发件人身份、地址、标题等信息的电子邮件;(4)含有虚假

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。