基于bayes的邮件过滤系统的研究与设计_论文

基于bayes的邮件过滤系统的研究与设计_论文

ID:11940575

大小:23.01 KB

页数:10页

时间:2018-07-15

基于bayes的邮件过滤系统的研究与设计_论文_第1页
基于bayes的邮件过滤系统的研究与设计_论文_第2页
基于bayes的邮件过滤系统的研究与设计_论文_第3页
基于bayes的邮件过滤系统的研究与设计_论文_第4页
基于bayes的邮件过滤系统的研究与设计_论文_第5页
资源描述:

《基于bayes的邮件过滤系统的研究与设计_论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Bayes的邮件过滤系统的研究与设计摘要邮件过滤技术是反垃圾邮件的重要手段,本文提出了一种基于服务器端的垃圾邮件过滤系统,它采用改进的Bayes算法,将反映垃圾邮件的特征综合在一起统称为“属性”,用这些“属性”构成表示邮件特征的向量空间模型重点特征向量,避免了单纯基于IP、信头、信封过滤的规则性太强的缺点,降低将正常邮件判断为垃圾邮件的风险。关键词电子邮件;垃圾邮件;邮件过滤0引言中国互联网信息中心2017年7月公布的《中国互联网络发展状况统计报告》显示,中国网民平均每周收到封电子邮件,其中垃圾邮件就占据了封,垃圾邮件的数量超过了正常邮件数量,并有进一步增

2、长的趋势,之所以造成垃圾邮件泛滥,是因为近几年来宽带网络的快速发展、网络通信成本的不断下降以及硬件性能的提高并且成本不断降低给垃圾邮件提供了很好的环境;电子邮件的易伪造性也是垃圾邮件泛滥的原因之一;还有现在对垃圾邮件,国家缺乏法律和规范的约束。虽然人们在技术和法律方面都进行不断的努力,垃圾邮件已经得到了一定的控制,但是,在国内由于技术和立法还没有达到一个足够的程度,导致国家已经成为世界垃圾邮件的新源头。10/10垃圾邮件的泛滥会造成很多危害,不仅影响国家的政治稳定、用户的正常工作学习,还会影响网络的安全性、稳定性、高效性;占用网络带宽和存储空间。所以对于垃圾邮

3、件的防范及过滤技术的研究很有意义。1研究现状目前存在的反垃圾邮件技术,主要有三个大的方向:一是修改现有的SMTP协议,制定一个新的安全可靠邮件协议,让垃圾邮件没有“生存的环境”。二是使大量发送垃圾邮件发送者承受“巨大的成本”,以致通过电子邮件渠道来大量发送广告信息在经济利益上不合算,来减少垃圾邮件。第三种是根据邮件的格式,发送时间,文件大小,内容以及其它特性,来识别该邮件是否为垃圾邮件,如果是,则把垃圾邮件过滤掉。识别的方法多种多样,过滤垃圾邮件效果的好坏决定于识别方法的准确度。10/10第一种方式是通过完善通信协议,增强安全认证性能,消除垃圾邮件泛滥的环境,

4、来减少或消灭垃圾邮件产生。第二种方式是通过经济利益杠杆,使得在网络上大量的发送垃圾邮件,要承受巨大的经济负担,以至通过垃圾邮件来广告宣传方法是不经济的,来减少垃圾邮件产生。第三种是当垃圾邮件产生以后,通过各种各样的方法把垃圾邮件从邮件中识别出来并过滤掉,让接收者感觉不到这些垃圾邮件的骚扰。前两种是主动的方式,推的方式,从垃圾邮件产生的根源出发,不同的是一个从技术的角度,一个是从经济的角度。而第三种方式是被动的方式、拉的方式,它并不能杜绝垃圾邮件的重复产生,只能当垃圾邮件产生以后,通过方法识别出垃圾邮件,及时的剔除他们。前两种方式应用起来更加困难、复杂而第三种方

5、式相对简单易行,因此当前第三种方式的反垃圾邮件方法研究和应用的更多。垃圾邮件过滤技术就是第三种方式的反垃圾邮件方法,也是反垃圾邮件技术发展的重要方向之一。从过滤的方法来分,过滤可以分为基于关键字的过滤、基于黑白名单的过滤、基于规则的过滤、基于内容的过滤等等。2系统设计设计目标目标是设计一个基于SMTP的、位于服务器前端的、具有较高过滤精度的垃圾邮件过滤系统。对于垃圾邮件的过滤,精度是最重要的问题,因为相比收到几封垃圾邮件来说,一封正常的邮件被过滤掉更让人难以接受,本系统所采取的所有方法都是旨在提高垃圾邮件过滤的精度。该系统位于邮件服务器的前端,代替邮件服务器接

6、收邮件,完成过滤后,把邮件转发给邮件服务器,再由邮件服务器完成以后的功能。该系统具备的功能主要有:⑴邮件数据包拦截⑵邮件数据包编、解码⑶高精度的自动分词⑷垃圾邮件过滤⑸自主学习⑹垃圾邮件处理⑺正常邮件转发⑻自动回复系统流程因为电子邮件是以一定的编码方式在网络上根据SMTP协议传送的邮件数据包,所以系统首先拦截数据包,在SMTP会话过程中,可以根据会话过程中的MailFrom和Rcpt10/10To等会话进行过滤。经过这一层过滤后,将得到的邮件数据包进行解码,解码后的邮件为普通文本格式。电子邮件一般格式包括信头和信体两部分,其中信头包括发件人地址、收件人地址、主

7、题、日期、路由信息等重要信息,信体是邮件的正文。很多时候仅仅根据信头信息就可以判断一封邮件是否为垃圾邮件,所以先分离出信头和信体的信息,然后分别进行基于信头和基于内容的过滤。因为文本邮件的内容是机器无法识别的文本,所以首先要进行分词处理:分词的精度是影响分类的一个重要因素,所以这里必须注意消除歧义字段。根据垃圾邮件的特征向量构造表示该邮件文本的特征向量。然后把文本的特征向量通过邮件过滤器,区分出正常邮件和垃圾邮件。对于正常邮件,直接编码,按照SMTP协议发送给邮件服务器;而对于垃圾邮件则需要多种处理,如:保存、删除、自动回复等。这样就完成了一个完整的垃圾邮件过

8、滤系统的功能。图110/10我们知道,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。