欢迎来到天天文库
浏览记录
ID:30639610
大小:19.47 KB
页数:7页
时间:2019-01-02
《基于bayes的邮件过滤系统的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于Bayes的邮件过滤系统的研究与设计因为电子邮件是以一定的编码方式在网络上根据SMTP协议传送的邮件数据包,所以系统首先拦截数据包,在SMTP会话过程中,可以根据会话过程中的MailFrom和RcptTo等会话进行过滤。经过这一层过滤后,将得到的邮件数据包进行解码,解码后的邮件为普通文本格式。电子邮件一般格式包括信头和信体两部分,其中信头包括发件人地址、收件人地址、主题、日期、路由信息等重要信息,信体是邮件的正文。很多时候仅仅
2、根据信头信息就可以判断一封邮件是否为垃圾邮件,所以先分离出信头和信体的信息,然后分别进行基于信头和基于内容的过滤。因为文本邮件的内容是机器无法识别的文本,所以首先要进行分词处理:分词的精度是影响分类的一个重要因素,所以这里必须注意消除歧义字段。根据垃圾邮件的特征向量构造表示该邮件文本的特征向量。然后把文本的特征向量通过邮件过滤器,区分出正常邮件和垃圾邮件。对于正常邮件,直接编码,按照SMTP协议发送给邮件服务器;而对于垃圾邮件则需要多种处理,如:保存、删除、自动回复等。这样就完成了一个完整的垃圾邮件过滤系统的功能。图1课题份量和难易程度要恰当,博士生能在二年内作
3、出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果我们知道,基于IP和基于信头的过滤简单易行,并且有不错的过滤精度,因此得到了广泛的应用。但是,这两种方式所依据的信息比较少,而且会随着时间而改变,比如一个IP黑名单中的IP地址可能是被利用来进行转发的服务器,但是由于在黑名单中,那么这个地址所发送的全部邮件都没过滤掉,这样会对正常的业务造成损害;或者一个信头的主题词中包含一个很多垃圾邮件都包含的关键词,但是也许这封
4、邮件是基于教育的目的所发出的,那么也会被无区分的过滤掉。基于以上分析,我采取了将以上三种方式项结合的过滤方法:基于“属性”的过滤,把IP地址、主题词是否包含关键字、内容中的关键词。附件信息等等都作为属性,一起构成表示邮件的特征向量,根据这个特征向量进行过滤。系统的流程如图1所示。2.系统总体框架综合系统需要完成的目标和处理流程,设计出系统的总体框架,如图2所示。协议代理模块完成截获邮件数据包、数据包编解码和邮件转发的功能;预处理模块完成分离信头、信体和分词、特征提取以及构造特征向量的功能;过滤模块采用改进的Bayes分类器将邮件过滤;数据模块是系统中所用到的词典
5、、关键词表、训练样本集、规则库等信息;管理模块则为管理员管理维护系统提供了一个人机交互接口。图22.模块设计协议代理模块收到后将文件解码还原,也需要有中文系统才能看所写的中文信息。协议代理模块是过滤系统的网络课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果前端。要对邮件进行过滤,首先要捕获发送到该服务器的邮件数据包。并对包进行解码。完成过滤后,需要还原该邮件数据包,也
6、就是对邮件编码,然后转发。由此该模块主要负责完成以下工作:数据包拦截、协议解析、编码/解码、邮件转发。它可以支持不同的内容协议等,并且是可扩展的。模块共包括4个部分。⑴数据包拦截:其原理是利用网卡驱动来捕获数据包。网卡驱动会根据以太帧中的协议类型把数据包传给协议栈进行相应的处理。⑵协议解析:根据捕获的TCP数据包的应用层端口号,判断其应用层协议类型,只对SMTP邮件数据包进行处理,对于其他协议的数据包直接转发。例如SMTP的会话过程包括命令交互阶段和数据阶段,在SMTP会话过程中提取一些对判断垃圾邮件起作用的重要“属性”。如MAIL会话阶段提取发信人的主机地址,
7、多个RCPT会话阶段提取收信人地址,在DATA数据阶段提取出整封邮件的内容,包括邮件头和邮件体,在接受到QUIT命令时将SMTP数据进行还原。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果⑶编码/解码:为内容过滤引擎统一了内容文本的格式。该模块也是可扩展的,它主要完成以下工作:对编码邮件的解码;将有结构的文本内容转化为纯文本;提取出动态页面中的脚本代码。中文是属于8
8、位代码的文字,并不是标准
此文档下载收益归作者所有