基于贝叶斯分类器的垃圾邮件过滤的研究与改进

基于贝叶斯分类器的垃圾邮件过滤的研究与改进

ID:33742812

大小:92.29 KB

页数:6页

时间:2019-02-28

基于贝叶斯分类器的垃圾邮件过滤的研究与改进_第1页
基于贝叶斯分类器的垃圾邮件过滤的研究与改进_第2页
基于贝叶斯分类器的垃圾邮件过滤的研究与改进_第3页
基于贝叶斯分类器的垃圾邮件过滤的研究与改进_第4页
基于贝叶斯分类器的垃圾邮件过滤的研究与改进_第5页
资源描述:

《基于贝叶斯分类器的垃圾邮件过滤的研究与改进》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于贝叶斯分类器的垃圾邮件过滤的研究与改进裏阳小兰钱程弑汉科技大学中南分校信息工程学院武汉430223)摘要介绍了一个改进的基于贝叶斯分类技术的垃圾邮件过滤器的系统结构完成了系统的整体设计和实现。提出了一种改进的邮件信息增益方法选取多个样本逬行实验比较分析•提高了贝叶斯分类器的性能。矢键词贝叶斯分类器;垃圾邮件;过滤;文本分类中图分类号TP393ResearchandImprovementonSpamFilteringBasedontheBayesianClassifierYangXiaolanQianChengCollegeofInformatio

2、nEngineering,ZhongnanBranchWuhanUniversityofScienceandTechnologytWuhan430223)AbstractAnimprovedtechniquebasedonBayesianclassificationsystemspamfilterstructureisintroduced.Thewholedesignandimplementationofthesystemarecompleted.Animprovede-mailinformationgainmethod,selectthenumbe

3、rofsamplesforcomparativeanalysisoftheimprovedperformanceofBayesianclassifier・KeyWordsBayesianclassifier*spam*filter*textclassificationClassNumberTP3931垃圾邮件过滤与朴素的贝叶斯分类器近年来,随着Internet飞速发展,电子邮件瓦了人们工作生活必不可少的一部分。电子邮件绘用户带来很大方便的同时•也产生了一个新的匝题•这就是大量垃圾邮件的出现。如何将电子邮件中的垃圾邮件过滤已成为电子邮件用户最尖心笊问题

4、之一_2】。目前,垃圾邮件过滤的方法可分为三类:基于IP的过滤基于SMTP协议的过滤和基于内容笊过滤弗4】。其中基于内容的过滤方法主要有基于规则的过滤方法和贝叶斯过滤方法是当前反垃圻邮件用到的主要技术本文在朴素贝叶斯方注基础上提出了一种改逬的贝叶斯方法,通过对邮件内部单词进行信息增益,对邮件中的某些尖键字加*V74曰士今汁彳方里主F&,贝叶斯分类算法的理论基础是通过对大量垃圾邮件中常见尖键词进行分析后得出其分布的统计模型•并由此推算目标邮件是垃圾邮件的概率。这是一种相对于尖键字来说•更复杂和更智能化的内容过滤技术S。贝叶斯分类器是用于分类工作的贝叶斯

5、网。贝叶斯垃圾邮件过滤器是一种贝叶斯分类器•可将邮件分为有用的和无用的(即垃圾邮件)两类。大量研究实验表明,朴素贝叶斯方法易于实现,但是过多的简化工作使得很多对于分类很有用的信息丢失•从而影响了分类效果。2基于改进的贝叶斯分类器的垃圾邮件过滤器的分析设计2.1垃圾邮件过滤系统简介目前•国内外对垃圾邮件过滤的研究主要是基于邮件客户端或服务器的过滤八和。一般来说基于SMTP的位于邮件服务器前谎的垃圾邮件过滤系统模型如图1所示。图1位于服务器前端的垃圾邮件过滤体系模型过滤系统中3个模块描述如下:1)邮件采集模块:位于过滤系统前端。该模块主要负责完成以下工作

6、:数据包拦截、协议解析、编码/解码'邮件转发。2)邮件管理模块:负责对整个系统的管理和维护。包括邮件过滤策略的配置、查询统计过滤数据和对数据库进行管理维护等功能。3)邮件过滤模块:是整个过滤系统的核心。主要任务是对来自邮件采集模块的数据进行扫描分析判断邮件是合法邮件还是垃圾邮件•并分析结果对邮件进行相应的处理。本文完成的主要是这一模块的设计和实现。2.2过滤器总体设计基于贝叶斯分类器的反垃圾邮件模型如图2所示。图2基于贝叶斯分类器的反垃圾邮件模型系统分为2个阶段学习阶段和分析阶段。2.2.1过滤器学习阶段在学习阶段•需要建立一个基于Bayes方法的单

7、分类器系统流程图如图3所示。建立这个单分类器算法步骤如下:呻:对每一封测试邮件做如下操作读邮件-提取邮件主题&邮件体中的独立字串去掉停用词•去掉前缀和后缀存入hashtableeachMailTable中。训练咋图3学习阶段流程图steP2:收集大量的垃圾邮件(spam)和非垃圾邮件(ham)*建立垃圾邮件集(set-spam)和非垃圾邮件集(set-ham)0step3:假设在垃圾邮件集和非垃圾邮件集中•每封邮件的地位同等。对于set-spam和set-ham邮件集中每一封训练邮件•做如下操作:读邮件,提取邮件主题&邮件体中的独立字串去掉停用词•去

8、掉前缀和后缀,存入hashtableeachMailTabler

9、~iostep4:邮件内部TOKEN串进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。