基于机器学习的垃圾邮件过滤技术

基于机器学习的垃圾邮件过滤技术

ID:20672736

大小:68.50 KB

页数:4页

时间:2018-10-14

基于机器学习的垃圾邮件过滤技术_第1页
基于机器学习的垃圾邮件过滤技术_第2页
基于机器学习的垃圾邮件过滤技术_第3页
基于机器学习的垃圾邮件过滤技术_第4页
资源描述:

《基于机器学习的垃圾邮件过滤技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基金项0:成都理工大学青年基金(2008QJ28)基于机器学习的垃圾邮件过滤技术王忠桃彭鑫成都理工大学网络教育学院610059摘要垃圾邮件给人们的牛活带來丫极大的危害,为r制止垃圾邮件的进一步扩散,研宂芯们提出太最的检测算法。本文首先分析丫垃圾邮件过滤的-般步骤,w对机器学Al算法在.細継■■暫纖析,关键词垃圾邮件:过滤:机器学4贸法引言1=1随着计算机技术和网络的快速发展,电子邮件得到丫广泛的应用,己经成力人们口常交流、沟通的主要手段和企业运转不可或缺的電要组成部分,极大地方便了人们的生活、学习和工作。一些个人、体或公司为了其商业利益或政治H的等,在未

2、经其他邮件用户同意的怙况下,发送大虽包含商业广告或各种不良信息的电子邮件,从而严重影响了用户对电子邮件的正常使用。目前许多学者对垃圾邮件过滤做了大量的研究。1、垃圾邮件过滤1.1垃圾邮件过滤步骤每封电子邮件都包含两部分,分别力邮件头和邮件体。邮件头是邮件的一些基本信息如发件人、收件人和主题等;邮件体就是指邮件具体发送的内容信息。在对邮件进行过滤之前需要对邮件进行处理,图1为邮件过滤的主要步骤。a)首先提取邮件体中的内容,包括短语和句子。b)再去掉那些无关紧要的词,如数词(1、2、一)、量词(个、斤)等。C)最后将剩下的有用的词转换力分类算法可以识别的表示

3、形式。图1邮件过滤的主要步骤以上步骤主要足对邮件发送的正文内容进行处理并分类,对于邮件头的处理,过滤方法不冋采用的方法也不同。当然也不是所右的过滤方法都需要对邮件卜j容进行预处理,也有的邮件过滤方法不需要对邮件A矜预处理。为丫能够评价垃圾邮件过滤算法的优劣,需要一些通用的邮件语料库,所做的研究都在这些语料库上进行实验,其结果才具有可比性。但目前大部分邮件语料库都是国外的,而国内的辿用语料库确很少。表1为部分公共邮件语料集表1公共语料集农1公共讲科集決«名称正常邮件ft坨圾叱汴数Spam^ssassin11169513793LingSpam2893481P

4、U1618481uap,27881813ZH1»42812051.3性能评价标准用来评价邮件过滤效果的指标科正确率P(Precision)、石回率R(Recall)、精确率Acc(Accuracy)和错误率Err(Error),如果一个邮件分类结果如衣2所示,TP为垃圾邮件判定为垃圾邮件的数,FP为垃圾邮件判定为正常邮件数,FL垃圾邮件判定力正常邮件数,TL正常邮件判定为正常邮件数。则评价的指标由以下公式计算:P=TP/(TP+FP)R=TP/(TP+FL)Acc=(TP+TL)/(TP+FP+FL+TL)Err=1-Acc从精确率和错误率两个公式屮可以

5、看出,误判和错判的权重相同,但是对于用户来说,合法邮件被误判为垃圾邮件过滤掉带来的损失比垃圾邮件错判为合法邮件的损失大的多,Androutsopoulos等人提出丫一些的指标。他们把决策损失引入到评价体系屮,把一个合法邮件误判当作X个垃圾邮件错判,计算加权正确率WAcc和加权错误率WErr,公式如下:WAcc=(TP+ATL)/(XTL+入FP+FL+TP)WErr=l-WAcc表2邮件分类结果权2邮ft分炎分炎《史TPFPFLTL2、垃圾邮件分类方法口前基于机器学习的垃圾邮件过滤方法正成为当前互联网应用领域的研宄热点之一。在垃圾邮件检测屮用到的机器学

6、习处理方法大致有贝叶斯、支持向曼机、粗糙集、人工祌经网络、决策树和Booth方法等。2.1贝叶斯算法Bayes算法的理论基础足ThanisBayes提出的一种基于概率统计的推理理论,它在文本分类中使用非常广泛,该算法认为:在垃圾邮件中,一些词出现的频率较髙,通过运用概率统计的知识,来判别属于垃圾邮件的概率。Sahami等人最早把W叶斯算法应用到邮件过滤中。经过众多研允者的实验结果表明,该方法过滤准确率较高,R前人多数垃圾邮件过滤软件都采用了该技术。2.2支持向量机支持向fi•机(SupportVectorMachine,简称SVM)是基于统计学》理论和结

7、构风险鉍小化原则,通过构造最优线性分类面来指导分类。SVM在解决小样本学习、非线性及高维模式识别问题中表现较好。Chih-ChinLai对支持向量机,kNN,Bayes方法做了比较,支持向S机表现出来的邮件分类效果S好。2.3粗糙集Roughsel理论是由Pawlak提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。RoughSet的研究对象是一个多值属性集合描述的M量集合。它通过集合的等价关系操作来确定属于给定类的鉍大对象集合和讨能属于给定类的最小对象集合,从而指导分类决策。Zhao等将粗糙集引入到垃圾邮件过滤中,将邮件分为正常邮件、

8、垃圾邮件和可疑邮件,也取得了较好的效果。2.4人工神经网络所谓人工神经网络就是采

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。