欢迎来到天天文库
浏览记录
ID:32186957
大小:2.94 MB
页数:65页
时间:2019-02-01
《基于内容多级垃圾邮件过滤系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西华大学硕士学位论文基于内容的多级垃圾邮件过滤系统研究计算机应用技术研究生徐熙指导教师柳荣其电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。基于内容的垃圾邮件过滤就是从电子邮件的内容入手,使用文本分类、机器学习算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的分类方法有简单贝叶斯、肛近邻、决策树、boosting等。简单贝叶斯方法计算简便,但召回率和正确率难以提到一个更高的层次,而且不适合于增量
2、式的反馈学习。其他的几种方法有的效果比简单贝叶斯好一些,但计算较复杂。Winnow是一种错误驱动的在线学习线性分类算法,其在线学习的特性非常适合“实时学习"的增量式反馈,本文将贝叶斯方法与winnow算法相结合,构造了一种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。实验表明,该过滤方法的分类效果优于单一的贝叶斯方法或者winnow方法。本文的主要工作如下:(1)在分析了常用特征提取方法的基础上,提出了一种基于成词概率的语词特征提取方法。一次扫描待分类邮件,通过成词置信参数控制特征提取的速度与成词准确度,使其复杂度适应邮件分类算法的需要。(2)研究了现有的贝叶斯分类方法,并
3、在此基础上设计了一种简单快速的贝叶斯MDA层过滤算法,该算法能够通过成词参数以及代价函数控制过滤敏感度,适应于不同应用环境下的过滤需求。(3)利用winnow算法的反馈学习性能较好特点,为每个用户生成一个Winnow线性分类函数。将其用于对贝叶斯一级过滤中垃圾邮件表征不强的邮西华大学硕士学位论文件进行二次过滤,同时通过用户行为检测来判断是否误分类,并以此为依据对分类函数进行修正。以达到个性化过滤的要求。(4)设计了一个基于内容的多层过滤系统的基本框架,将其作为垃圾邮件原型过滤系统进行了模拟实验。关键词:垃圾邮件过滤,特征提取,贝叶斯分类,winnow算法IIResearchonmul
4、ti—layeredContent--BasedSPAMFilteringSystemComputerApplicationTechnologyM.D.CandidateXuXiSupervisorLiuRongqiElectronicmail(E.mail)isbecomingoneofthefastestandmosteconomicalwavsofthefastestandmosteconomicalwaysofcommunicationavailable.Atthesametime,thegrowingproblemofjunkmail(alsoreferredtoas“sp
5、are'’)hasgeneratedaneedfore-mailfiltering.Nowadays,anti—spammeasurescommonlyincludeblackorwhitelisttechnology,manualrulesandkeywordbasedcontentfiltering.。Coment.BasedspamFilteringisusingautomatedtextcategorizationandinformationfilteringtofilterspare.Ane-mailfilteringsystemcalllearndirectlyfroma
6、user,smailset.SuchalgorithmsoftextcategorizationasNaj['veBayes,KNN,DecisionTreeandBoostingcallbeappliedinspamfiltering.Ho.wever,theeffectivenessofNaj['veBayesislimitedanditisnotfitforinstantfeedbacklearning.Othersalgorithmaremoreeffectivebutcomplicatedtocompute.Tryingtoresolvethisproblem,weprop
7、oseusingNffiveBayesandWinnow,afastlinearclassifier·ThetrainingofWinnowisonlineandmistakedriven.Furthermore,Winnowissuitableforfeedback.Theexperimentine-mailcorpusshowsalleffectiveresult.Thecontentsofthisarticleareasfollowing:(1)We
此文档下载收益归作者所有