欢迎来到天天文库
浏览记录
ID:36603562
大小:1014.00 KB
页数:71页
时间:2019-05-12
《基于贝叶斯算法垃圾邮件过滤相关技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于贝叶斯算法的垃圾邮件过滤相关技术研究摘要电子邮件系统目前互联网上最普及的应用之一。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人为的滥用。当今垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,贝叶斯过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。贝叶斯过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本分类和挖掘问题存在着很多
2、不同。我们总结和分析了目前基于贝叶斯垃圾邮件过滤技术的现状,包括文本表示、特征选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库,对基于贝叶斯的过滤方法提出了一系列改进。论文的具体内容包括:(1)对朴素贝叶斯算法进行了详细的研究,并且提出了三个方面的改进思路。在文本表示方面,提出采用指纹特征的表示方法;在特征选择方面,提出了基于类条件分布的特征选择;第三个方面,根据学习的不断深入性,提出了阈值动态调整算法。基于这些改进,实现了改进的朴素贝叶斯过滤器。(2)分析邮件结构特点,从邮件结构不同于普通文本出发,提出集成加权模型,以充分利用邮件的结构信息。基于
3、集成加权模型对邮件头和邮件正文分别建立模型,最后通过加权方法集成二者结果,对垃圾邮件进行过滤。(3)研究了最小风险贝叶斯和主动学习贝叶斯两种贝叶斯的扩展模型。最小风险贝叶斯能够减少正常邮件判为垃圾邮件的风险,而主动学习贝叶斯主动训练样本集,能够降低样本顺序对过滤精度的影响。VI根据实验结果对比,得到两种扩展模型的最佳应用条件,并提出了改进后的邮件过滤算法。综合以上改进和扩展而设计的贝叶斯过滤器在最新的标准数据集上的测试结果表明,与经典的贝叶斯过滤器Bogo相比,过滤效果有较大的提高。关键词:集成加权贝叶斯;最小风险贝叶斯;主动学习贝叶斯;特征选择;阈值调整ABST
4、RACTElectronicmail(e-mail)isabigsuccessofInternet;itisbecomingoneofthefastestandmosteconomicalwaysofcommunicationavailable.Atthesametime,thegrowingproblemofjunkmail(alsoreferedtoas“spam”)hasgeneratedaneedfore-mailfiltering.Therehavebeenalotofmethodstobeatspam,andtheapproachofusingauto
5、matedtextcategorizationandinformationfilteringtofilterspamisbecomeamostefficientone.Weanalyzedthecurrenttechnologyofcontent-basedspamfiltering,andfoundlotsofdifferencesbetweenthetraditionaltextcategorizationProblemandtheoneofspamfiltering.Dependonthisanalysis,developsomemethodstoimpro
6、vetheperformanceofthespamfilteringalgorithm.Thecontentsofthisarticleareasfollowing:(1)Asummaryaboutthestateofthecontent-basedspamfiltering.Weinvestigatinganti-spamproblemfromthetextcategorizationperspective,introducingtheapproachesoffeatureselection,classifiersande-mailcorpusinthistas
7、k.(2)Westudythebayesalgorithmindetailsandproposetheimprovingsinfouraspects.Thefirstaspectistheshowingoftext.Weproposesanewmethodwhichisfingerprintfeature.Thesecondaspectisfeatureselecting.Weproposeanewmethodwhichisclassconditiondistribute.Thee-mailcorpusandtextcorpusareverydifferentin
8、struc
此文档下载收益归作者所有