欢迎来到天天文库
浏览记录
ID:56216012
大小:338.08 KB
页数:4页
时间:2020-06-21
《基于用户行为的邮件分类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、JournalofComputerApplicationsISSN1001—90812014.05.10计算机应用,2014,34(5):1369—1372C0DENJYIIDUhttp://www.joca.an文章编号:1001~9081(2014)05-1369—04doi:10.11772/j.issn.1001—9081.2014.05.1369基于用户行为的邮件分类算法陈治平,谭义红,赵碧海(长沙学院信息与计算科学系,长沙410003)(}通信作者电子邮箱Chenzhiping05@tsinghua.org.cn)摘要:针对垃圾邮
2、件过滤过程中分类模型难以个性化、难以适应用户兴趣动态变化的问题,提出了一种基于用户行为的邮件分类算法。通过分析朴素贝叶(NB)斯分类算法的原理,改造朴素贝叶斯算法,使其具有动态调整能力。邮件服务器接收到新邮件后自动进行分类判别,用户浏览邮件的过程中对邮件进行操作,根据用户对错分邮件的处理自动将该邮件加入训练数据集,并动态更新相应特征的统计概率,使邮件分类算法能够依据用户对不同邮件的操作行为动态调整分类模型,以达到有效过滤垃圾邮件的目的。与常用的贝叶斯分类算法的实验比较表明在给定小样本集合进行训练的情况下,新算法对于垃圾邮件的识别率比传统的朴素
3、贝叶斯方法、基于风险敏感的朴素贝叶斯方法等提高了10%,获得了较好的分类性能。关键词:分类算法;垃圾邮件;朴素贝叶斯;个性化;分类精度中图分类号:TP391文献标志码:AE.mailclassificationalgorithmbasedonuser’SactionCHENZhiping,TANYihong,ZHAOBihai(DepartmentofInformationandComp~ingScience,ChangshaUniversity,ChangshaHunan410003,China)Abstract:Itisdi伍cultto
4、buildapersonalizedclassificationmodeltofilterspam。andthemodeliSalSOdimculttoadapttotheuserchanginginterest.Tosolvetheseproblems,anovelE—mailclassificationalgorithmbasedonusers’actionwasproposed.WithanalysesofNaiveBayesian(NB)algorithm,thecomputingprocedurewasre—builttorepre
5、sentthedynamicadiustmentabilitieSoftheclassification.ItautomaticallyclassifiedthenewE—mailsreceivedinthemailserver.Withtheuser'sactionontheE—mails。thesystemcollectedthemis—classifiedE—mailsintothetrainingset,andupdatedthefeatures’frequencies.Therefore,themodelforE.mailclass
6、ificationwasautomaticallyadjustedtofilterthe;unkE—mailsmoreeffectively.UsingasmallsetofsampledataastrainingsetandcomparingwithNaiveBayesianandrisk-sensitiveNB,theexperimentalresultsshowthattherecognitionrateofthenewalgorithmhasimprovedover10%.Keywords:classificationalgorith
7、m;spam;NaiveBayesian(NB);personalization;classificationprecisionEM)算法的朴素贝叶斯算法,利用EM(Expectation0引言Maximization)算法对朴素贝叶斯算法要求条件独立性假设进随着互联网应用的不断深入,电子邮件已成为人们日常行填补,最后利用朴素贝叶斯算法过滤邮件,以提高分类准确生活中不可或缺的一部分。与此同时,各种广告、产品销售、性和稳定性;赵凯利用模糊决策树算法对垃圾邮件进行分交友等垃圾邮件极大地占用用户空间、浪费用户时间、消耗网类,通过与其他方法的对比分析
8、,获得了较好的效果;刘伍颖络带宽,如何有效过滤垃圾邮件已成为当前研究的热门课题。等基于邮件结构,利用多个基分类器进行组合,获得了较目前在基于内容分析的过滤技术上研究
此文档下载收益归作者所有