资源描述:
《改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第38卷第4期通信学报Vol.38No.42017年4月JournalonCommunicationsApril2017doi:10.11959/j.issn.1000-436x.2017084改进的朴素贝叶斯算法在垃圾邮件过滤中的研究111,21杨雷,曹翠玲,孙建国,张立国(1.哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001;2.中国科学院信息工程研究所,北京100093)摘要:提出了一种利用支持向量机改进的朴素贝叶斯算法——TSVM-NB算法。首先利用NB算法对样本集进行初次训练,利用支持向量机构造一个最优分类超平面,每个样本根据与其距离最近样本的类型
2、是否相同进行取舍,这样既降低样本空间规模,又提高每个样本类别的独立性,最后再次用朴素贝叶斯算法训练样本集从而生成分类模型。仿真实验结果表明,该算法在样本空间进行取舍过程当中消除了冗余属性,可以快速得到分类特征子集,提高了垃圾邮件过滤的分类速度、召回率和正确率。关键词:邮件过滤;朴素贝叶斯;支持向量机;修剪策略中图分类号:TP309文献标识码:AStudyonanimprovednaiveBayesalgorithminspamfiltering111,21YANGLei,CAOCui-ling,SUNJian-guo,ZHANGLi-guo(1.CollegeofCom
3、puterScienceandTechnology,HarbinEngineeringUniversity,Harbin150001,China;2.InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing100093,China)Abstract:AmethodofimprovedsupportvectormachinenaiveBayesalgorithmwasproposed——TSVM-NBalgorithm.FirstusingNBalgorithmtoinitialsampleset
4、,constructinganoptimalclassificationbySVM,eachsampleaccordingtoitsdistancefromthesamplewasthesametypeofrecentchoice,soastoreducethesizeofthesamplespace,butalsoim-provetheindependenceofeachsamplethelastcategory,againwithnaiveBayesalgorithmtrainingsettogeneratetheclassificationmodel.Simula
5、tionresultsshowthatthealgorithmselectionprocesstoeliminatetheredundantattributesinthesamplespace,theclassificationfeaturesubsetcanbegotquicklyandimprovespamfilteringclassificationspeed,re-callrateandaccuracyofthesamealgorithm.Keywords:spamfiltering,naiveBayes,SVM,trimstrategy[2]1)黑白名单过滤。
6、该方法分为黑白2个名单1引言列表,如果一个IP频繁发送垃圾邮件,就将该IP近年来,网络通信技术飞速发展,电子邮件成放入黑名单中,此后该地址发送的邮件都将默认为为人们日常生活和工作的主要沟通方式之一,但垃垃圾邮件,白名单与其相反,都视为正常邮件。还圾邮件问题也接踵而来。根据中国互联网协会最新有实时黑白名单技术,该技术的黑白名单列表交由[1]调查报告显示,用户电子邮箱平均每周收到邮件第三方来维护,该方法是通过DNS的方式来动态38.6封,其中,垃圾邮件12.8封,占比高达33.1%。地查询某个IP地址是否在列表中。如果对方采用动大量的垃圾邮件不但浪费了网络带宽和资源,也造态
7、或隐藏IP,该方法将受到限制。成了时间和金钱上的损失,因此,人们对于垃圾邮2)基于规则的过滤技术。决策树是基于规则过件过滤技术的发展需求强烈。滤技术的代表,1966年,Hunt研制了一个关于概目前,垃圾邮件过滤方法主要分为以下3类。念学习的系统(CLS,conceptlearningsystem),这是收稿日期:2016-12-30;修回日期:2017-02-22基金项目:国家自然科学基金资助项目(No.61202455,No.61472096)FoundationItem:TheNationalNaturalScienceFoundat