改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf

改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf

ID:49235261

大小:652.63 KB

页数:9页

时间:2020-02-28

改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf_第1页
改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf_第2页
改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf_第3页
改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf_第4页
改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf_第5页
资源描述:

《改进的朴素贝叶斯算法在垃圾邮件过滤中的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第38卷第4期通信学报Vol.38No.42017年4月JournalonCommunicationsApril2017doi:10.11959/j.issn.1000-436x.2017084改进的朴素贝叶斯算法在垃圾邮件过滤中的研究111,21杨雷,曹翠玲,孙建国,张立国(1.哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001;2.中国科学院信息工程研究所,北京100093)摘要:提出了一种利用支持向量机改进的朴素贝叶斯算法——TSVM-NB算法。首先利用NB算法对样本集进行初次训练,利用支持向量机构造一个最优分类超平面,每个样本根据与其距离最近样本的类型

2、是否相同进行取舍,这样既降低样本空间规模,又提高每个样本类别的独立性,最后再次用朴素贝叶斯算法训练样本集从而生成分类模型。仿真实验结果表明,该算法在样本空间进行取舍过程当中消除了冗余属性,可以快速得到分类特征子集,提高了垃圾邮件过滤的分类速度、召回率和正确率。关键词:邮件过滤;朴素贝叶斯;支持向量机;修剪策略中图分类号:TP309文献标识码:AStudyonanimprovednaiveBayesalgorithminspamfiltering111,21YANGLei,CAOCui-ling,SUNJian-guo,ZHANGLi-guo(1.CollegeofCom

3、puterScienceandTechnology,HarbinEngineeringUniversity,Harbin150001,China;2.InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing100093,China)Abstract:AmethodofimprovedsupportvectormachinenaiveBayesalgorithmwasproposed——TSVM-NBalgorithm.FirstusingNBalgorithmtoinitialsampleset

4、,constructinganoptimalclassificationbySVM,eachsampleaccordingtoitsdistancefromthesamplewasthesametypeofrecentchoice,soastoreducethesizeofthesamplespace,butalsoim-provetheindependenceofeachsamplethelastcategory,againwithnaiveBayesalgorithmtrainingsettogeneratetheclassificationmodel.Simula

5、tionresultsshowthatthealgorithmselectionprocesstoeliminatetheredundantattributesinthesamplespace,theclassificationfeaturesubsetcanbegotquicklyandimprovespamfilteringclassificationspeed,re-callrateandaccuracyofthesamealgorithm.Keywords:spamfiltering,naiveBayes,SVM,trimstrategy[2]1)黑白名单过滤。

6、该方法分为黑白2个名单1引言列表,如果一个IP频繁发送垃圾邮件,就将该IP近年来,网络通信技术飞速发展,电子邮件成放入黑名单中,此后该地址发送的邮件都将默认为为人们日常生活和工作的主要沟通方式之一,但垃垃圾邮件,白名单与其相反,都视为正常邮件。还圾邮件问题也接踵而来。根据中国互联网协会最新有实时黑白名单技术,该技术的黑白名单列表交由[1]调查报告显示,用户电子邮箱平均每周收到邮件第三方来维护,该方法是通过DNS的方式来动态38.6封,其中,垃圾邮件12.8封,占比高达33.1%。地查询某个IP地址是否在列表中。如果对方采用动大量的垃圾邮件不但浪费了网络带宽和资源,也造态

7、或隐藏IP,该方法将受到限制。成了时间和金钱上的损失,因此,人们对于垃圾邮2)基于规则的过滤技术。决策树是基于规则过件过滤技术的发展需求强烈。滤技术的代表,1966年,Hunt研制了一个关于概目前,垃圾邮件过滤方法主要分为以下3类。念学习的系统(CLS,conceptlearningsystem),这是收稿日期:2016-12-30;修回日期:2017-02-22基金项目:国家自然科学基金资助项目(No.61202455,No.61472096)FoundationItem:TheNationalNaturalScienceFoundat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。