基于数据驱动的垃圾邮件检测技术研究

基于数据驱动的垃圾邮件检测技术研究

ID:35065760

大小:2.26 MB

页数:52页

时间:2019-03-17

基于数据驱动的垃圾邮件检测技术研究_第1页
基于数据驱动的垃圾邮件检测技术研究_第2页
基于数据驱动的垃圾邮件检测技术研究_第3页
基于数据驱动的垃圾邮件检测技术研究_第4页
基于数据驱动的垃圾邮件检测技术研究_第5页
资源描述:

《基于数据驱动的垃圾邮件检测技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号______________________________密级______________________________UDC______________________________编号______________________________全日制专业学位硕士论文基于数据驱动的垃圾邮件检测技术研究学位申请人:刘庆雄学科领域:控制工程校内导师:衷路生副教授校外导师:答辩日期:独创性声明本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,

2、论文中不包含其他人已经发表和撰写的研究成果,也不包含为获得华东交通大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人签名_______________日期____________关于论文使用授权的说明本人完全了解华东交通大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。保密的论文在解密后遵守此规定,本论文无保密内容。学生本人签名日期校

3、内导师签名日期校外导师签名日期摘要基于数据驱动的垃圾邮件检测方法研究摘要垃圾邮件作为电子邮件的副产品,已经给人们生活、工作等多个方面带来严重的影响。如何有效地检测出垃圾邮件已经成为急需解决的一个难题。因此本文针对常见的垃圾邮件文本检测进行了深入研究。具体描述如下:(1)提出了基于BoostingTree算法的垃圾邮件检测方法。BoostingTree算法基本原理是以DecisionTree分类算法作为Boosting算法框架中的基分类方法,利用Boosting算法框架对历史邮件文本(训练集)进行训练以获得多个不同的训练样本子集

4、。然后应用DecisionTree分类算法对这些样本子集进行训练生成DecisionTree基分类器,经过T轮的训练后产生T个DecisionTree基分类器。再将T个DecisionTree基分类器进行加权融合成一个最终结果的分类器。最后利用这个最终结果的分类器对电子邮件进行检测分类。传统贝叶斯算法、DecisionTree算法和BoostingTree算法的对比结果充分说明了基于BoostingTree算法的垃圾邮件分类器的性能明显优于其它。(2)提出了基于随机森林的垃圾邮件检测方法。随机森林以DecisionTree算法

5、为基分类器,通过bagging抽样方法从训练样本集中重复抽取多个训练样本子集,再对每个训练样本子集分别进行建立DecisionTree算法数学模型,然后根据分类结果对每个决策树进行“投票”,获得票数最多的作为最优分类树。随机森林和DecisionTree算法仿真实验结果表明基于随机森林的垃圾邮件分类器的分类效率大幅度提高。(3)提出了一种新型的Elasticnet-DecisionTree两步垃圾邮件分类算法。该算法弥补了单独使用一些算法进行特征降维或回归分析时分类的效果不足的缺陷。第一步运用ElasticNet算法对历史邮件

6、文本数据进行特征降维;第二步将特征降维产生的结果输入到DecisionTree算法中进行分类,即筛选出哪些邮件是垃圾邮件,哪些是合法邮件。与PLS、PCA和Lasso算法的仿真结果相比,Elasticnet-DecisionTree两步分类算法的分类结果明显更好。关键词:垃圾邮件,BoostingTree算法,随机森林,Elasticnet-DecisionTree算法IABSTRACTTHEDETECTIONMETHODOFSPAMBASEDONDATADRIVENABSTRACTAsaby-productofemail,s

7、pamhasbroughtaboutseriousimpactonpeople'slife,workandsoon.Howtodetectthespamhasbecomeanurgentproblemtobesolved.Therefore,thispaperistostudythecommonspamtextdetection.Specificdescriptionisasfollows:(1)AspamdetectionmethodbasedonBoostingTreeisproposedinthispaper.Boost

8、ingtreeusesdecisionTreeasthebasicclassificationalgorithminboostingalgorithmframework.Thetextofhistoricalmail(trainingset)istrainedtogetdif

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。