基于内容的垃圾邮件过滤方法研究 (1)论文

基于内容的垃圾邮件过滤方法研究 (1)论文

ID:32301889

大小:2.72 MB

页数:60页

时间:2019-02-03

基于内容的垃圾邮件过滤方法研究 (1)论文_第1页
基于内容的垃圾邮件过滤方法研究 (1)论文_第2页
基于内容的垃圾邮件过滤方法研究 (1)论文_第3页
基于内容的垃圾邮件过滤方法研究 (1)论文_第4页
基于内容的垃圾邮件过滤方法研究 (1)论文_第5页
资源描述:

《基于内容的垃圾邮件过滤方法研究 (1)论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、合肥工业大学硕士学位论文基于内容的垃圾邮件过滤方法研究姓名:李笛申请学位级别:硕士专业:计算机软件与理论指导教师:胡学钢20080501基于内容的垃圾邮件过滤方法研究摘要随着计算机网络与通讯技术的发展与广泛应用,电子邮件已经成为必不可少的通讯方式。但是,电子邮件带来的垃圾邮件问题日益严重,给人们的生活带来了诸多不便,同时也给网络安全带来了极坏的影响。因此,解决好此类问题具有十分重要的现实意义。目前,反垃圾邮件工具逐渐倾向于引入基于内容的机器学习判别方法。然而,在训练过滤器时,会遇到未带类别标注的样本,如

2、果采用传统的机器学习方法会造成过滤器性能下降。为此,本文研究利用这些未带类别标注样本,进行垃圾邮件过滤器训练。具体所做的工作和创新点如下:(1)研究针对邮件内容的理想特征选择方法。邮件中过高维数的文本内容会影响最后的过滤效果。因此,引入特征选择是很有必要的。为此,本文利用实验验证的方法,分别就文本分类中常见的几种特征选择方法对垃圾邮件样本进行了测试。结果表明,期望交叉熵方法和x2统计量方法对邮件分类最为有效,互信息和信息增益方法效果相比之下显得逊色;(2)针对由于含有未带类别标记样本,导致训练样本质量低

3、劣的情况,提出一种主动贝叶斯分类方法RANB(NaiveBayesClassifierRelyingOilActiveLearning),用以标注这些训练样本类别标记,提高训练样本质量。此方法根据条件熵衡量未带类别标记样本好坏,选择出一定数量好的样本,并融入减少分类误差机制。同时,利用朴素贝叶斯方法简单易行且分类效果比较好的特点构造分类器以标注未带类别标记样本类别。实验表明,此算法是可行的,尤其在未知类别标注样本较多时是十分有效的,比其他几种经典方法在精确率上有很大提高;(3)设计构建了一个邮件过垃圾邮

4、件过滤系统ALNBSpamFilter(AetiveLearningNaiveBayesSpamFilter)。将RANB算法应用于对训练样本的预处理,结果表明,用RANB算法进行预处理可有效增强训练样本的可信度。同时系统具有较高的稳定性,具备很好的应用前景。关键词:垃圾邮件;机器学习;文本分类;朴素贝叶斯;主动学习Content—basedAnti-SpamFilteringABSTRACTElectronicmail(E-mail)isbecomingthemostimportantcommunic

5、ationwayamongthemodempeople,withthenetworkandcommunicationtechnologybecomingadvanced.Butspambringsinconvenienceto0111"livesandextremelybadimpacttothesecurityofthenetwork.Solvingtheproblemofspareisurgent.Today,content-basedonmachinelearningmethodshavebeen

6、introducedintocurrentspamfilters.However,theproposedstateoftheartclassificationmethodsoftenabandonthemwhenmeetingthelargenumberofunlabeledtrainingsamples,whichb打ngupheavyoverheadoftimeanddecreasetheclassificationaccuracy.Therefore,aresearchontheanti—spam

7、filterwiththeseunlabeledtrainingsamplesisproposedinthisdissertation.Themajorcontributionsareasfollowing:(1)AresearchontheproperfeaturereductionmethodoftheEmails.neperformancewillbeworsewhiletherearetoomanydimensionsofattributevectorsintheEmailes.Soitisne

8、cessarytoreducedimensions.Severalfeaturereductionmethodsusuallyusedintextcategorizationareexperimentizedseparately.Accordingtotheresults,蟹statisticandExpected-Cross-Entropyarethemostusefulmethodstoreducedimensions.Informat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。