基于内容的垃圾邮件过滤研究硕士学位论文

ID：265446

大小：1.00 MB

页数：62页

时间：2017-07-16

资源描述：

《基于内容的垃圾邮件过滤研究硕士学位论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、分类号TP3密级UDC编号中国科学院研究生院硕士学位论文基于内容的垃圾邮件过滤研究潘文锋指导教师王斌副研究员中国科学院计算技术研究所申请学位级别工学硕士学科专业名称计算机软件与理论论文提交日期2004年5月论文答辩日期2004年7月培养单位中国科学院计算技术研究所学位授予单位中国科学院研究生院答辩委员会主席声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。就我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说

2、明并表示了谢意。作者签名：日期：关于论文使用授权的说明中国科学院计算技术研究所有权处理、保留送交论文的复印件，允许论文被查阅和借阅；并可以公布论文的全部或部分内容，可以采用影印、缩印或其它复制手段保存该论文。作者签名：导师签名：日期：摘要电子邮件已经成为人们日常生活中通信、交流的重要手段之一，但垃圾邮件问题也日益严峻，网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外一条路线就是从电子邮件的文本内容入手，使用文本分类、信息过滤的算法，在

3、训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树、boosting等。简单贝叶斯方法计算简便，但召回率和正确率难以提到一个更高的层次，而且不适合于增量式的反馈学习。其他的几种方法有的效果比简单贝叶斯好一些，但计算较复杂。本文在分析简单贝叶斯方法的基础上，试图寻找一种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。Winnow是一种错误驱动的在线学习线性分类算法，其在线学习的特性非常适合“一例一学”的增量式反馈，作者将Winnow算法应用于垃圾邮件过滤，在公用的邮件语料上的实验表明

4、，Winnow的效果比简单贝叶斯方法要好，接近于Boosting方法。具体的说，本文的工作主要包含下列内容：1)概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过滤技术。2)介绍文本分类算法在邮件过滤上的应用，总结了常用的特征选择方法、分类算法以及通用的邮件语料库。3)详细分析邮件过滤中的简单贝叶斯算法。使用PU1邮件语料实验贝叶斯算法的性能，并比较特征数量、分类阈值以及语料的预处理层次对结果的影响。4)将Winnow线性分类算法引入到邮件过滤中，在PU1语料和Ling-Spam语料上实验Winnow分类器，得到了较

5、好的效果。5)结合简单贝叶斯算法和Winnow分类器，分析垃圾邮件过滤的反馈学习技术。6)设计了一个客户端邮件过滤系统的基本框架。关键词：垃圾邮件过滤；文本分类；简单贝叶斯；Winnow；反馈学习；信息过滤iResearchonContent-BasedSpamFilteringWenfengPan(ComputerSoftwareandTheory)DirectedbyBinWangElectronicmail(e-mail)isbecomingoneofthefastestandmosteconomicalwaysofcommun

6、icationavailable.Atthesametime,thegrowingproblemofjunkmail(alsoreferredtoas“spam”)hasgeneratedaneedfore-mailfiltering.Nowadays,anti-spammeasurescommonlyincludeblackorwhitelisttechnology,manualrulesandkeywordbasedcontentfiltering.Anotherapproachisusingautomatedtextcatego

7、rizationandinformationfilteringtofilterspam.Ane-mailfilteringsystemcanlearndirectlyfromauser’smailset.SuchalgorithmsoftextcategorizationasNaïveBayes,kNN,DecisionTreeandBoostingcanbeappliedinspamfiltering.However,theeffectivenessofNaïveBayesislimitedanditisnotfitforinsta

8、ntfeedbacklearning.Othersalgorithmaremoreeffectivebutcomplicatedtocompute.Tryingtoresolvethisproblem,wepropose

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 62



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于内容的垃圾邮件过滤研究硕士学位论文

基于内容的垃圾邮件过滤研究硕士学位论文

相关文章

相关标签