欢迎来到天天文库
浏览记录
ID:32151585
大小:2.63 MB
页数:92页
时间:2019-01-31
《基于支持向量机理论的垃圾邮件过滤模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第一章弓}言次是法律的执行问题,给予什么样的处罚,而且,如果缺少国际合作,即使发现来自境外的垃圾邮件,也无法制裁。如果规定发送邮件都需要一定的额外代价,在现阶段显然很难得到广大邮件用户的认可。2)利用垃圾邮件过滤技术。近年来,有关垃圾邮件过滤技术的研究开始逐步兴起,相关的投入也越来越大,涌现了一大批相关产品。如果能够从技术上解决垃圾邮件问题,那是最理想的了。例如,基于邮件内容含义的过滤技术属于邮件智能过滤领域,这种技术能够较好的适应于垃圾邮件变化性。邮件过滤系统将邮件正文当作普通的文本,对其进行文本识别和分类,尽力将邮件过滤器解读邮件内容含义的过程自动化。Cohen[1l
2、采用TF.IDF方式表示邮件权重,用RIPPER规则学习算法实现对邮件的自动分类。Sahami[2J等人利用统计概率学理论和信息检索技术,用向量空间模型表示邮件,假设向量中的各个项是相互独立的,用贝叶斯公式来计算邮件是垃圾邮件的概率,从而完成垃圾邮件的自动识别。实验(3】证明,基于贝叶斯公式的方法在垃圾邮件识别效果方面远远好于基于关键字过滤的方法。Xaviercarreras【4】等人应用B00sting算法来实现反垃圾邮件的过滤。DuhongChent5l等人对贝叶斯算法、决策树、神经网络和Boosting四种算法对垃圾邮件过滤的效果进行了比较,发现神经网络算法有更高的
3、正确分类率。JamesClarkI7】等人编写LINGER软件,他们构建了一个3层的BP神经网络,其中输入层的神经元个数为特征项数,隐藏层的神经元数选取在20至40个范围内,发现BP网络结合用信息增益来选取特征项的方法,有相当好的垃圾邮件识别效果。还有更多的学者正在从事这方面的研究,大家都在力图找到一种能完美识别出垃圾邮件的过滤技术,但是到目前为止,仍然没有哪一种过滤方法能够绝对精确的区分出垃圾邮件与正常邮件。作者被这一领域的知识和问题深深吸引,并在此方面做了一定的研究,希望能找到一种新的过滤模型达到更好的过滤效果。1.2项目目标本课题的主要目标是探索一种具体的垃圾邮件过
4、滤模型,实现荠测试该模型。研究中要观察所选择的模型是否适当,注意此模型自身参数和环境参数调节对过滤性能的影响。并且,本论文主要是实验性的测试模型,而不是真正制造出一个产品。因此,实验需要能够彻底的检测出模型的有效性和可行性,至于用户交互性等其他问题也暂时不予考虑。电子科技大学硕士学位论文1.3研究内容概要论文首先介绍了邮件过滤的相关背景以及基础知识,搐述了现存的垃圾邮件过滤方法。接着详细介绍了基于SVM的邮件过滤模型,具体设计了~个实验用于实现模型的功能并做了相应的性能测试。实验性能测试结果以表格的形式给出,以数据为警础探讨了该过滤模型过滤性能的优劣,得出了该过滤模型的适
5、用范围。最后,就该模型过滤模型提出了优化过滤性能的方法,这也是作者下一步需要完成的工作。其中,基于SVM的邮件过滤模型的设计以及实验分析是本论文最重要的部分。本论文正文一共分为九章:第一章为引言;第二章介绍邮件过滤的相关背景知识和基础知识:第三章主要介绍了SVM理论;第四章为本论文的重点,着重介绍了基于SVM邮件过滤模型的推理和设计;第五章描述了基于SVM的邮件过滤模型的具体实现细节;第六章是本论文的第二个重点,对基于SVM的邮件过滤模型的测试结果做了非常细致的分析;第七章讨论了垃圾邮件过滤中的反馈学习技术;第八章是模型性能优化讨论;第九章是本论文的结论。正文后是致谢,参
6、考文献以及附录。4第二章基础知识电子邮件有自身的结构特点。邮件的协议和内容格式也是由RFC(RequestForComments)的几个文档规定的。RFC821规定了SMTP(SimpleMailTransferProtocol,简单邮件传输协议),定义发送邮件的机制。RFC1725规定了POP3(PostOfficeProtocol3,邮局协议版本3),定义从PoP3服务器收取邮件的机制。RFC822定义邮件格式。随着电子邮件的广泛使用,邮件系统不仅需要传输各种字符集的文本内容,而月.还需要传送各种非文本文件(例如图像文件,word文件、pd歧件、zip文件等),根据这
7、个需求,人们又定义了MIME标准,作为RFC822的补充。MIME即MultipurposeIntemetM蛐Extensions,多用途互联网邮件扩展协议,它由RFCl521和RFCl522这两个标准构成。目前几乎所有的邮件服务系统都支持MIME标准。从电子邮件的结构出发,寻找垃圾邮件的特征,在发件人、收件人、邮件头、邮件正文内容等各方面展开邮件过滤工作,是垃圾邮件过滤常采用的基本方法。2.1现有垃圾部件过滤方法首先给出电子邮件系统中几个概念的解释:1)M1JA。MuA即MailUserAgent,邮件用户代理。MUA是邮件
此文档下载收益归作者所有