欢迎来到天天文库
浏览记录
ID:34824964
大小:2.49 MB
页数:68页
时间:2019-03-11
《探析垃圾邮件过滤技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山东大学硕士学位论文垃圾邮件过滤技术研究姓名:欧德宁申请学位级别:硕士专业:计算机系统结构指导教师:马军20090405山东大学硕士学位论文摘要随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重。面对肆虐的垃圾邮件,人们采用了各种手段来对抗,垃圾邮件过滤技术是目前最主要的反垃圾邮件手段。本文研究垃圾邮件过滤技术中的一些关键问题。由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类的方法进
2、行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热点。本文将其称为基于内容的垃圾邮件过滤技术。本文概述了现有的基于内容的垃圾邮件过滤技术,指出了其中的三个关键问题:分类算法,特征选择方法和中文词串切分算法。我们分别对这三个问题进行了对比实验并给出了实验的结果。实验结果显示,支持向量机分类模型以及基于信息增益的特征选择方法能取得比较好的结果。我们实现了单字切分、二元切分和基于字典的正向最大匹配三种中文词串切分算法,实验结果显示简单的二元切分能取得和正向最大匹配算法相当的效果,而单字切分出人意料地比这两者都要更好。另外,由于
3、垃圾邮件过滤的特性,停用词和标点符号对正确过滤有帮助,不应去除。基于内容的垃圾邮件过滤器容易受到反过滤手段的欺骗。基于垃圾邮件发送者绝大多数情况下会在邮件中添加一个供读者点击访问的链接的事实,我们提出了一种新颖的基于邮件内含链接特征分析的垃圾邮件过滤技术。该技术提取邮件中与链接有关的特征,用支持向量机进行训练分类。实验结果显示这是一种快速有效的过滤技术。垃圾邮件过滤的一个重要趋势是综合各种单独的技术进行判断。本文最后在前文工作的基础上,研究并实现基于改进的AdaBoost算法的多过滤技术组合策略。这是综合各种技术实现实用的垃圾邮件过滤系统的关键问题。我
4、们运用该策略取得了很好的实验结果,在相同的数据集上,超过了SEWM2008垃圾邮件评测竞赛第一阶段任务的最好成绩。山东大学硕士学位论文关键词:垃圾邮件过滤;文本分类;支持向量机;链接;AdaBoostII山东大学硕士学位论文ABSTRACTNowadayswiththerapiddevelopmentandpopularizationoftheIntemet,electronicmailfE-mail)hasbecomeoneofthemostimportantcommunicationmethodsinourdailylifeowingtoitsco
5、nvenienceandcheapness.Theproblemofjunkmail(alsoreferredtoas“spam”),however,becomemoreandmoreseriousinrecentyears.Facingunscrupulousjunkmails,peopleadoptmanytechniquetofightagainstit.Currently,Sparefilteringismostcommonlyusedmethodofanti—spare.Inthispaper,wefocusonsomecriticaliss
6、uesofspamfiltering.SincetherearedistinctcharacteristicsofwordsandsWlesinthecontentsofspam,andthetopiccontainedinspamseldomexistsinlegale—mail,itisaeffectivewaytofilterspambyadoptingthetechnologiesofautomatictextcategorization.Ithasbecomeahotresearchtopicinanti-spamfilteringatpre
7、sent.Wereferitas“content.basedspamfiltering'’inthispaperAfterasummaryoftheexistingcontent—basedspamfilteringisgiven,wepointoutthreecriticalissuesinthistopic:classificationalgorithm,featureselectionmethod,Chinesetoken—cuttingalgorithm.Somecomparativeexperimentsresultsaregivenands
8、howthatSVMclassificationmodelandIG-basedfeature
此文档下载收益归作者所有