欢迎来到天天文库
浏览记录
ID:265460
大小:2.23 MB
页数:54页
时间:2017-07-16
《基于数据挖掘的垃圾邮件过滤技术研究硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、内蒙古大学硕士学位论文基于数据挖掘的垃圾邮件过滤技术研究姓名:李国安申请学位级别:硕士专业:计算机技术指导教师:侯宏旭;李兴华20080505内蒙古大学工程硕士学位论文基于数据挖掘的垃圾邮件过滤技术研究摘要随着Intemet的迅速普及,电子邮件已经成为现代通信主要手段之一。然而,垃圾邮件的存在却时刻威胁着电子邮件的使用安全。垃圾邮件作为商业广告、恶意程序和不健康内容的携带者,不仅占用网络带宽,同时造成用户时间、金钱上的浪费和情绪上的不良影响,严重侵扰着人们的正常生活。因此,反垃圾邮件行动刻不容缓,其技术也在不断地更新换代。目前,主要有基于口层的反垃圾邮件技术、基于S
2、MTP层的反垃圾邮件技术和基于邮件内容的过滤等技术的研发。在数据挖掘的文本挖掘启发下,本文致力于研究基于邮件文本内容上的垃圾邮件过滤技术。本文首先使用正向最大匹配法对邮件样本正文文本作分词处理,得到邮件的特征项。接着,利用互信息减少向量维数,构建邮件样本库。介绍目前比较流行的贝叶斯、KNN、向量空间、朴素贝叶斯等分类方法的原理,对这些算法进行比较分析。针对传统的KNN算法存在搜索速度慢、样本库容量依赖性强的缺陷,提出了一种基于KNN算法的混合分类器模型及实现。该算法首先利用各分类器对邮件进行处理得到分类结果,根据分类结果相同和不同决定是否再次进行KNN计算,这样避免
3、有单一分类器的局限性,能够发挥每个分类器的优势。通过实验证明,该方法对于中文邮件过滤系统切实可行,效果良好,是一种对邮件进行过滤的新的有价值的尝试。最后,本文提出对多媒体的垃圾邮件过滤、手机中的垃圾短信过滤等科研方向有待进一步地开拓。关键词:垃圾邮件,数据挖掘,KNN,组合分类器基于数据挖掘的垃圾邮件过滤技术研究ResearchofSpamFeltingBasedonDataMiningABSTRACTWiththerapidpopularizationoftheIntemet,E-mailhasalreadybecomeoneofthemainmeansofmod
4、emcommunication.However,theexistenceofspammailisalwaysathreattothesafeuseofE-mail.Spammailwhichalwayscarriesthecommercialadvertising,thesparemaliciousprogramsandtheunhealthycontent,notonlytakesupnetworkbandwidthandwastesusers’timeandmoney,butalsoimpactspeople’Smoodandstronglyharassesth
5、eirnormallife.Consequently,theactionofanti—spamisurgent.Thetechniquesofanti—spamconstantlyrenewitsgeneration.Atpresent,thereareseveralmaintechnicalresearchanddevelopment,suchasthetechniquebasedontheanti—-sparntechniqueoflPlayer,thetechniquebasedontheanti·-spamtechniqueofSMTPlayer,thete
6、chniquebasedonthefilterofthecontentoftheE·mailandSOon.Intheinspiredoftext觚IliI培ofthedatamining,thethesisdedicatesitselftotheresearchonthesparnmailfilteringtechnologyaboutthecontentofthetext-based.Firstofall,thethesisusesthemethodofpositivemostmatchingtomakesegmentationprocessingtoaspec
7、imenoftheE-mail,andgetsthecharacteristicsoftheE-mail.Then,usingmutualinformationtoreducethevectordimension,fortheconstructionofthemailspecimenbase.Introducetheprincipleofmorepopularclassificationincontemporaryera,suchasoftheBayesian,KNN,vectorspace,naiveBayesianclassificationandSOon,
此文档下载收益归作者所有