欢迎来到天天文库
浏览记录
ID:45786122
大小:324.05 KB
页数:100页
时间:2019-11-17
《基于SVM中文垃圾邮件识别研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、山西财经人学基于SVM的中文垃圾邮件的识别研究:娟申请学位级别厂硕士专业科学与壬程指导教师:韩雅鸣2006-03-30随着Internet的迅猛发展,电子邮件作为一种主要的交流方式已得到了广泛应用。但是,许多商业广告、宣传广告、恶作剧等垃圾邮件也在网络中传送,这些垃圾邮件占据了邮件服务器的大量存储空间,同时也需要用户花费大量时间处理,不仅降低了企业的应用效率,也损害了广大用户的合法权益。因此,如何对中文邮件进行处理,识别出垃圾邮件是用户关心的一大问题。目前某些研究中已采用一些技术进行垃圾邮件的特征提取与识别,但这些技术都存在一定的不足,且在中文垃圾邮件的识别
2、上仍存在问题。因此,研究一种有效的方法用于中文垃圾邮件的识别具有十分重要的意义。数据挖掘中的支持向量机分类方法是一种基于统计学习理论的机器学习方法,该方法在解决有限样本、非线性及高维模式识别问题中表现出许多特有的性能。另外,支持向量机在文本分类领域方面的研究已取得令人满意的效果。针对目前中文垃圾邮件识别技术的不足,本文在支持向量机分类算法的启发下,深入研究了中文垃圾邮件的序列极小化特征提取算法,提出了应用该算法进行中文垃圾邮件识别的过程,该过程分为三个阶段:(1)利用改进的正向最大匹配法对中文邮件文本进行分词;(2)运用向量空间模型把分词后的文本转化为向量形
3、式;(3)采用序列极小化特征提取算法对中文垃圾邮件进行识别。另外,本文还对当前比较通用的各利「支持向量机训练算法进行了分析研究,比较了各种算法的优劣,尤其深入研究了序列最小最优化算法,并运用特征提取的序列极小化算法对中文邮件文本进行特征提取。本文通过对中文垃圾邮件自身特点分析,针对其特征维数高的特点,运用支持向量机中的特征提取序列极小化算法对中文垃圾邮件进行特征识别,挖掘出能够识别中文垃圾邮件的特征。同时,对有限的模拟测试样本集进行了测试,取得了比较满意的结果,表明此方法适用于中文垃圾邮件的识别。【关键词】中文垃圾邮件特征提取支持向量机序列极小化Abstra
4、ctWiththequickdevelopmentofInternet,E-mailhasbeenwidelyusedasoneofthemostfastestandeconomiccontactmethods.ButmanyChineseSpamaresentthroughtheInternetsuchascommeneeads,disseminativeads,maliciousmails,etc.TheseSpamnotonlyoccupythecapacitiesofmailserver,butalsowastetheenergiesandtimeo
5、fuserstomanagethem,whichdecreasetheefficiencyoftheenterpriseanddamagetheuserslegalrightsandinterests.SohowtodealwithChinesemailsandidentifyChineseSpamisabigproblemofusers'concerns.Atpresent,sometechniqueshavebeenusedintheSpamfeaturesabstractioninsomeresearches,butthesetechniqueshav
6、esomeshortagesandtherearesomeproblemsinidentifyingtheChineseSpam.Accordingly,itissignificanttoexploreaneffectivewayinChineseSpam5identification.SupportVectorMachine(SVM)isoneofthemostimportanttechniquesindatamining,whichisbasedonstatistics.Ithasspecialcapabilityinsolvinglimitsample
7、s,nonlinearandhighdimensionalmodeidentification.Inaddition,thestudyofSVMhasgetsatisfyingeffectinthefieldsoftextclassification.FocusontheshortageoftheChineseSpamidentifiabletechniques,asequentialminimaloptimization(SMO)algorithmwhichisbasedonSVMclassificationalgorithmisproposedtotak
8、eouttheChineseSpamfeatures
此文档下载收益归作者所有