欢迎来到天天文库
浏览记录
ID:46502247
大小:139.00 KB
页数:7页
时间:2019-11-24
《垃圾邮件分类算法的研究和分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、垃圾邮件分类算法的研究与分析西北工业大学计算机学院陕西西安710129(SchoolofComputer,NorthwesternPolytechnicUniversityXi'an710129China)摘要:随着互联网的高速发展,电子邮件已经成为人们信息获取和信息交流的一个重要的渠道。与此同时垃圾邮件也成为互联网上的一个日益严重的安全问题,引起了越来越多的社会大众和研究人员的重视和关注。为了冇效的分辨垃圾邮件,木文通过对训练数据进行相应的预处理及特征捉取,分別使用朴素贝叶斯、C4.5决策树、支持向量机三种方法來对垃圾邮件进行分类,通过测试结果,比对各个
2、分类算法的优劣,并进行了详细的分析。关键词:垃圾邮件朴素贝叶斯C4.5决策树支持向量机Abstract:WiththerapiddevelopmentoftheInternet,e-mailplaysanimportantrolesinpeople'sinformationaccessandinformationexchange・Atthesametime,spamhasbecomeanincreasinglyserioussecurityproblemontheInternet,causingmoreandmoreattentionofthecommun
3、ityandreseiirchers・Inordertoeffectivelydistinguishthespam,thispaperPre-processingsandextractsfeatureofthetrainingdata,andusestheNaiveBayes,C4.5DecisionTreeandSVMtoclassifythespam,Throughthetestresults,compareandanalysistheadvantagesanddisadvantagesofeachclassificationalgorithm・Key
4、wordsZspamNaiveBayesC4.5DecisionTreeSVM1引言Internet的问世带来了电子邮件业务的出现,网络技术的飞速发展促进了邮件服务的广泛普及及繁荣,电子邮件已经成为生活在信息时代的人们日常生活一个重要部分。电子邮件不仅是一个信息交流的重要渠道,而且也是人们信息获取的重要途径乞一。随着互联网的普及,不仅人们的日常事务可以通过电子邮件来进行处理,而且越來越多正式和重耍的信息也通过电子邮件來进行传达和交流。随着电子邮件越来越普及和重要性的持续增长,一些商家和不法分子开始利用垃圾邮件这种方式来进行广告信息的传播和用户消费行为信息的
5、获取。根据无线服务机构WirelessServicesCorporation公司提供的一份最新调査显示,H前美国移动通信市场上所有的电子邮件服务当屮,43%的都是垃圾信息,而年前垃圾邮件在电子邮件屮的比例为18%.而在国内,据冇关部门统计,国内的电子邮件用户,平均每天发送的短信数量超过了3亿条。邮件甚至被称为继报纸、广播、电视、网络Z后的第五媒体。不过在数量庞大的电子邮件背后,垃圾邮件的问题也愈加严逼。垃圾邮件可以说是因特网带给人类最具争议性的副产品之一,它的泛滥已经使整个因特网不堪重负,人们不得不花费大量时间来对付邮箱里的垃圾邮件。在这样的情势下,制定切
6、实可行的反垃圾邮件方案无疑是Internet的一个重耍课题,而对丁-反垃圾邮件技术的研究也称为一个新的热点领域。木文根据现冇邮件分类的知识,结合训练数据集的特点,选择合适的分类算法,來实现对垃圾邮件的分类。2相关工作本文垃圾邮件的分类工作主要包括以下三个部分:文本数据预处理,数据集特征选择,分类算法的应用及结果分析。2.1文本数据预处理根据提供的训练数据集及测试数据集,编写程序,提取数据集中所冇单词及对应的频率,并更改数据格式,以矩阵的形式存储。初步处理过后的训练数据集Pre-train1.csv第一行表示数据集中出现的所有单词、字母和数字属性共1000个
7、,第2-9001行代表之前的9000条邮件训练数据集,对应第一行的单词,存储了每个单词屮I现的频率。Prc-trainl.csv最后一列添加label标签,表明每一条数据的属性,ham或spam。在Pre-train1.csv的基础上,我们开始对数据集中的屈性进行筛选,去掉统计出来的单个字母,纯数字,以及无意义词汇属性143条,得到最终的数据集Pre-train2.csv共包含857个可靠单词属性,如图1所示,基于Pre-train2.csv数据集,我们进行后续的特征提取。togetherhavingenanelsontimefarinternat^or
8、iRinaloncelabel006000020haii00100
此文档下载收益归作者所有