欢迎来到天天文库
浏览记录
ID:58867746
大小:107.63 KB
页数:6页
时间:2020-09-21
《垃圾邮件分类算法的研究和分析.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、垃圾分类算法的研究与分析西北工业大学计算机学院710129(SchoolofComputer,NorthwesternPolytechnicUniversityXi’an710129China)摘要:随着互联网的高速发展,电子已经成为人们信息获取和信息交流的一个重要的渠道。与此同时垃圾也成为互联网上的一个日益严重的安全问题,引起了越来越多的社会大众和研究人员的重视和关注。为了有效的分辨垃圾,本文通过对训练数据进行相应的预处理及特征提取,分别使用朴素贝叶斯、C4.5决策树、支持向量机三种方法来对垃圾进行分类,通过测试结果,比对各个分类算法的优劣,并进行了详细的分析。关键词:垃圾
2、朴素贝叶斯C4.5决策树支持向量机Abstract:WiththerapiddevelopmentoftheInternet,playsanimportantrolesinpeople'sinformationaccessandinformationexchange.Atthesametime,spamhasbecomeanincreasinglyserioussecurityproblemontheInternet,causingmoreandmoreattentionofthecommunityandresearchers.Inordertoeffectivelydist
3、inguishthespam,thispaperPre-processingsandextractsfeatureofthetrainingdata,andusestheNaiveBayes,C4.5DecisionTreeandSVMtoclassifythespam,Throughthetestresults,compareandanalysistheadvantagesanddisadvantagesofeachclassificationalgorithm.Keywords:spamNaiveBayesC4.5DecisionTreeSVM1引言Internet的问世
4、带来了电子业务的出现,网络技术的飞速发展促进了服务的广泛普及及繁荣,电子已经成为生活在信息时代的人们日常生活一个重要部分。电子不仅是一个信息交流的重要渠道,而且也是人们信息获取的重要途径之一。随着互联网的普及,不仅人们的日常事务可以通过电子来进行处理,而且越来越多正式和重要的信息也通过电子来进行传达和交流。随着电子越来越普及和重要性的持续增长,一些商家和不法分子开始利用垃圾这种方式来进行广告信息的传播和用户消费行为信息的获取。根据无线服务机构WirelessServicesCorporation公司提供的一份最新调查显示,目前美国移动通信市场上所有的电子服务当中,43%的都是
5、垃圾信息,而年前垃圾在电子中的比例为18%。而在国,据有关部门统计,国的电子用户,平均每天发送的短信数量超过了3亿条。甚至被称为继报纸、广播、电视、网络之后的第五媒体。不过在数量庞大的电子背后,垃圾的问题也愈加严重。垃圾可以说是因特网带给人类最具争议性的副产品之一,它的泛滥已经使整个因特网不堪重负,人们不得不花费大量时间来对付里的垃圾。在这样的情势下,制定切实可行的反垃圾方案无疑是Internet的一个重要课题,而对于反垃圾技术的研究也称为一个新的热点领域。本文根据现有分类的知识,结合训练数据集的特点,选择合适的分类算法,来实现对垃圾的分类。2相关工作本文垃圾的分类工作主要包
6、括以下三个部分:文本数据预处理,数据集特征选择,分类算法的应用及结果分析。2.1文本数据预处理根据提供的训练数据集及测试数据集,编写程序,提取数据集中所有单词及对应的频率,并更改数据格式,以矩阵的形式存储。初步处理过后的训练数据集Pre-train1.csv第一行表示数据集中出现的所有单词、字母和数字属性共1000个,第2-9001行代表之前的9000条训练数据集,对应第一行的单词,存储了每个单词出现的频率。Pre-train1.csv最后一列添加了label标签,表明每一条数据的属性,ham或spam。在Pre-train1.csv的基础上,我们开始对数据集中的属性进行筛选
7、,去掉统计出来的单个字母,纯数字,以及无意义词汇属性143条,得到最终的数据集Pre-train2.csv共包含857个可靠单词属性,如图1所示,基于Pre-train2.csv数据集,我们进行后续的特征提取。图1数据集格式2.2特征提取2.2.1熵与信息增益熵是信息理论中一个非常重要的概念,表示任何一种能量在空间中分布的均匀程度,能量分布越均匀,越不确定,熵就越大。Shannon将熵应有于信息处理,提出了“信息熵”的概念。信息熵是信息的量化度量,是衡量一个随机变量取值的不确定性程度令X为随机变量,如果
此文档下载收益归作者所有