基于主成分的分析垃圾邮件分类

基于主成分的分析垃圾邮件分类

ID:23752673

大小:52.00 KB

页数:5页

时间:2018-11-10

基于主成分的分析垃圾邮件分类_第1页
基于主成分的分析垃圾邮件分类_第2页
基于主成分的分析垃圾邮件分类_第3页
基于主成分的分析垃圾邮件分类_第4页
基于主成分的分析垃圾邮件分类_第5页
资源描述:

《基于主成分的分析垃圾邮件分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、MATLAB编程课程项目、项目题目:基于主成分分析的垃圾邮件分类姓名:学号:院系:小组成员:一、内容介绍我在小组中主要负责邮件的测试部分,也就是接收新邮件,利用已获得的垃圾邮件特称判断新邮件是否属于垃圾邮件。二、项目所用方法与已有方法的分析和比较项目所用方法为对于一封邮件,计算该邮件中每个单词在垃圾邮件和非垃圾邮件中出现的频率乘以次数并进行求和,最后通过比较垃圾邮件和非垃圾邮件的计算结果来判断此邮件是否是垃圾邮件。三、项目的意义与特点我所负责的内容在项目中属于一个比较靠后的部分,是对前面所做的工作的一个检测,是本项目最终所要实现

2、的功能。四、项目的实施原理核心代码分析:1:fori=1:numTestDocs2:fork=1:numclassifier3:forj=1:numTokens4:result(k)=result(k)+testMatrix(i,j)*log(P_numToken(k,j));5:end6:result(k)=result(k)+log(P_category(k));7:end8:if(result(1)>result(2))9:output(i)=0;10:else11:output(i)=1;12:end13:numerro

3、r=0;14:forg=1:numTestDocs15:if(category(g)~=output(g))16:numerror=numerror+1;首先numTestDocs中存储是测试样本的大小(如100封邮件);numclassifier为常量值,指的是种类的个数,在本项目中种类只有垃圾邮件和非垃圾邮件两种,所以numclassifier默认为2;numTokens为字典中单词的个数,因为本项目所使用的字典单词个数为1448,所以numTokens默认为1448;从第2行到第6行是对每一个邮件样本的处理,计算是垃圾邮件

4、的概率和非垃圾邮件的概率;第4行为算法的核心,是对于字典中的每个单词,统计每个单词的P(Xi

5、Ck);第6行为计算P(Xi

6、Ck)P(Ck)的值;第8-11行是判断过程,若是垃圾邮件的概率大,则判断此邮件是垃圾邮件,否则判断其为非垃圾邮件;第13行到16行为计算误判的邮件数,用来评判算法的优劣。一、项目所用数据分析根据测试邮件数目的大小不同,本项目所使用的测试数据分为50封、100封、200封、400封、800封、1400封邮件(来源为互联网),因为技术能力有限,每个测试样本中对于格式有着严格的要求,需要按照顺序详细列出每一封邮

7、件中在字典中出现过的单词的次数,只有严格按照这个格式,本项目才能顺利运行。二、项目实施过程一、项目实施结果Output为一个矩阵,用于存储每一封邮件是否是垃圾邮件。截图上方显示了误判的概率为1.87%。一、总结与展望总的来说,我大致完成了我所负责部分的内容,但是因为时间和技术的限制,本算法并没有完全严格的按照主成分分析的算法,希望以后有时间多进行研究。目前我国垃圾邮件情况不容乐观,研究出一套好的垃圾邮件分类技术无疑是大有裨益的。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。