欢迎来到天天文库
浏览记录
ID:57741552
大小:1.00 MB
页数:3页
时间:2020-03-26
《基于云计算的贝叶斯分类算法在过滤垃圾邮件中的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、算法研究学术探讨2014年第1-2期基于云计算的贝叶斯分类算法在过滤垃圾邮件中的研究周霞王华军(成都理工大学,四川成都610059)[摘要]为了抵制垃圾邮件对互联网及其用户造成的严重不良影响,本文采用高效的贝叶斯分类算法,基于hadoop平台实现垃圾邮件的过滤系统,克服了传统并行系统在编程实现和系统扩展上的不足,充分利用云计算环境优势,使系统实现简单,扩展容易,性能提高;并做了相关的试验,验证了设计理论。[关键字]垃圾邮件;云计算;贝叶斯分类;MapReduce;HDFSMapReduce是一种编程模型,适用于大规模数据集的并1.
2、引言行运算。MapReduce任务过程被分成两个处理阶段:map阶垃圾邮件存在于互联网中占用大量的传输、存储和运算段和reduce阶段,每个阶段都以键/值对作为输入和输出,可资源,造成巨大的资源浪费;对信息安全系统也构成了一定选择他们的类型。但reduce阶段的输入类型必须与map阶程度的威胁;浪费用户的时间、精力和金钱,损害了用户的利段的输出类型相匹配。控制作业执行过程的是两类节点:益。因此正确识别垃圾邮件显得尤其重要。常见的垃圾邮JobTracker和TaskTracker。TaskTracker运行自己的任务,并件过滤技术:
3、邮件发送认证技术仅仅保证了合法用户发送邮且将运行的进度报告给JobTracker。JobTracker负责调度,记件;黑白名单技术,邮件特征过滤技术,关键字过滤技术仍然录各个任务的进度情况,若发现有任务失败的,在其他的具有一定的实用价值,但是误判率都较高。TaskTracker节点上重新调度该任务。一个MapReducejob贝叶斯算法具有学习功能,其准确程度能够随着学习次(作业)通常把输入的数据集切分为若干个独立的数据块,由数的增加而不断提高。但传统的贝叶斯分类算法实现过于map任务(task)以完全并行的方式处理。框架会对ma
4、p的输复杂,把基于贝叶斯分类算法的垃圾邮件识别过程移植到云出先进行排序,然后把结果输入给reduce任务。作业的输入计算平台上,通过MapReduce编程模型实现,充分利用云计和输出都会被存储在文件系统中,原理如图2所示。在Ha-算平台的高效的数据存储能力和处理能力,实现对垃圾邮件doop平台上,MapReduce框架和HDFS是运行在相同节点上的智能、高效过滤。的,即存储节点和计算节点在一起,降低了网络传输量、网络2.Hadoop框架延迟,提高了整体的网络带宽利用率。2.1HDFS简介Hadoop分布式文件系统(HDFS)适合部
5、署在廉价的机器上应用于大规模数据集上,具有高容错性,高吞吐量的特点。HDFS放宽了可移植操作系统接口的要求,实现以流的形式访问文件系统中的数据,HDFS框架如图1所示。NameNode维护名字空间,DataNode存储数据块。一个数据块在多个DataNode中有备份;而一个DataNode对于一个块最多只包含一个备份。DataNode定时和NameNode通信,接受NameNode的指令。DataNode和NameNode建立连接以后,就会不断地和NameNode保持心跳。DataNode可作为服务器接受来自客户端的访问,处理数据
6、块读/写请求。DataNode之间还会相互通信,执行数据块复制任务,同时,在客户端做写操作的时候,DataNode需要相互配合,保证写操作的一致性。图1HDFS架构图2.2MapReduce简介——————————————作者介绍:周霞,女,湖北人,硕士研究生。研究方向:计算机应用。-53-学术探讨算法研究2014年第1-2期滤部分,如图3所示。本文采用两轮MapReduce的方法,如图4所示。第一轮Mapper对邮件进行分词和去除噪声。每个map接收一个邮件数据块,以作为输入键
7、值对,对每个数据块进行分词,映射到8、”+词条自身),1>键值对,并作为中间结果输出。每个Reduce函数接收具有相同Key值的中间结果,合并value值,得到各词条的数量统计,分别计算各词条的概率,输出结果为9、”+词条自身),val-ue(“正常概率10、垃圾概率”)>键值对。产生相应分词的计数结果文件。第二轮Map阶段主要转换格式为:11、”+词条自身),所属短信的类别>。拆分输入信息图2MapReduce原理图Key得到邮件的标识,并12、以此做输出的Key,在系统对Key操作过程结束后,一条邮件的各个分词便会集中一块,然后使3.贝叶斯分类算法在垃圾邮件过滤中的应用用第二轮Reduce过程中进行规约操作。Reduce阶段运算相3.1数据准备应的结果,输出格式为
8、”+词条自身),1>键值对,并作为中间结果输出。每个Reduce函数接收具有相同Key值的中间结果,合并value值,得到各词条的数量统计,分别计算各词条的概率,输出结果为9、”+词条自身),val-ue(“正常概率10、垃圾概率”)>键值对。产生相应分词的计数结果文件。第二轮Map阶段主要转换格式为:11、”+词条自身),所属短信的类别>。拆分输入信息图2MapReduce原理图Key得到邮件的标识,并12、以此做输出的Key,在系统对Key操作过程结束后,一条邮件的各个分词便会集中一块,然后使3.贝叶斯分类算法在垃圾邮件过滤中的应用用第二轮Reduce过程中进行规约操作。Reduce阶段运算相3.1数据准备应的结果,输出格式为
9、”+词条自身),val-ue(“正常概率
10、垃圾概率”)>键值对。产生相应分词的计数结果文件。第二轮Map阶段主要转换格式为:11、”+词条自身),所属短信的类别>。拆分输入信息图2MapReduce原理图Key得到邮件的标识,并12、以此做输出的Key,在系统对Key操作过程结束后,一条邮件的各个分词便会集中一块,然后使3.贝叶斯分类算法在垃圾邮件过滤中的应用用第二轮Reduce过程中进行规约操作。Reduce阶段运算相3.1数据准备应的结果,输出格式为
11、”+词条自身),所属短信的类别>。拆分输入信息图2MapReduce原理图Key得到邮件的标识,并
12、以此做输出的Key,在系统对Key操作过程结束后,一条邮件的各个分词便会集中一块,然后使3.贝叶斯分类算法在垃圾邮件过滤中的应用用第二轮Reduce过程中进行规约操作。Reduce阶段运算相3.1数据准备应的结果,输出格式为
此文档下载收益归作者所有