互联网 云计算 作业.doc

互联网 云计算 作业.doc

ID:56951111

大小:60.00 KB

页数:30页

时间:2020-07-28

互联网 云计算 作业.doc_第1页
互联网 云计算 作业.doc_第2页
互联网 云计算 作业.doc_第3页
互联网 云计算 作业.doc_第4页
互联网 云计算 作业.doc_第5页
资源描述:

《互联网 云计算 作业.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、22010337李辉第一题垃圾邮件的处理是目前Internet中亟待解决的问题。针对这一问题,检索相关的背景资料和研究现状,并对查找到的材料进行简要论述,比较不同处理方法优缺点。关键字:垃圾邮件、anti-spam、基于语义分析的电子邮件过滤系统设计垃圾邮件过滤技术的发展与现状1引言电子邮件是Internet中最善及,最普遍的应用,成为人们生活、学习、工作中必不可少的通讯工具。电子邮件在为人类服务的同时,随之而来的垃圾邮件却给人们带来无尽的烦恼。研究垃圾邮件及反垃圾邮件技术有着深远的社会意义和巨大的经济价值,帮助人们更有效地远离垃圾邮件的骚扰,营造一个健康

2、、和谐、有序的互联网社会环境。目前,过滤技术是最为广泛使用的反垃圾邮件技术,也是当前众多学者研究的热点。本文对目前垃圾邮件过滤技术发展及现状作了简要的分析,提出了下一步研究工作。2过滤技术对抗垃圾邮件的最重要的技术是过滤技术,主要用于MDA(MailDeliverAgent)和MUA(MailUserAgent),典型的邮件过滤技术有黑白名单、规则过滤、概率统计分类等。2.1黑白名单过滤黑白名单是一个简单有效而最为常用的过滤方法,国内外已成立权威性的反垃圾邮件联盟,提供实时的黑白名单服务,如中国反垃圾邮件联盟的实时黑名单RBL,包括近期中国国内的主要垃圾邮

3、件发送源、中国国内动态分配地址。其优点是对垃圾邮件处理能力的要求较低,它能够节省大量的带宽、存储容量和处理时间。缺点是不够灵活,对垃圾邮件的判别准确度不高。2.2基于规则过滤设置一些过滤规则,这些规则通常有信头分析、群发过滤、关键词精确匹配以及邮件内容中的其它特征。通过查找已有的垃圾邮件的匹配模式来过滤垃圾邮件,这需要依赖开发商不断的更新邮件规则。基于规则过滤方法的优点是规则较易理解和修改、易推广。如SpamAssassin工具,经过合适的参数调整,可以过滤90%的垃圾邮件。其缺点是在规律性不明显的应用领域效果较差。2.3统计过滤方法对邮件内容统计分类过滤

4、方法,过滤正确率高,而且速度很快,是垃圾邮件处理技术中很受欢迎的一种方法。具有广泛的应用前景。如贝叶斯,SVM,KNN,神经网络。2.3.1贝叶斯分类贝叶斯分类基于贝叶斯定理,利用已知的邮件,建立垃圾邮件和非垃圾邮件关键词的贝叶斯概率模型,然后利用该模型判断邮件是否为垃圾邮件。M.Sahami等人早在98年就验证贝叶斯算法在垃圾邮件过滤中成功的应用效果。而朴素贝叶斯分类算法及其变体的发展及其应用。扩展了贝叶斯算法。贝叶斯过滤方法优势表现为:效率较优,对训练样本进行一次扫描,再进行统计分析;占用存储空间少。因此,贝叶斯算法得到广泛应用于现有邮件安全产品中。但

5、他也具有一定的局限性:对训练样本依赖性大,对中文邮件处理效果不显著。基于其优越性,许多学者对基于贝叶斯分类算法进行研究改进,以提高贝叶斯过滤方法的性能。自学习的贝叶斯算法,基于多级属性集规则的贝叶斯分类新算法,基于有监督Bavesian网络,使用一种高斯分布模型的Flexible-Baves模型等通过实验验证有效地提高贝叶斯算法的性能。2.3.2自学习K邻近算法(KNN)KNN基于类比学习,训练样本用n维数值属性描述,每个样本代表一个点。给定一个未知样本,KNN分类法搜索模式空间,找出最接近未知样本的K个训练样本。它是基于要求的或懒散的学习方法,它所存放的

6、样本,直到新样本需要分类时才建立分类,这使得训练集合随着多变的垃圾邮件而随时变化,有利于邮件精确识别。2.3.3神经网络人工神经网络是在对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统,是基于生物学中的神经网络的基本原理而建立的。神经网络的优点在于自适应性、学习能力和大规模平行计算能力。缺点就是消耗大量时间,在处理在线或需快速反馈的问题时不易使用此算法。2.3.4支持向量机(SVM)建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,提供了一个与问题维数无关的刻画函数复杂性的方法,它引入高维特征空间,将输入空间的非线性决

7、策边界转化为高维特征空间的线性决策边界,利用线性函数的对偶核,解决了数值优化的二次规划求解问题,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力,在两类分类问题上效果最佳。垃圾邮件分类,可看作简单两类分类问题,垃圾及非垃圾邮件两类。Drucker将线性SVM用于垃圾邮件过滤,得到的结果印证了这一点。采用二值表示的SVM的性能稍高于采用多值表示的SVM。实验证明了,与前面提到的贝叶斯、神经网络算法进行比较,SVM得到结果效果最佳。但计算量大、速度慢、参数选择经验性强、不能得到很优的解决,一般需借助其它方法进行结合弥补。2.4其

8、它垃圾邮件过滤方法垃圾邮件的格式特征多样性,所要应对的反垃圾邮件技

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。