欢迎来到天天文库
浏览记录
ID:53908749
大小:788.49 KB
页数:5页
时间:2020-04-27
《中文垃圾邮件变异特征检测研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、研究与开发文章编号:1007—1423(2014)08—0010—05DOI:10.3969~.issn.1007—1423.2014.08.003中文垃圾邮件变异特征检测研究冯劲,张宇清,刘华浩,梁祥超,蔡凯新(华南农业大学信息学院,广州510642)摘要:通过对比垃圾邮件的变化.以及对垃圾邮件制造者目的的分析,总结出中文垃圾邮件特性变异的趋势。针对中文垃圾邮件变异的几个重要特性,以及中文的语言特点,在反垃圾邮件系统中加入拼音转换模块、繁简体转换模块和正则表达式匹配模块。实验结果表明,该方法能够取得较高的垃圾邮件变异特征识别
2、率。关键词:中文垃圾邮件;变异特征;特征提取基金项目:广东省部产学研结合项目(No.2011A090200072)、广东省大学生创新训练计划项目(No.1056412154)0引言提取出相应特征随着Intemet的迅猛发展.电子邮件作为一种快捷1垃圾邮件特征变异方式而经济的通信方式得到快速普及。但泛滥的垃圾邮件自垃圾邮件产生以来.至今已经有了非常大的改耗费邮件服务器资源.影响正常邮件的传输,同时也浪变而且还在不断地改变。虽然我们并不能准确预料到费用户的时间和精力最近发布的2013年中国第二季垃圾邮件会怎样变化.但有由始至今垃圾
3、邮件变化的度反垃圾邮件状况调查结果[1]显示:中国电子邮箱用户目的都没变.所有的改变都是围绕着“如何才能将垃圾平均每周收到垃圾件数量为14.5封.占比37.2O%:手邮件躲避掉垃圾邮件过滤系统的过滤检测,安全地到机邮箱用户平均每周收到垃圾邮件8.5封.占比达收件人的邮箱.完成垃圾邮件的使命”。垃圾邮件的32.9%:企业邮箱平均每周收到垃圾邮件32.2封,占比变异方式主要可以分为以下三种:以逃避系统检测为36.2%。因此,研究邮件自动过滤方法十分重要回。目的的变异.伴随社会环境改变而发生的改变和随着然而.由于垃圾邮件是在不断发展
4、改变的。垃圾邮社会发展而诞生的新类型的垃圾邮件件的信息会进行不断的变异。随着时间的偏移.垃圾邮1.1逃避系统检测的变异件的特征也会不断改变圈一个静态的分类器无法根据在垃圾邮件诞生之后.反垃圾邮件系统也随之而垃圾邮件的变化而变化.无法保证邮件特征提取的成功诞生只要反垃圾邮件还存在.垃圾邮件都会进行不断率因此.一个好的邮件分类器需要能够动态地进行修的变异去躲避反垃圾邮件的追捕就像病毒与杀毒软改和完善特征提取算法阀.以检测变异了的邮件特征。件一样的关系。双方相互博弈.相互竞争。本文研究和实现了中文反垃圾邮件系统中的垃圾反垃圾邮件系统
5、最重要的目的不是为了清除垃圾邮件变异特征检测.通过加入了拼音转换模块、繁简体邮件.而是为了让用户能尽可能地只收到正常的邮件。转换模块和正则表达式匹配模块.使用了较多的标准如果用户发现正常邮件里存在垃圾邮件.可能只会抱库函数和优化算法.增强了系统的识别能力。实验结果怨反垃圾邮件系统还不够强大.但是.如果用户发现自表明.本文的方法能较好地检测垃圾邮件的变异.从中己等待的正常邮件被错误地放到了垃圾箱里.用户很①现代计算机2014.03中三///有可能会发怒。因此,垃圾邮件制造者一般都会尽量将(3)字符集变换垃圾邮件伪装成正常邮件。以
6、企图绕过反垃圾邮件系中文字符集在大陆是用简体,而在台湾、香港都是统。垃圾邮件制造者的伪装包括邮件主题、正文和附用繁体的。当简体跟繁体混合在一起的时候.也是能够件。邮件主题和正文大多数是文本的形式(近年来也开使得系统混淆的简体跟繁体编码上是不同的.哪怕是始有图片形式的邮件正文):代表同个意思.但是在系统层面来说是属于两个不同(1)邮件主题的字。用户在点击一封邮件的时候.首先都会看到邮件(4)拼音汉字互换的主题.主题必须要足够吸引用户才能骗取用户点开这种也是中文邮件特有的。有时候将某个中文词邮件达到目的。因此,主题不但要伪装得可以
7、骗过反垃变成拼音,例如:“发票”。“fa票”,“fa票”,“发票”。假圾邮件系统.还要能够骗过用户。因此主题这部分的伪设有n个字,就能做出种组合。而且,整个编码方式都装相当重要变了。一个中文字符在GBK编码下是两个字节。而在(2)邮件正文utf_8编码下可能是1~3个字节.不同字所占大小不用户在打开文件后,垃圾邮件的目的也就完成了。同。但是,一个字母是用一个ASCII字节表示的,而拼邮件的使命就是让收件人去查看信息。既然点开了邮音是由几个字母拼凑的.并且字不同,拼音也不同。因件。垃圾邮件就没必要再去伪装了。但是在用户接收到此.
8、当将一个中文字符变成拼音的时候.不仅字符集变邮件之前,必须经过反垃圾邮件系统这一关,因此,正了,连组合都发生变化了。例如文件中有“发i’’这样的文只需要能够骗过系统,让系统误以为是正常邮件。中英文混合。假如发件人将发改成fa。那系统是辨别成(3)附件“fai”还是“fai”。
此文档下载收益归作者所有