含倾斜文字的图像垃圾邮件过滤技术研究_王忠桃

含倾斜文字的图像垃圾邮件过滤技术研究_王忠桃

ID:34512057

大小:166.91 KB

页数:3页

时间:2019-03-07

含倾斜文字的图像垃圾邮件过滤技术研究_王忠桃_第1页
含倾斜文字的图像垃圾邮件过滤技术研究_王忠桃_第2页
含倾斜文字的图像垃圾邮件过滤技术研究_王忠桃_第3页
资源描述:

《含倾斜文字的图像垃圾邮件过滤技术研究_王忠桃》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、总第247期计算机与数字工程Vol.38No.52010年第5期Computer&DigitalEngineering111*含倾斜文字的图像垃圾邮件过滤技术研究王忠桃岳焱彭鑫(成都理工大学网络教育学院成都610059)摘要垃圾邮件制造者采用图像来隐藏垃圾信息,把文字隐藏在图像中并带一定的倾斜。在对含有倾斜文字的图像邮件深入分析后,针对图片中含有倾斜文字的垃圾邮件,文章给出了一种在进行OCR识别之前对图像进行hough变换,并结合支持向量机识别垃圾邮件的算法,实验结果表明,该方法具有比较满意的过滤效果。关键词图像垃圾邮件;Hough变换;光学字符识别

2、;支持向量机中图分类号TP391.41ResearchonImagewithSkewDocumentSpamFilteringTechnologyWangZhongtaoYueYanPengXin(ChengduUniversityofTechnologyInternetEducationInstitution,Chengdu610059)AbstractSpammersuseimagestohidethespam,thetextishiddeninimages,andwithacertaindegreeofskew.Thispapergiveindepth

3、analysisofimagescontainingskewdocument.AmethodthatpriortoOCRrecognitionimageshoughtransform,combinedwithsupportvectormachinealgorithmforspamrecognitionhasbeenpresented.Experimentalresultsshowthatthismethodhassatisfactoryfilteringeffect.KeyWordsimagespam,houghtrasformation,opticalcharact

4、errecognition,supportvectormachineClassNumberTP391.41迷惑基于文本的垃圾邮件过滤器,图像垃圾邮件占1引言据了Internet流量的三分之一。随着Internet的发展,电子邮件已成为一种常图像垃圾邮件随着反垃圾邮件技术的变化不用的通讯方式。但由于其成本低廉、传播迅速,In断演进。当图像垃圾邮件刚刚出现,垃圾邮件制造ternet上出现了越来越多的不被请求的邮件,即垃者只是简单地把垃圾信息嵌入到图像当中,而没有圾邮件。这些不受欢迎的垃圾邮件使用户不得不采用其他技术进行处理。采用唯一签名技术和花费大量的时间和精力来处理

5、它们,从而严重影响OCR(OpticalCharacterRecognition,光学字符识了用户对电子邮件的正常使用。国内外许多学者别技术)可以识别此类垃圾图像。为了逃避过滤技进行了大量研究,并提出了一些垃圾邮件过滤解决术,垃圾图像开始趋于多样化,垃圾邮件制造者利方案。这些方案通常都是把垃圾邮件过滤问题看用模板和随机化处理技术构建了各式各样的垃圾作是文本的分类而采取不同的机器学习技术来解图像,如内容模糊、旋转、移位、变换字体、颜色,增决问题。邮件内容的类型由纯文本逐渐转换为嵌加图像过滤技术难度。目前的图像垃圾邮件过滤入图像、声音等的非文本,合法邮件发送者将加入技术有根

6、据图像属性进行过滤,利用垃圾图像的简多媒体信息(特别是图像)来丰富仅含文本的邮件,单属性,如大小、高度、宽度以及高宽比等进行垃圾而垃圾邮件制造者也采用图像来隐藏垃圾信息以图像过滤,这种方法的优点是计算简单、快速,缺点*收稿日期:2010年1月7日,修回日期:2010年2月3日基金项目:成都理工大学青年基金资助。作者简介:王忠桃,女,硕士,助教,研究方向:信息安全、人工智能、数据挖掘。112王忠桃等:含倾斜文字的图像垃圾邮件过滤技术研究第38卷是误判率比较高;还有是根据图像的内容进行过(x,y),对每取一个值,利用公式=xcos+滤,比如利用图像中的文字信息,或者

7、利用图像的ysin计算的值,并对其相应的(,)计数值加1。颜色、纹理、形状等来过滤垃圾邮件,这种方法的优步骤4遍历(,)变换域,找到计数值最大的[1~2]点是识别率高,缺点是计算量较大。(,),返回值作为这个标记值为v的区域的倾斜为了获得高的垃圾邮件召回率角。并以倾斜角分别为和90+的两簇平行线和识别效率,在分析了大量包含图扫描区域的轮廓,获得该区域的最小外接矩形。图像的垃圾邮件后,针对图片中含有2和图3分别为倾斜文字和校正后的文字。倾斜文字的垃圾邮件,本文给出了一种在进行OCR识别之前对图像图1图像邮件进行预

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。