中文垃圾邮件过滤方法的研究

中文垃圾邮件过滤方法的研究

ID:35039263

大小:5.39 MB

页数:60页

时间:2019-03-16

中文垃圾邮件过滤方法的研究_第1页
中文垃圾邮件过滤方法的研究_第2页
中文垃圾邮件过滤方法的研究_第3页
中文垃圾邮件过滤方法的研究_第4页
中文垃圾邮件过滤方法的研究_第5页
资源描述:

《中文垃圾邮件过滤方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:学校代码:10140密级:公开学号:4031331946@座專乂fLIAONINGUNIVERSITY硕±学位论文THESISFORM乂STERDEGREE论文题目:中文垃圾邮件过滤方法的研究searchn.neseamernReoChiSpFihigMe化od英文题目:论文作者:魏如玉王青松副教授指导教师:专业:计算机系统结构二Q一六年五月完成时间:申请迂宁大学硕±学位论文中文垃圾邮件过滤方法的研究ResearchonChineseSamFilterin

2、Methodpg作者:魏如玉指导教师:王青松副教授专业二计算机系统结构答辩日期:2016年5月26日二0—六年五月?中国辽宁迂宁大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下独立完成的。论文中取得的研究成果除加W标注的内容外,不包含其他个人或集体已经发表或撰写过的研究成果,不包含本人为获得其他学位而使用过的成果。对本文的研究做出重要贡献的个人和集体均已在文中进行了标注,并表示谢意。本人完全意识到本声明的法律结果由本人承担。、学位论文作者签名:若年备月^日学位论文版权使

3、用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交学位论文的原件、复印件和电子版,允许学位论文被查阅和借阅。本人授权迂宁大学可W将本学位论文的全部或部分内容编入有关数据库进行检索,可[^采用影印、缩印或扫描等复制手段保存和汇编学位论文。同时授权中国学术期刊(光盘版)电子杂志社将本学位论文收录到《中国博±学位论文全文数据库》和《中国优秀硕±学位论文全文数据库》并通过网络向社会公众提供信息服务。学校须按照授权对学位论文进。行管理,不得超越授权对学位论文进行任意处理保密(),在年

4、后解密适用本授权书。(保密:请在括号内_",’划V)授权人签名;指导教师签名:日期:作《月化日期:心扁月川?摘要目前垃圾邮件给人们的生活造成了越来越恶劣的影响,对于我国这样人口,在处理垃圾邮件问题上浪费了更多的人力物力基数大的邮件发送接收大国。在众多的反垃圾邮件技术中,朴素贝叶斯垃圾邮件过滤方法W其运算速度快、易于实现等特点而被广泛应用。这种技术在过滤过程中,必不可少的环节是分词和特征项提取。目前大部分面向中文的垃圾邮件过滤方法中,分词过程往往实现复杂;当面对的是大规模的邮件训练样本时,W词语作为文本的特征一项单

5、位,这种算法的时间效率会成为邮件过滤技术中的个瓶颈在特征;另外项提取时现有的特征评估函数并不完全符合垃圾邮件的特点,所提取出来的特征项对文本并没有足够的代表能力。针对这种现状,本文W提高中文垃圾邮件过滤性能为目标,做了较为深入的研究,主要工作如下:一1在预处理的分词阶段,提出种W基本短语为单位的分词方法。使用TRIE树结构为词典载体,将TRIE树与正向最大匹配原则配合使用,然后结合文本分类领域的短语分析方法,利用基本名词短语、基本动词短语等语义分析方面的限定将向量空间中从词语模式转换成基本短语模式。这种方法可W使分词在精度和效率都达

6、到更好的效果。2在特征项提取阶段结合垃圾邮件的特点,提出改进的互信息特征评估函数,用于特征项提取。改善正负相关、忽略词频和趋向低频词、不同位置的特征项对类别界定贡献能力不同的问题,这种方法可在大大缩减特征向量空间维数的同时也保证提取出的特征项对文本有更强的代表能力。3运用朴素贝叶斯垃圾邮件过滤算法进行仿真实验,实验结果验证了利用TRIE树和最大匹配原则结合进行分词能够提高分词效率,用基本短语代替词作为特征项单位能够缩减向量空间的维数,运用改进的特征评估函数能够提高过滤性能,改进的朴素贝叶斯方法在查重率、查准率等各方面上都有更好的表现

7、。:中文垃圾邮件过滤关键词,贝叶斯,TRIE树,基本短语,特征项提取IAbstractABSTRACTAniincireasinnumberofsamhasbrouhtreatinconvenience化eoksdailgpggppytruchareouaonwareli反.虹termsofourcounysalltiithatnumberofemails化,gppgsendandKceive,moreresourceswillbewastedindealiniths

8、am.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。