基于统计的垃圾邮件过滤器的设计与实现.doc

基于统计的垃圾邮件过滤器的设计与实现.doc

ID:52686770

大小:741.50 KB

页数:34页

时间:2020-03-29

基于统计的垃圾邮件过滤器的设计与实现.doc_第1页
基于统计的垃圾邮件过滤器的设计与实现.doc_第2页
基于统计的垃圾邮件过滤器的设计与实现.doc_第3页
基于统计的垃圾邮件过滤器的设计与实现.doc_第4页
基于统计的垃圾邮件过滤器的设计与实现.doc_第5页
资源描述:

《基于统计的垃圾邮件过滤器的设计与实现.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、杭州电子科技大学本科毕业设计摘要随着Internet的发展,电子邮件已成为用户最便捷和经济的交流方式之一,由于发送电子邮件非常容易、成本又非常之低,使得电子邮件成为一种电子化的手段被人利用,垃圾邮件制造者出于商业性或其它各种目的而大量向用户发送电子邮件。我们呼吁有关人士必须逐渐从立法、行政和规范角度出发采取全面有效的措施,但目前主要依靠的还是反垃圾邮件技术。典型的邮件过滤技术有黑白名单、规则过滤、概率统计分类等。为了降低误判,更好的适应多变和形式多样的垃圾邮件,本文采用基于统计(Bayes算法)的反垃圾邮件技术。利用已

2、知的邮件,建立垃圾邮件和非垃圾邮件关键词的贝叶斯概率模型,然后利用该模型判断邮件是否为垃圾邮件。为了提高过滤模块性能,本系统采用支持首字Hash的分词算法。对于词首字的查找,根据汉字机内码编码规律,GB2312编码表中的每一个汉字在首字Hash表中都有唯一的一项与其对应。关键词:Bayes算法;邮件过滤;反垃圾邮件杭州电子科技大学本科毕业设计ABSTRACTWiththedevelopmentofInternet,e-mailhasbecometheuserthemostconvenientandeconomicalm

3、eansofcommunicationisoneofveryeasyassendinge-mail,thecostandverylow,makingthee-mailasameansofbeingused,spammanufacturerforcommercialpurposesoralargenumberofvariousothere-mailtotheuser.Wecallonpeopletobegraduallyshiftedfromthelegislative,administrativeandnormativ

4、epointofviewtotakecomprehensiveandeffectivemeasures,butstillrelymainlyontheanti-spamtechnology.Thetypicalblackandwhitelistofemailfilteringtechnology,rulesfiltering,probabilityandstatisticsclassification.Inordertoreducefalsepositivesandbetteradapttochanginganddiv

5、erseformsofspam,thispaper,basedonstatistics(Bayesalgorithm)oftheanti-spamtechnology.Usingtheknowne-mail,theestablishmentofspamandnon-Bayesianspamprobabilitymodelkeywordsandthenusethemodeltodeterminewhetherthemessageisspam.Toimprovetheperformanceoffiltermodules,t

6、hesystemusestosupportthefirstsub-wordwordHashAlgorithm.Findthefirstwordforword,accordingtoChineselawmachinecoding,GB2312encodingtableinthefirstwordofeachcharacterhasauniqueHashtablewiththecorrespondingone.Keywords:Bayesalgorithm;mailfiltering;anti-spam杭州电子科技大学本科

7、毕业设计目录1绪论11.1论文背景11.2课题研究的意义21.3课题研究的主要内容21.4本文的主要结构22电子邮件相关内容42.1电子邮件系统42.2电子邮件相关的协议52.3电子邮件常用的编码标准73需求分析和系统设计103.1需求分析103.2系统的流程103.3系统相关技术介绍113.4系统框架143.5系统设计144基于Bayes的反垃圾邮件系统实现174.1预处理模块的实现174.2过滤模块的实现194.3数据模块中对汉语字典的加载235测试及测试结果显示245.1主界面介绍245.2训练245.3选择测试

8、邮件255.4测试结果显示265.5添加合法(非法)邮件库27结论29致谢30参考文献3131杭州电子科技大学本科毕业设计1绪论1.1论文背景1.1.1垃圾邮件的现状随着Internet的发展,电子邮件已经成为人们相互交流、获取信息的重要渠道。但是,电子邮件给人们带来诸多方便的同时,也被一些别有用心的人所利用。主观上,垃圾邮件由此

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。