基于主题模型的垃圾邮件过滤系统的设计

基于主题模型的垃圾邮件过滤系统的设计

ID:23516918

大小:1.55 MB

页数:92页

时间:2018-11-08

基于主题模型的垃圾邮件过滤系统的设计_第1页
基于主题模型的垃圾邮件过滤系统的设计_第2页
基于主题模型的垃圾邮件过滤系统的设计_第3页
基于主题模型的垃圾邮件过滤系统的设计_第4页
基于主题模型的垃圾邮件过滤系统的设计_第5页
资源描述:

《基于主题模型的垃圾邮件过滤系统的设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级公开硕士研究生学位论文基于主题模型的垃圾邮件过滤系统的设计申请人:杨平学号:2151317培养单位:电子工程学院专业:模式识别与智能系统研究方向:智能检测与模式识别指导教师:刘明亮教授完成日期:2018年4月1日中文摘要电子邮件作为一种信息传递的方式,得益于其方便、快捷、低成本等特性,拥有庞大的用户群体,特别在企业、学校、政府部门中,电子邮件功能已经被集成到各自的OA系统中。但由于垃圾邮件的大量出现,产生了一系列的问题。对邮件服务提供商而言,垃圾邮件不仅会占用大量的网络带宽和服务器

2、的存储空间,还增加了服务器处理时间;对于用户而言,阅读垃圾邮件不仅会浪费时间,其内容可能会给用户带来潜在的危害。因此,对垃圾邮件有效的检测和过滤技术的研究就显得尤为重要。首先,本文对文本表示模型进行了研究,分析了布尔模型、向量空间模型的原理及其优缺点。在传统文本表示模型的基础之上,引入一种基于语义分析的文本表示模型-Word2vec。考虑到LDA模型可生成文本的主题信息,结合Word2vec和LDA模型,提出一种新的邮件文本特征提取算法。该算法提取的特征中包含着词的语义、语法、位置等词的深层特征信

3、息,且这些特征对文本的分类更有效。其次,对传统的KNN算法进行改进,在选取前k个样本时,仅在与测试样本主题相似的文本中选取。这样有效的解决了当样本规模较大时,KNN算法时间复杂度较高的问题。此外,对传统的SVM算法进行了优化,在模型中引入MGD算法、字符串核函数,不仅解决了传统模型中参数可能会陷入局部最优解的问题,同时也加快了模型的收敛速度。实验结果表明,改进后的KNN和SVM算法在准确率和召回率参数上得到了明显的提升。最后,基于JavaMail开发了一个邮件过滤系统,并将基于主题模型的邮件过滤算

4、法移植到此系统中。邮件系统不仅提供邮件收发、邮件代收、邮件查询等基础功能,而且还提供了垃圾邮件检测、邮件智能分类等高级功能。与现有的邮件系统相比,它不仅提升了垃圾邮件检测的精度,而且还能根据邮件的内容对邮件自动分类,方便用户阅读。-I-关键词:垃圾邮件过滤;主题模型;文本建模;Word2vec;LDA-II-AbstractAsawayoftransmissionofinformation,e-mailisbenefitedfromitsconvenience,fast,lowcostandsoo

5、n.Ithasalargegroupofusers,especiallyinenterprises,schoolsandgovernmentdepartments,andthee-mailfunctionhasbeenintegratedintotheirownOAsystems.However,duetothelargenumberofspam,aseriesofproblemshaveemerged.Formailserviceproviders,spamwillnotonlyoccupyal

6、argenumberofnetworkbandwidthandserverstoragespace,butalsoincreasetheprocessingtimeoftheserver.Forusers,readingspamisnotonlyawasteoftime,butitscontentmaybringpotentialdangertousers.Therefore,itisveryimportanttostudytheeffectivedetectionandfilteringtech

7、nologyofspam.Firstly,thispaperstudiesthetextrepresentationmodel,analyzestheprincipleofBooleanModel,VectorSpaceModelanditsadvantagesanddisadvantages.Onthebasisoftraditionaltextrepresentationmodel,atextrepresentationmodelbasedonsemanticanalysisisintrodu

8、ced--Word2vec.ConsideringthattheLDAmodelcangeneratetopicinformationoftexts,anewmailtextfeatureextractionalgorithmisproposedbasedonWord2vecandLDAmodels.Theextractedfeaturesofthealgorithmcontainthedeepfeatureinformationofwords,suchassemantics,gr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。