资源描述:
《基于主题模型的垃圾邮件过滤系统的设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号UDC密级公开硕士研究生学位论文基于主题模型的垃圾邮件过滤系统的设计申请人:杨平学号:2151317培养单位:电子工程学院专业:模式识别与智能系统研究方向:智能检测与模式识别指导教师:刘明亮教授完成日期:2018年4月1日中文摘要电子邮件作为一种信息传递的方式,得益于其方便、快捷、低成本等特性,拥有庞大的用户群体,特别在企业、学校、政府部门中,电子邮件功能已经被集成到各自的OA系统中。但由于垃圾邮件的大量出现,产生了一系列的问题。对邮件服务提供商而言,垃圾邮件不仅会占用大量的网络带宽和服务器
2、的存储空间,还增加了服务器处理时间;对于用户而言,阅读垃圾邮件不仅会浪费时间,其内容可能会给用户带来潜在的危害。因此,对垃圾邮件有效的检测和过滤技术的研究就显得尤为重要。首先,本文对文本表示模型进行了研究,分析了布尔模型、向量空间模型的原理及其优缺点。在传统文本表示模型的基础之上,引入一种基于语义分析的文本表示模型-Word2vec。考虑到LDA模型可生成文本的主题信息,结合Word2vec和LDA模型,提出一种新的邮件文本特征提取算法。该算法提取的特征中包含着词的语义、语法、位置等词的深层特征信
3、息,且这些特征对文本的分类更有效。其次,对传统的KNN算法进行改进,在选取前k个样本时,仅在与测试样本主题相似的文本中选取。这样有效的解决了当样本规模较大时,KNN算法时间复杂度较高的问题。此外,对传统的SVM算法进行了优化,在模型中引入MGD算法、字符串核函数,不仅解决了传统模型中参数可能会陷入局部最优解的问题,同时也加快了模型的收敛速度。实验结果表明,改进后的KNN和SVM算法在准确率和召回率参数上得到了明显的提升。最后,基于JavaMail开发了一个邮件过滤系统,并将基于主题模型的邮件过滤算
4、法移植到此系统中。邮件系统不仅提供邮件收发、邮件代收、邮件查询等基础功能,而且还提供了垃圾邮件检测、邮件智能分类等高级功能。与现有的邮件系统相比,它不仅提升了垃圾邮件检测的精度,而且还能根据邮件的内容对邮件自动分类,方便用户阅读。-I-关键词:垃圾邮件过滤;主题模型;文本建模;Word2vec;LDA-II-AbstractAsawayoftransmissionofinformation,e-mailisbenefitedfromitsconvenience,fast,lowcostandsoo
5、n.Ithasalargegroupofusers,especiallyinenterprises,schoolsandgovernmentdepartments,andthee-mailfunctionhasbeenintegratedintotheirownOAsystems.However,duetothelargenumberofspam,aseriesofproblemshaveemerged.Formailserviceproviders,spamwillnotonlyoccupyal
6、argenumberofnetworkbandwidthandserverstoragespace,butalsoincreasetheprocessingtimeoftheserver.Forusers,readingspamisnotonlyawasteoftime,butitscontentmaybringpotentialdangertousers.Therefore,itisveryimportanttostudytheeffectivedetectionandfilteringtech
7、nologyofspam.Firstly,thispaperstudiesthetextrepresentationmodel,analyzestheprincipleofBooleanModel,VectorSpaceModelanditsadvantagesanddisadvantages.Onthebasisoftraditionaltextrepresentationmodel,atextrepresentationmodelbasedonsemanticanalysisisintrodu
8、ced--Word2vec.ConsideringthattheLDAmodelcangeneratetopicinformationoftexts,anewmailtextfeatureextractionalgorithmisproposedbasedonWord2vecandLDAmodels.Theextractedfeaturesofthealgorithmcontainthedeepfeatureinformationofwords,suchassemantics,gr