基于用户行为关系和内容的邮件分类算法的研究与实现

基于用户行为关系和内容的邮件分类算法的研究与实现

ID:35068018

大小:5.21 MB

页数:80页

时间:2019-03-17

基于用户行为关系和内容的邮件分类算法的研究与实现_第1页
基于用户行为关系和内容的邮件分类算法的研究与实现_第2页
基于用户行为关系和内容的邮件分类算法的研究与实现_第3页
基于用户行为关系和内容的邮件分类算法的研究与实现_第4页
基于用户行为关系和内容的邮件分类算法的研究与实现_第5页
资源描述:

《基于用户行为关系和内容的邮件分类算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、去击种成*葦UNIVERSITYOFELECTRONICSCENCEANDTECHNOLOGYOHfMAIFCI硕±学位论文MASTERTHESIS心1細决。料瞩^於嚷明/輕叙'论文题目基于用户行为关系和内容的邮件分类算法的研究与实现学科专业计算机软件与理论-学号201321060266作者姓名宋洪正指导教师周惚倍副謝受独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加W标注和致谢的地方夕h,论文中不包含其

2、他人己经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使巧过的材料。与我■-同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。义作者签名:t氷日期:2^日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复巧件和磁蟲,允许论文被查阅和借阅。本人授权电子科技大学可レッ将学位论文的全部或部分内容编入有关数据库进行检索i,可y?采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)伯/

3、唤作者签名:i义i导师签名:气曰期:从/分类号密级注1UDC学位论文基于用户行为关系和内容的邮件分类算法的研究与实现(题名和副题名)宋洪正(作者姓名)指导教师周俊临副教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2016.03论文答辩日期2016.05.16学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号ResearchandImplementationofClassificationAlgorithmBasedonMessageContentandUserBehavior

4、RelationshipAMasterDissertationSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerSoftwareandTheoryAuthor:SongHongzhengAdvisor:ZhouJunlinSchool:SchoolofComputerScience&Engineering摘要摘要邮件在人类通信上的地位越来越重要了,在给人们带来便利的同时,也使得人们不得不花费大量时间来处理大量的邮件。随着邮件的普及,人们在处理邮件上花费的人力和财力就越来越多。因此构造一种

5、新的有效的邮件分类算法就变得尤为迫切。本文研究的主要问题是邮件分类,该问题的重点在于训练数据集不平衡。不平衡数据分类是最近几年的比较热门的问题,所谓不平衡数据集是指不同类别的数据在数量存在巨大的差距。不平衡数据集会导致在分类过程中,分类器偏向数量比较多的类别。对于我们更想获取的数量较少的类别无法有效的识别。针对数据不平衡问题,目前比较流行的解决方法有两种:改变数据分布和调整分类算法。本文结合这两种方法,提出了一个多层次的分类器算法,该算法结合邮件内容和用户行为关系。该算法通过一级级的过滤,不断的降低样本的不平衡性,最终在最后一级实现数据的相对平衡。另外,现在的邮件分类算法一般是针对邮

6、件内容的,忽略了邮箱地址在邮件分类中的作用,实际上,同一封邮件由不同的人发送给我们,由于发件人与收件人关系,这些邮件会被区别对待。因此在本文中,充分的考虑了邮箱地址对信息,结合用户行为关系和内容对邮件进行分类。在算法的实现过程中,使用了很多传统的机器学习的分类算法,比如朴素贝叶斯、支持向量机,随机森林等算法。利用邮箱地址对训练生成的分类器模型,结合生成基于邮件内容的多层次邮件分类器实现了对不平衡邮件的分类,并且取得了相对较好的效果。关键词:邮件分类,不平衡数据集,多层次分类器,置信度,随机森林,支持向量机,朴素贝叶斯IABSTRACTABSTRACTEmailismoreandmor

7、eimportantinhumancommunication.Whileitbringsconveniencetopeople,alsomakespeoplehavetospendalotoftimetodealwithalotofmails.Withthepopularityofe-mail,peoplehavetospendmoreandmoreresourcesofhumanandfinancialondealingwithe-mails.There

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。