小文本聚类技术及其在电子邮件中的应用研究

小文本聚类技术及其在电子邮件中的应用研究

ID:33414314

大小:8.99 MB

页数:75页

时间:2019-02-25

小文本聚类技术及其在电子邮件中的应用研究_第1页
小文本聚类技术及其在电子邮件中的应用研究_第2页
小文本聚类技术及其在电子邮件中的应用研究_第3页
小文本聚类技术及其在电子邮件中的应用研究_第4页
小文本聚类技术及其在电子邮件中的应用研究_第5页
资源描述:

《小文本聚类技术及其在电子邮件中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级学位论文小文本聚类技术及其在电子邮件中的应用研究作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:戴景波杨晓春教授东北大学计算机软件研究所硕士学科类别:工学计算机软件与理论2011年6月论文答辩日期:2011年6月2011年7月答辩委员会主席:王大玲王大玲石祥滨东北大学2011年6月ResearchonShortTextClusteringTechniquesandtheApplicationsonEmailsbyDaiJingboSupervisor:ProfessorYangXiao

2、chunNortheasternUniversityJune2011独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过、勺研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示{身j意。学位论文作者签名:诫泉濮日期:加JJ务0目w19学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允

3、许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年/一年半口两年口二位论文作者签名:裁景煅签字日期:如11昂6目卯d导师签名:签字日期:p}1竿硐≯∽}l东北大学硕士学位论文摘要小文本聚类技术及其在电子邮件中的应用研究摘要信息数据量的目益膨胀给数据处理带来了一定的挑战,据统计约70%的网络信息是以文本形式显现的。然而,此类信息数量很多而且杂乱,聚类技术能够在一定程度上对这些信息进行重新分类和组织。文本聚类是数据挖掘领域的一项重要技术,主

4、要的依据假设是:相同类文档的相似度较大,而不同类文档的相似度较小。同时,很多邮件和微博等内容大多以小文本的形式存在,其信息量大且更新速度较快。如何高效准确地处理小文本聚类变得至关重要。由于小文本相对于通常的文本所包含的信息量较少,大多数词并非能够完全表征小文本的特点,因而导致直接采用传统文本的自然语言处理技术来处理小文本效果欠佳。如何获取小文本的特征,并基于此进行聚类成为越来越受关注的课题。本文研究了小文本聚类问题,介绍了针对邮件小文本的聚类方法。首先介绍了小文本标准化思想构造特征词集来降低小文本的高维度;其次提出了EJaccard衡量

5、小文本的内部聚合度;再次对k-means聚类算法进行了改进,先采用简单直观的层次聚类算法,解决了对原始信息依赖性问题,又对层次聚类进行了改进,通过控制给定阈值进而自动控制簇的数值;最后针对Email小文本数据,提出了局部聚类算法,有效的解决了小文本中不同内容的划分问题,同时提出了全局聚类算法,主要解决的关键问题是使得一个讲述两个以上内容的Email小文本能够被聚类到不同的簇中。针对Email小文本数据集,本文对局部聚类和全局聚类方法的实验结果加以分析,提出的方法可以有效地增大聚类结果局部和全局的差异性,从而改善了小文本的聚类效果。关键词

6、:小文本聚类:数据挖掘:相似度;k-means聚类:电子邮件东北大学硕士学位论文摘要..III..ResearchonShortTextClusteringTechniquesandtheApplicationsonEmailsAbstractTheamountofinformationdataincreasesexponentiallNwhichbringsgreatchallengestotheworkofdataprocessing.Statisticsshowthatabout70%ofthenetworkinformation

7、isrevealedintheformoftext.Howevegsuchinformationisoftenmessy,toacertainextent,clusteringtechnologyhelpreclassifyandsorttheinformation.Textclusteringisallimportantfieldindataminingarea,whichmainlybasedONtheassumptionsthatthetextsinthesameclustermightbesimilar,whereastexts

8、indifferentclustersaregeneraldissimilar.Also,manye.mailsandmicrobloggingsareinformativeandupdatefast,an

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。