欢迎来到天天文库
浏览记录
ID:34168651
大小:10.48 MB
页数:110页
时间:2019-03-04
《基于模型的文本聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于模型的文本聚类算法研究(申请清华大学工学博士学位论文)培养单位:计算机科学与技术系学科:计算机科学与技术研究生:尹建华指导教师:王建勇教授二〇一七年五月Mode-lbasedAlgorithmsforTextClusteringThesisSubmittedtoTsinhuaUniversitgyinartialfulfillmentofthereuirementpqfortherofessionaldereeofpgDoctor
2、ofPhilosohpybyJianhuaYin(ComputerScienceandTechnology)ThesisSupervisor:ProfessorJianyongWangMa17y,20摘要摘要文本聚类是数据挖掘和机器学习中的重要技术,在事件的发现与跟踪、文档摘要、搜索结果聚类等问题中有广泛的应用。虽然针对文本聚类问题已经有,但是目前依然有许多非常有挑战性的问题需要解决许多研究工作:(1)如何设定簇的数目?是否能够从数据中自动发现簇
3、的数目?(2)如何应对文本的高维问题?(3)如何应对短文本的稀疏性问题?(4)如何得到聚类结果中簇的表示?(5)如何自动发现数据集中的异常文档?(6?)如何高效处理海量数据本文提出了若干个基于模型的文本聚类算法一,可以在定程度上应对以上挑战:1.提出基于狄利克雷多项式混合模型的GSDMM聚类算法。当初始簇的数目大于真实簇的数目时,GSDMM算法可以自动发现簇的数目。GSDMM算法有很快的收敛速度,并且能够很好地平衡聚类结果的完全性和同质性。同时,GSDMM算法能够应对短文本数据的稀疏和高维
4、问题,并且可以得到每个簇的表示。实验表明,GSDMM算法能够获得比其他三个作为对比的聚类算法更好的效果。2.提出基于狄利克雷过程多项式混合模型的GSDPMM聚类算法,作一为GSDMM聚类算法的种改进。在GSDMM算法中,需要假设数据集中簇数目的上限一,在算法的运行过程中,簇的数目逐渐减少,从而达到个稳定值。当假定簇数目的上限低于真实簇的数目时,会影响聚类效果。当假设簇数目的上限远大于真实簇的数目时,会影响算法效率。GSDPMM算法不需要假设簇数目的上限,而是可以从数据中直接学习到簇的数
5、目,而且能够发现数据集中的异常文档。实验表明,GSDPMM聚类算法在短文本和长文本数据集上都能够获得比GSDMM算法及其他算法更好的效果。一3.提出时间复杂度与非空簇的数目成正比的FGSDMM聚类算法,尝试从另种角度解决GSDMM算法的效率问题,以及GSDPMM算法缺少对簇数目控一制的问题。提出基于在线聚类思想的FGSDMM+聚类算法,给出了种更加合理的初始化方法,能够提高FGSDMM算法的效率和效果。实验表明,当假设簇数目的上限足够大时,FGSDMM+聚类算法在短文本和长文本数据集上
6、都能够获得比其他聚类算法更好的效果。关键词:文本聚类;吉布斯采样;狄利克雷混合模型;狄利克雷过程混合模型IAbstractAbstractTextclusteringisanimportanttechniqueindataminingandmachinelearning,andwidelusedinalicationssuchastoicdetectionandtrackindocumentsummarizationy,,pppgandsea
7、rchresultsclustering.Althoughmanystudieshavebeendoneontextclustering,therearestillmanychallengingroblemstobesolved:(1)Howtosetthenumberofpclusters?Canwelearnitfromthedataset?2Howtodealwiththehih-dimensional()gproble
8、moftextclustering?(3)Howtodealwiththesarseroblemofshorttext?4Howpp()toobtainoodreresentationoftheclusters?(5)Howtodetecttheoutlierdocuments?g
此文档下载收益归作者所有