基于模型的文本聚类算法研究

基于模型的文本聚类算法研究

ID:34168651

大小:10.48 MB

页数:110页

时间:2019-03-04

基于模型的文本聚类算法研究_第1页
基于模型的文本聚类算法研究_第2页
基于模型的文本聚类算法研究_第3页
基于模型的文本聚类算法研究_第4页
基于模型的文本聚类算法研究_第5页
资源描述:

《基于模型的文本聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于模型的文本聚类算法研究(申请清华大学工学博士学位论文)培养单位:计算机科学与技术系学科:计算机科学与技术研究生:尹建华指导教师:王建勇教授二〇一七年五月Mode-lbasedAlgorithmsforTextClusteringThesisSubmittedtoTsinhuaUniversitgyinartialfulfillmentofthereuirementpqfortherofessionaldereeofpgDoctor

2、ofPhilosohpybyJianhuaYin(ComputerScienceandTechnology)ThesisSupervisor:ProfessorJianyongWangMa17y,20摘要摘要文本聚类是数据挖掘和机器学习中的重要技术,在事件的发现与跟踪、文档摘要、搜索结果聚类等问题中有广泛的应用。虽然针对文本聚类问题已经有,但是目前依然有许多非常有挑战性的问题需要解决许多研究工作:(1)如何设定簇的数目?是否能够从数据中自动发现簇

3、的数目?(2)如何应对文本的高维问题?(3)如何应对短文本的稀疏性问题?(4)如何得到聚类结果中簇的表示?(5)如何自动发现数据集中的异常文档?(6?)如何高效处理海量数据本文提出了若干个基于模型的文本聚类算法一,可以在定程度上应对以上挑战:1.提出基于狄利克雷多项式混合模型的GSDMM聚类算法。当初始簇的数目大于真实簇的数目时,GSDMM算法可以自动发现簇的数目。GSDMM算法有很快的收敛速度,并且能够很好地平衡聚类结果的完全性和同质性。同时,GSDMM算法能够应对短文本数据的稀疏和高维

4、问题,并且可以得到每个簇的表示。实验表明,GSDMM算法能够获得比其他三个作为对比的聚类算法更好的效果。2.提出基于狄利克雷过程多项式混合模型的GSDPMM聚类算法,作一为GSDMM聚类算法的种改进。在GSDMM算法中,需要假设数据集中簇数目的上限一,在算法的运行过程中,簇的数目逐渐减少,从而达到个稳定值。当假定簇数目的上限低于真实簇的数目时,会影响聚类效果。当假设簇数目的上限远大于真实簇的数目时,会影响算法效率。GSDPMM算法不需要假设簇数目的上限,而是可以从数据中直接学习到簇的数

5、目,而且能够发现数据集中的异常文档。实验表明,GSDPMM聚类算法在短文本和长文本数据集上都能够获得比GSDMM算法及其他算法更好的效果。一3.提出时间复杂度与非空簇的数目成正比的FGSDMM聚类算法,尝试从另种角度解决GSDMM算法的效率问题,以及GSDPMM算法缺少对簇数目控一制的问题。提出基于在线聚类思想的FGSDMM+聚类算法,给出了种更加合理的初始化方法,能够提高FGSDMM算法的效率和效果。实验表明,当假设簇数目的上限足够大时,FGSDMM+聚类算法在短文本和长文本数据集上

6、都能够获得比其他聚类算法更好的效果。关键词:文本聚类;吉布斯采样;狄利克雷混合模型;狄利克雷过程混合模型IAbstractAbstractTextclusteringisanimportanttechniqueindataminingandmachinelearning,andwidelusedinalicationssuchastoicdetectionandtrackindocumentsummarizationy,,pppgandsea

7、rchresultsclustering.Althoughmanystudieshavebeendoneontextclustering,therearestillmanychallengingroblemstobesolved:(1)Howtosetthenumberofpclusters?Canwelearnitfromthedataset?2Howtodealwiththehih-dimensional()gproble

8、moftextclustering?(3)Howtodealwiththesarseroblemofshorttext?4Howpp()toobtainoodreresentationoftheclusters?(5)Howtodetecttheoutlierdocuments?g

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。