半定嵌入文本聚类算法的研究

半定嵌入文本聚类算法的研究

ID:34171015

大小:4.95 MB

页数:56页

时间:2019-03-03

半定嵌入文本聚类算法的研究_第1页
半定嵌入文本聚类算法的研究_第2页
半定嵌入文本聚类算法的研究_第3页
半定嵌入文本聚类算法的研究_第4页
半定嵌入文本聚类算法的研究_第5页
资源描述:

《半定嵌入文本聚类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、半定嵌入文本聚类算法的研究摘要文本是信息检索领域中数据的基本表示形式。如何从大量文本数据中分析和提取出有用信息,业已成为数据挖掘一个日益流行而且重要的研究课题。文本数据用向量空间模型表示时,由此构造出的文本空间通常具有高维性。在高维空间中,随着维数的增加,数据变得越来越稀疏,造成点与点之间的距离度量失去意义,从而降低了数据簇在高维空间的存在机率,使聚类算法效率下降。因此,针对高维文本数据提出有效的聚类算法具有实际意义。本文着重研究了文本聚类的相关内容,所开展的研究工作主要有:首先,本文深入研究文本聚类的相关理论和关键技术,包括分词、去除停用词操作、文本表示、权重及相

2、似度计算等,为后文的聚类实践打下坚实的基础。其次,本文对文本聚类存在高维稀疏的问题进行分析,重点分析了高维性对文本聚类效果的影响,并对目前的降维技术进行总结,在简单介绍流形学习算法思路的同时对其优点进行简要概括。再次,针对文本聚类存在的问题,本文提出半定嵌入聚类算法(SeIllidefiniteEmbedd吨ClustI嘶ng,SDE.C),算法思想是:首先利用半定嵌入算法对原始文本数据进行非线性维数约简,根据其数据分布找出高维I数据中有意义的低维核结构,然后在低维核空间中进行核聚类分析,最终达到降低文本特征维数和提高聚类质量的目的。在公共数据集上的测试实验和实际中

3、文文本数据集的验证实验结果均表明,该算法是可行的,具有较好的文本聚类质量。最后,针对新提出的半定嵌入文本聚类算法存在计算复杂度较高、计算速度较慢这一缺陷,本文提出一种基于改进ZSDE的聚类算法(Inlproved.J『SDEC)。首先利用最大最小规则对原ZSDE(1aIldIllarkSDE)的标志点选取方式进行改进,以保证算法的稳定性;接着,在保持局部等距和最大化点对间距离和的约束下,通过半定规划求出标志核矩阵,利用标志核矩阵得到高维数据空间的低维嵌入核矩阵,以实现数据非线性降维处理及删减文本特征中的冗余信息,最后在低维核结构中利用核聚类算法对文本进行聚类分析。实

4、验结果表明该算法具有较好的稳定性,在具有和半定嵌入聚类算法相当的聚类质量的同时,聚类速度明显提高。关键词:数据挖掘文本聚类半定嵌入非线性降维ⅡRESEARCHOFTEXTCLUSTERINGALGoRITHMBASEDONSEMIDEFINITEEMBEDDINGABSTRACTHowt0aIlalyze锄de)(仃.actuse丘llillfomation丘DmⅡlel鹕e锄ouIl_tSofte灶da‰h弱becomeaniIlcreausiIl百ypopularandilnportalltresearchtopiciIlda舡miniIlg.Usually,c

5、lllsteriI玛iIl也ehighdimensionalspacehaslowefficiency.111erefore,ag血stmelli曲diIIlensional,propos吨ae航ctiVet嘣clusteringalgori岫hasp瑚ICticalsi嘶ficance.Tllisp叩erfocusesons.tudyil玛廿lebasiccontentofte)【tcluste血g,theI-elatedI.esear.ChworkwhicIhc枷edoutare:Fir瓯tllisp印erfocuseson咖dyingmemeo巧ofte)(t

6、cluste血gandkeytechnolo百es,inclumngsegmematioIl'remoVillgstopwordS,te】【tr印resentation,model,weig灿calculation,similaritycalculation,锄dsoon.Secondly,basedon锄alyziI培theisSuesoflli曲一dimensionalsparseforte)(tclu姗ng,恤sp印erfocusingon廿lee疵ctoflli曲dimensionalforte)(tcl删蜥ng.Andt11es锄et硫e,仳sp印ersu

7、IIlIIlingupnlecu骶ntmetllodsofdimensionali够reduction,partiCul砌ytllem觚ifoldleanliIlgalgori廿lInsaIldme证adValltages.AgaillstⅡ1eproblems证metextclustering,t陆spaperpmposesatextⅢcluSte血galg耐thInb器edonsemidef疏teembeddiI培(SDE—C).ByusiI培SDE,廿lehi曲dimensionalspacearenomiIle砌ydiIllensionali哆reduc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。