欢迎来到天天文库
浏览记录
ID:46616914
大小:604.33 KB
页数:5页
时间:2019-11-26
《一种基于潜在语义索引的谱聚类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第29卷第3期2011年6月中国民航大学学报JOURNALOFCIVILAVIATIONUNIVERSITYOFCHINAV01.29NO.3June20“一种基于潜在语义索引的谱聚类方法研究冯霞l’2,闰冠男1,李娟娟1(1.中国民航大学计算机科学与技术学院,天津300300;2.中国民航信息技术科研基地,天津300306)摘要:传统的文本聚类算法存在文本向量维度过高,算法易陷入局部最优问题。针对上述问题,提出了一种适用于文本的基于潜在语叉索引的谱聚类方法。该方法应用了潜在语义索引和谱聚类方法的优点.不仅分析了词与词
2、之间的语义关系.而且适用于任意形状分布的样夯数据聚类。针对航空安全报告的聚类实验表明。该方法取得了较好的聚类效果。关键词:文本聚类;潜在语义索引;奇异值分解;谱聚类中图分类号:TP391文献标识码:A文章编号:1674—5590{2011)03卸1047_05ResearchonSpectralClusteringBasedonLatentSemanticIndexingFENGXial”,YANGuan-nanl,LIJuan-j蝴1(1.cD如护ofComputerScienceandTechnology,CAUC
3、,Tianjin300300,China;2.InformationTechnologyResearchBase,CivilAviationAdministrationofChina,Tianjin300300,China)Abstract:Thereisaproblemthatthetextvectordimensionistoohighandthealgorithmiseasytofallintolocaloptimumproblemintraditionaltextclustering.Aboutthisprob
4、lem,thispaperpresentsaspectralclusteringmethodbasedonLatentSemanticIndex(LSI),whichUSeStheadvantagesofboth.Notonlyanalyzedthewordsandsemanticrelationsbetweenwords,butalsoappliestoanyshapeofthedistributionofsampledataclustering.Theclusteringexperimentofaviationsa
5、fetyreportshowsthatthismethodhasagoodclusteringresult.Keywords:textclustering;LSI;SVD;spectralclustering文本聚类分析是自然语言处理和文本数据挖掘的重要内容和手段,在信息检索等许多方面有着广泛的应用。其依据著名的“聚类假设”:同类文档相似度较大,不同类文档相似度较小。目前文本聚类主要采用向量空间模型表示文本,用K—means、EM等传统的算法实现聚类。在向量空间模型中,文本被看作是由一组正交词条所组成的向量,随着文档集
6、的增多,文本向量的维度会几何级增加,影响聚类效果。而传统聚类算法对非凸形分布样本又易陷入局部最优。针对上述问题,本文研究如何在潜在语义索引基础上应用谱聚类方法,实现对任意分布的高维样本聚类。1国内外研究现状文本聚类在信息检索等许多方面有着广泛的应用,较早可追溯到IR领域中利用文本聚类提高信息检索系统的准确性11I。当前文本聚类也被用于话题检测与跟踪(TDT,TopicDetectionandTracking)lZ'31。近年来针对文本聚类的研究,代表性的有AndreasHotho等人提出的基于本体(Ontology)的
7、文本聚类方法[41,D.Bo—lev提出的一种主方向划分的层次分裂聚类方法[51等。谱聚类方法也是当前研究的热点之一。谱聚类是基于谱图分解的算法,是图论和矩阵的谱分解理论在聚类方面的结合。最初。它是用于负载均衡和并行计算、VLSI等方面,如Hagen和Kahn妒将基于Ratiocut的目标函数图划分算法用于VLSI设计中。最近,学者们也开始将谱聚类方法用于机器学习中。Shi和MalikIn在2000年根据谱图理论建立了2一way划分的Normalizedcut(Ncut)目标函数,设计了用于图像分割的算法,由此发展出一
8、系列算法:k-way划分的Ncut算法181;Normalizedcut与随机游动关系的算法例;并且,谱聚类方法的应用也开始从图像分割领域收稿日期:2010-06-20;基金项目:国家自然科学基金项目(60776806,60672174);中困民航大学博士启动基金(06qd08s)作者简介:冯霞(1970一),女,山西交IZl人,
此文档下载收益归作者所有