欢迎来到天天文库
浏览记录
ID:1109138
大小:158.50 KB
页数:9页
时间:2017-11-07
《一种基于群体智能的文本聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一种基于群体智能的Web文档聚类算法吴斌 傅伟鹏郑毅刘少辉 史忠植(中科院计算技术研究所智能信息处理开放实验室北京100080)摘要 本文提出了一种基于群体智能的Web文档聚类算法。首先运用向量空间模型表示Web文档信息,采用常规方法如消除无用词和特征词条约简法则得到文本特征集,然后将文档向量随机分布到一个平面上,运用基于群体智能的聚类方法进行文档聚类,最后从平面上采用递归算法收集聚类结果。本文将算法的实验结果与多层自组织特征映射算法的聚类结果进行比较分析,分析表明基于群体智能的Web文档聚类算法具有较好的聚类特性
2、,它能将与一个主题相关的Web文档较完全和准确地聚成一类。关键词 群体智能,文档聚类,自组织聚类,群体相似度ACLUSTERINGALGORITHMBASEDONSWARMINTELLIGENCEFORWEBDOCUMENTWubinFuweipengZhengyiLiuShaohuiShizhongzhiThelab.ofIntelligenceInformationProcessing,InstituteofComputingTechnology,CASAbstractAclusteringalgorithmb
3、asedonswarmintelligenceforwebdocumentisproposed.Firstly,Webdocumentswhicharedenotedbyvectorspacemodelwithreduceddocumentfeaturesetarerandomlyprojectedonaplane.Then,clusteringanalysisisprocessedbyaclusteringmethodbasedonswarmintelligence.Finally,theclusteringre
4、sultsarecollectedfromtheplanebyarecursivealgorithm.TheexperimentresultsandthecomparisonwithMulti-layeredSOMmethodshowthatthiswebdocumentclusteringalgorithmbasedonswarmintelligencehasgoodclusteringperformance.Thewebdocumentsfocusonasubjectarerathercompletelyand
5、exactlyclusteringtogether.Keywordsswarmintelligence,documentclustering,Self-organizingclustering,swarmsimilarity1引言Web已快速发展成为一个海量的、广泛分布的全球化信息空间。Web信息检索也就成为一个日益重要的研究领域。Web文档聚类是Web信息检索领域的一个重要问题。文档聚类是一种无指导的文档分类。它的目标是把一个文档集分成若干称为集簇(cluster)的子集,每个集簇中的成员之间具有较大的相似性,而
6、集簇之间的文档具有较小的相似性。Web文档聚类则是将Web文档依据其内容进行聚类。它不仅可用于有效地组织Web文档,而且还可形成分类模板用于Web文档分类。目前使用的文档聚类算法有以G-HAC等算法为代表的层次凝聚法(agglomerativehierarchicalclustering,AHC),如Stanford大学数字图书馆系统中的Soina系统中采用的文档聚类方法;还有以K-Means算法为代表的平面划分法,以及以WEBSOM为代表的自组织特征映射(Self-OrganizingMaps,SOM)方法[1,
7、2,3,4,12]。前两种算法是经典聚类算法在文档聚类方面的应用,同时也具有它们本身聚类算法的缺陷,有些缺点在文档聚类方面还更为突出。如AHC算法可能产生由几个互不相干的集簇合成为一个集簇,这非常不利于文档聚类;K-Means算法除了需要预先设定集簇个数K值外,它对噪声和例外(outliers)以及输入顺序都是敏感的,在对一个文档集进行聚类时,一般较难预先确定一个适当的集簇个数,而且对例外敏感也会影响文档聚类的质量。自组织聚类算法在克服上述缺陷方面有一定的优势,但是SOM算法在文档聚类时常常需要多层聚类,即在上一次
8、聚类结果的基础上,将较大的类再进行SOM聚类,得到多层聚类结果,如HsinchunChen提出的多层SOM文档聚类算法[3]。本文提出了一种基于群体智能的Web文档聚类算法。它不仅是一种自组织Web文档聚类算法,而且在选用适当群体相似系数以后,一次聚类就能得到优于多层SOM文档聚类的结果,而群体相似系数的选取也相对容易。算法的主要过程是首先运用向量空间模型表
此文档下载收益归作者所有