一种基于群体智能Web文档聚类算法

一种基于群体智能Web文档聚类算法

ID:35077865

大小:158.50 KB

页数:9页

时间:2019-03-17

一种基于群体智能Web文档聚类算法_第1页
一种基于群体智能Web文档聚类算法_第2页
一种基于群体智能Web文档聚类算法_第3页
一种基于群体智能Web文档聚类算法_第4页
一种基于群体智能Web文档聚类算法_第5页
资源描述:

《一种基于群体智能Web文档聚类算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一种基于群体智能的Web文档聚类算法吴斌 傅伟鹏郑毅刘少辉 史忠植(中科院计算技术研究所智能信息处理开放实验室北京100080)摘要 本文提出了一种基于群体智能的Web文档聚类算法。首先运用向量空间模型表示Web文档信息,采用常规方法如消除无用词和特征词条约简法则得到文本特征集,然后将文档向量随机分布到一个平面上,运用基于群体智能的聚类方法进行文档聚类,最后从平面上采用递归算法收集聚类结果。本文将算法的实验结果与多层自组织特征映射算法的聚类结果进行比较分析,分析表明基于群体智能的Web文档聚类算法具有较好的聚类特性,它能将与一个主题

2、相关的Web文档较完全和准确地聚成一类。关键词 群体智能,文档聚类,自组织聚类,群体相似度ACLUSTERINGALGORITHMBASEDONSWARMINTELLIGENCEFORWEBDOCUMENTWubinFuweipengZhengyiLiuShaohuiShizhongzhiThelab.ofIntelligenceInformationProcessing,InstituteofComputingTechnology,CASAbstractAclusteringalgorithmbasedonswarmintelli

3、genceforwebdocumentisproposed.Firstly,Webdocumentswhicharedenotedbyvectorspacemodelwithreduceddocumentfeaturesetarerandomlyprojectedonaplane.Then,clusteringanalysisisprocessedbyaclusteringmethodbasedonswarmintelligence.Finally,theclusteringresultsarecollectedfromthepla

4、nebyarecursivealgorithm.TheexperimentresultsandthecomparisonwithMulti-layeredSOMmethodshowthatthiswebdocumentclusteringalgorithmbasedonswarmintelligencehasgoodclusteringperformance.Thewebdocumentsfocusonasubjectarerathercompletelyandexactlyclusteringtogether.Keywordssw

5、armintelligence,documentclustering,Self-organizingclustering,swarmsimilarity1引言Web已快速发展成为一个海量的、广泛分布的全球化信息空间。Web信息检索也就成为一个日益重要的研究领域。Web文档聚类是Web信息检索领域的一个重要问题。文档聚类是一种无指导的文档分类。它的目标是把一个文档集分成若干称为集簇(cluster)的子集,每个集簇中的成员之间具有较大的相似性,而集簇之间的文档具有较小的相似性。Web文档聚类则是将Web文档依据其内容进行聚类。它不仅可

6、用于有效地组织Web文档,而且还可形成分类模板用于Web文档分类。目前使用的文档聚类算法有以G-HAC等算法为代表的层次凝聚法(agglomerativehierarchicalclustering,AHC),如Stanford大学数字图书馆系统中的Soina系统中采用的文档聚类方法;还有以K-Means算法为代表的平面划分法,以及以WEBSOM为代表的自组织特征映射(Self-OrganizingMaps,SOM)方法[1,2,3,4,12]。前两种算法是经典聚类算法在文档聚类方面的应用,同时也具有它们本身聚类算法的缺陷,有些缺点

7、在文档聚类方面还更为突出。如AHC算法可能产生由几个互不相干的集簇合成为一个集簇,这非常不利于文档聚类;K-Means算法除了需要预先设定集簇个数K值外,它对噪声和例外(outliers)以及输入顺序都是敏感的,在对一个文档集进行聚类时,一般较难预先确定一个适当的集簇个数,而且对例外敏感也会影响文档聚类的质量。自组织聚类算法在克服上述缺陷方面有一定的优势,但是SOM算法在文档聚类时常常需要多层聚类,即在上一次聚类结果的基础上,将较大的类再进行SOM聚类,得到多层聚类结果,如HsinchunChen提出的多层SOM文档聚类算法[3]。

8、本文提出了一种基于群体智能的Web文档聚类算法。它不仅是一种自组织Web文档聚类算法,而且在选用适当群体相似系数以后,一次聚类就能得到优于多层SOM文档聚类的结果,而群体相似系数的选取也相对容易。算法的主要过程是首先运用向量空间模型表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。