资源描述:
《基于bagging的选择性聚类集成》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1000-9825/2005/16(04)0496©2005JournalofSoftware软件学报Vol.16,No.4∗基于Bagging的选择性聚类集成+唐伟,周志华(南京大学计算机软件新技术国家重点实验室,江苏南京210093)Bagging-BasedSelectiveClustererEnsemble+TANGWei,ZHOUZhi-Hua(NationalLaboratoryforNovelSoftwareTechnology,NanjingUniversity,Nanjing210093,C
2、hina)+Correspondingauthor:Phn:+86-25-83686268,E-mail:zhouzh@nju.edu.cn,http://cs.nju.edu.cn/people/zhouzh/Received2003-11-03;Accepted2004-07-27TangW,ZhouZH.Bagging-Basedselectiveclustererensemble.JournalofSoftware,2005,16(4):496−502.DOI:10.1360/jos160496Abs
3、tract:Thispaperusesensemblelearningtechniquetoimproveclusteringperformance.Sincethetrainingdatausedinclusteringlackstheexpectedoutput,thecombinationofcomponentlearnerismoredifficultthanthatundersupervisedlearning.Throughaligningdifferentclusteringresultsand
4、selectingcomponentlearnerswiththehelpofmutualinformationweight,thispaperproposesaBagging-basedselectiveclustererensemblealgorithm.Experimentsshowthatthisalgorithmcouldeffectivelyimprovetheclusteringresults.Keywords:machinelearning;ensemblelearning;clusterin
5、g;unsupervisedlearning;selectiveensemble摘要:使用集成学习技术来提高聚类性能.由于聚类使用的训练样本缺乏期望输出,与监督学习下的集成相比,在对个体学习器进行结合时更加困难.通过对不同的聚类结果进行配准,并基于互信息权进行个体学习器的选择,提出了基于Bagging的选择性聚类集成算法.实验表明,该算法能够有效地改善聚类结果.关键词:机器学习;集成学习;聚类;非监督学习;选择性集成中图法分类号:TP181文献标识码:A聚类分析技术将未标记对象通过其相似度进行分组,使得组内对
6、象的相似度最大而组间对象的相似度最小,从而发现对象中的内在特性.由于聚类分析技术在数据挖掘、模式识别等诸多领域有着广泛的应用前景,一[1]直是机器学习领域的一个研究热点.[2]集成学习(ensemblelearning)技术利用基学习器的多个版本来解决同一个问题,可以显著地提高学习系统的泛化能力.最近几年,在机器学习、神经网络、统计学等领域的很多研究者都投入到集成学习的研究中,使[2]得该领域成为了一个相当活跃的研究热点,并被认为是当前机器学习领域的4大研究方向之首.现在已经有[3]很多集成学习算法,Bagg
7、ing算法就是其中比较著名的一个.该算法在训练阶段,各学习器的训练集由原始训练集利用可重复取样(bootstrapsampling)技术获得,训练集的规模通常与原始训练集相当.这样,原始训练集中∗SupportedbytheNationalOutstandingYouthFoundationofChinaunderGrantNo.60325207(国家杰出青年科学基金)作者简介:唐伟(1978-),男,湖南祁阳人,硕士,主要研究领域为机器学习,数据挖掘;周志华(1973-),男,博士,教授,博士生导师,主要研
8、究领域为机器学习,数据挖掘,模式识别,信息检索,神经计算,进化计算.唐伟等:基于Bagging的选择性聚类集成497[3]某些示例可能在新的训练集中出现多次,而另外一些示例则可能一次也不出现.研究表明,Bagging可以显著提高不稳定的基学习器的泛化能力.以往的集成学习算法在生成多个个体学习器之后,通常是对所有的个体都[4]进行结合,因此很多研究者尝试使用大规模的集成来解决问题.Zhou等人提出了“