资源描述:
《基于量子遗传谱聚算法的聚类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于量子遗传谱聚算法的聚类蒋勇1,谭怀亮2(1.湖南化工职业技术学院信息系,湖南,株洲,412004;2.湖南大学计算机与通信学院,湖南,长沙,410082)(hunanlaojiang@163.com)摘要:主要核方法研究XML聚类,提出了一种改进的XML文档核聚类方法。该方法先对XML文档约简,以频繁标签序列建立向量空间核的核矩阵,用高斯核函数求解初始聚类和聚类中心,然后用初始聚类中心构造量子遗传算法的初始种群,通过量子遗传算法与核聚算法相结合求得全局最优解的聚类。为了验证本文提出的算法,实验结果显示,使用该算法的聚类比改进的核聚算法、K—means等单一方法具有良好的收敛性、稳定性和更
2、高的全局最优。关键词:XML文档;高斯核函数;核聚类算法;量子遗传算法;XML聚类中图法分类号:TP301.6文献标识码:AClusteringBasedonQuantumGeneticSpectralClusteringAlgorithmJIANGYong1,TANHui-liang2(1.DepartmentofInformationandCollegeofHunanChemical,ZhuzhouHunan412004,China2.SchoolofComputerandCommunication,HunanUniversity,ChangshaHunan,410082,China)A
3、bstract:ThispapermainlytargetsonXMLClusteringwithkernelmethodsforpatternanalysisandthequantumgeneticalgorithm,Anewmethodbasedonthequantumgeneticalgorithmandclusteringalgorithmwasderived.TotheXMLdocumentseliminated,thevectorspacekernel’skernelmatrixweregeneratedwithfrequent-tagsequence,firstsolvesth
4、einitialclusteringandclusteringcenterwiththeGaussiankernelfunctions,thenthequantumgeneticalgorithm'sinitialpopulationswereconstructedbytheinitialclusteringcenterstructure,clusteringofthegloballyoptimalsolutionswereobtainedthroughitandkernelclusteringalgorithm.Inordertoconfirmthealgorithmwhichthisar
5、ticleproposed,theexperimentalresultshowedthatitismoresuperiortotheimprovementofkernelclusteringalgorithm,K-meansinthegoodastringency,thestabilityandahigheroveralloptimalsolutions.KeyWords:XMLdocument;guassiankernelfunction;kernelclusteringalgorithm;quantumgeneticalgorithm;XMLclustering1概述聚类是数据挖潜、人工
6、智能、模式识别中重要的分析手段,迄今为止,专家们进行了大量的研究,并提出了很多算法。其中有以CURE[1]和ChenLF[2]为代表的层次聚类,也有以BerndFischer和MartinEster[3,4]为代表的密度聚类,有基于密度敏感的半监督谱聚类[5]和基于免疫谱聚类[6]及基于鲁棒路径的谱聚类[7,8]等聚类方法。CURE算法和ChenLF等人的算法将层次算法与划分算法结合在一起来克服球形簇的缺陷,在计算簇间的距离时,用一组点代表聚类中心;BerndFischer以“核连接”的方法连接路径距离,用来发现具有细长结构的图形的聚类;MartinEster等人提出的算法用来挖掘任意形状聚
7、类及处理噪声数据具有优势;WANGLing等人的提出的密度敏感的半监督谱聚类算法,挖潜无类属数据中的空间一致性信息,利用用户提供的成对限制先验信息直接修改距离测度,使用挖潜得到空间一致性信息来自动调节数据间距离,这样避免用户所提供的信息含量少的限制所造成的聚类偏移,该算法在聚类性能上效果显著;ZhangXR等人的基于免疫谱聚类的图像分割算法是利用谱聚类的维数缩减获得在映射空间的分布,利用免疫克隆算法在映射空间