基于Hub的高维数据初始聚类中心的选择策略-论文.pdf

基于Hub的高维数据初始聚类中心的选择策略-论文.pdf

ID:53028492

大小:871.72 KB

页数:5页

时间:2020-04-14

基于Hub的高维数据初始聚类中心的选择策略-论文.pdf_第1页
基于Hub的高维数据初始聚类中心的选择策略-论文.pdf_第2页
基于Hub的高维数据初始聚类中心的选择策略-论文.pdf_第3页
基于Hub的高维数据初始聚类中心的选择策略-论文.pdf_第4页
基于Hub的高维数据初始聚类中心的选择策略-论文.pdf_第5页
资源描述:

《基于Hub的高维数据初始聚类中心的选择策略-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2015年第24卷第4期http:Hwww.c-S-a.org.cn计算机系统应用基于Hub的高维数据初始聚类中心的选择策张巧达,何振峰(福州大学数学与计算机科学学院,福州350108)摘要:针对基于Hub的聚类算法K-hubs算法存在对初始聚类中心敏感的问题,提出一种基于Hub的初始中心选择策略.该策略充分利用高维数据普遍存在的Hubness现象,选择相距最远的K个Hub点作为初始的聚类中心.实验表明采用该策略的K-hubs算法与原来采用随机初始中心的K-hubs算法相比,前者拥有较好的初始中心分布,能够提高聚类准确率,而且初始中心所

2、在的位置倾向于接近最终簇中心,有利于加快算法收敛.关键词:Hubness;初始中心;最大最小距离方法;高维数据;聚类Hub.BasedInitializationforK-hubsZHANGQiao-Da,HEZhen-Feng(SchoolofMathematicsandComputerScience,FuzhouUniversity,Fujian350108,China)Abstract:K-hubsisaHub-basedclustering~godthnathatisverysensitivetoinitialization.T

3、herefore,thispaperproposesaninitializationmethodbasedonHubtosolvethisproblem.TheinitializationmethodtakesfulluseofthefeatureoftheHubnessphenomenonbyselectinginitialcentersthatarcthemostremoteHubpointswitheachother.Theexperimentalresultsshowthatcomparedwiththerandominitia

4、lizationofordinaryK-hubsalgorithm,theproposedinitializationmethodcarlobtainabetterdistributionofinitialcenters,whichcouldenhancetheclusteringaccuracy;moreover,theselectedinitialcenterscanappearneartheclustercenters,whichcouldspeeduptheconvergenceoftheclusteringalgorithm.

5、Keywords:Hubness;initialcenter;maximmmethod;high-dimensionaldata;clustering聚类分析作为数据挖掘研究的重要手段之一,已-Hubness现象~的论文陆续出现[2-41,提供了一种新被广泛应用于机器学习、统计分析、模式识别、图像思路来解决“维度灾难”带来的挑战.Hubness现象是指处理等领域.随着数据采集技术的进步,现实生活中高维数据里某些数据点更频繁出现在其他数据点的七各个领域的数据呈现高维度化的趋势.高维数据存在最近邻列表中,而且这一趋势会随着维度的增加而更着不

6、同于低维数据的特征,使得许多适用于低维空间加明显.这种现象是高维空间的一种内在特征,对机的传统聚类算法。在高维空间中的表现不能令人满意.器学习和数据挖掘很多方面都产生了影响,比如分类【5】、处理高维数据面临的困难,被称为“维度灾难”【】j.“维时间序列的实例选择【.7】、信息检索和聚类等.Tomasev度灾难”有两个突出的现象:空空间现象和距离集中等人lsJ在2011年提出了利用高维数据的Hubness现象现象.前者源于高维数据的稀疏性:随着维度的增加,进行聚类的K.hubs算法.K.hubs算法表明高维数据中数据点在高维空间的分布变得

7、越来越稀疏.后者表现的Hub点能作为一种局部中心,提高聚类质量.尽管为:在高维空间里,任意两个数据点间的距离趋于一实验结果显示K-hubs算法对高维数据集的聚类性能致.这两个现象导致了使用欧式距离等作为相似度度优于传统的聚类算法,而且高噪声环境下算法的性能量的聚类算法在高维空间里失效.更稳定,但K.hubs算法存在着对初始中心敏感,容易2009至2012年。~系列研究高维数据另一个现象陷入局部极值的问题.初始聚类中心选择不好,会极大①收稿时间:2014-0%31;收到修改稿时问:2014-09-28SoftwareTechnique·A

8、lgorithm软件技术·算法171计算机系统应用http:Nwww.c-S-a.org.cn2015年第24卷第4期1-I]31策略的具体步骤如下:结果进行评价.为了确保实验结果更加准确,每个实输入:数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。