欢迎来到天天文库
浏览记录
ID:34647920
大小:277.98 KB
页数:3页
时间:2019-03-08
《基于几何光滑度的案例聚类方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2010年第5期经济研究导刊No.5,2010总第79期EC0N0MICRESEARCHGUIDESerialNo.79基于几何光滑度的案例聚类方法刘强(合肥工业大学管理学院,合肥230009)摘要:聚类分析技术是近年迅速发展的一种数据处理技术,它在诸如经济学、生物学、统计学、机器学习、数据挖掘等许多领域具有广泛的应用。首先阐述聚类分析的基本概念,接下来介绍了当前典型的几种聚类方法,然后提出了基于几何光滑度的光滑拼接聚类算法,最后提及了聚类算法的未来发展。关键词:聚类分析;相似度;共享最近邻;k-平均算法;数据挖掘中图分类号:F224.0文献标志码:A文章编号:1673—291X(20
2、10)05—0238—03(3)聚类算法。已经选择了合适的相似性度量,这步涉及到选引言择特定的聚类算法,用于揭示数据集中隐藏的数据结构。随着信息技术的不断发展,数据库应用的范同、规模和深度f4)结果验证。一旦用聚类算法得到了结果,就需要验证其正也在不断的扩大,这样就导致积累了大量的数据,而人们所关心确性。f5)结果的判定。在许多情况下,应用领域的专家必须用其他的往往是这些数据背后所隐藏的信息。目前,商业界普遍使用的条形码和科学研究领域利用先进的数据测量仪器所测出的数据,实验数据和分析判定聚类结果,最后得出可被人理解的正确的结论。这些数据都是海量的。面对这样庞大的数据库,人们迫切的需要⋯
3、种有效的技术从这庞大的数据中智能、自动地提取出来有价3.聚类的典型要求值的知识或是信息,这就是所渭的数据挖掘技术。而聚类分析正一种好的健壮的聚类方法应当具有可伸缩性、具有处理不同类型属性的能力、能够发现任意形状的簇、先验知识最小化、具有是数据挖掘所采川的关键技术之一,它被用于发现隐藏在大量数据rf1的分组和令人感兴趣的数据模式。迄今为止,人们提出了许处理噪声数据的能力、对输入数据的顺序不敏感、具有处理高维多聚类算法,所有这些算法都试图解决大规模数据的聚类问题。数据的能力、基于约束的聚类、具有可解释性和可用性。一二、典型的聚类方法、聚类的基本概念1.聚类的定义1.基于划分的方法所谓聚类I
4、I,就是将一个数据集合分成若干个称为簇或是类给定一个包含n个数据对象的数据库,以及要生成簇的数目别的子集,每个簇中的数据都是具有很高的相似度,而簇之间具k,一个基于划分的聚类算法将数据对象组织为k个划分(k5、(k-medoids)[31。组就成为簇,同一簇中的点具有很高的相似性,不同簇中的点具k-平均算法(k-means)首先随机选取k个数据对象,每个对有很高的相异性。象代表一个簇的平均值或中心点。其余的对象按照它们与这些平2.聚类的一一般步骤均值之间的距离,被赋予与之最相近的簇。然后,算法对每个新簇聚类分析一般的主要步骤如下:重新计算其平均值。这个过程一直迭代直到一个准则函数收敛为(1)特i选择。首先必须适当的选择特征,尽可能多的包含任止。典型的准则丽数是方差准则函数,定义为:E:∑,∑C务所关心的信息。在选择特征中,信息的多余减少和最小化是主要的H的。Ix-ml‘(2)相似性度量。刖于6、定量度量两个特征向量之间的相似度。其中x代表数据空间中给定的对象,m.是簇C.的平均值(x-一个简单的度量如欧氏距离经常被用来反应两个特征向量之间和n1.可以是任意维的向量)。该准则函数试图使结果簇内部尽可的非相似度。能地紧凑并相互分离。收稿日期:2009—12—29作者简介:刘强(1983一),男,黑龙江哈尔滨人,硕士研究生,从事管理人工智能研究。—-——238·-——k一中心算法(k—medoids)不采用簇中对象的平均值,而是类算法,算法本身可南光滑度参数来调节。采用簇中心~(medoid)作为参照点。对象划分的原则仍与k一平1.SNN相似度均算法一样是基于最小化所有对象与其参照7、点之问的相异度数据对象之间相似的程度取决于它们共享最近邻的数量。之卡¨。陔算法首先为每个类随机选择一个代表对象,剩余的对任一数据对象的k个最近邻组成一个最近邻列表,两个对象象根据其与代表对象的距离分配到最近的一个类中,然后反复之间的共享最近邻为它们最近邻列表的交集。特殊地,当两个地』{j非代表时象替代代表对象,以改进聚类的质量。对象的k最近邻列表完全一致时,它们的相似程度最大。SNN2.基于层次的方法相似度就是它们共享的近邻个数。计算SNN相似
5、(k-medoids)[31。组就成为簇,同一簇中的点具有很高的相似性,不同簇中的点具k-平均算法(k-means)首先随机选取k个数据对象,每个对有很高的相异性。象代表一个簇的平均值或中心点。其余的对象按照它们与这些平2.聚类的一一般步骤均值之间的距离,被赋予与之最相近的簇。然后,算法对每个新簇聚类分析一般的主要步骤如下:重新计算其平均值。这个过程一直迭代直到一个准则函数收敛为(1)特i选择。首先必须适当的选择特征,尽可能多的包含任止。典型的准则丽数是方差准则函数,定义为:E:∑,∑C务所关心的信息。在选择特征中,信息的多余减少和最小化是主要的H的。Ix-ml‘(2)相似性度量。刖于
6、定量度量两个特征向量之间的相似度。其中x代表数据空间中给定的对象,m.是簇C.的平均值(x-一个简单的度量如欧氏距离经常被用来反应两个特征向量之间和n1.可以是任意维的向量)。该准则函数试图使结果簇内部尽可的非相似度。能地紧凑并相互分离。收稿日期:2009—12—29作者简介:刘强(1983一),男,黑龙江哈尔滨人,硕士研究生,从事管理人工智能研究。—-——238·-——k一中心算法(k—medoids)不采用簇中对象的平均值,而是类算法,算法本身可南光滑度参数来调节。采用簇中心~(medoid)作为参照点。对象划分的原则仍与k一平1.SNN相似度均算法一样是基于最小化所有对象与其参照
7、点之问的相异度数据对象之间相似的程度取决于它们共享最近邻的数量。之卡¨。陔算法首先为每个类随机选择一个代表对象,剩余的对任一数据对象的k个最近邻组成一个最近邻列表,两个对象象根据其与代表对象的距离分配到最近的一个类中,然后反复之间的共享最近邻为它们最近邻列表的交集。特殊地,当两个地』{j非代表时象替代代表对象,以改进聚类的质量。对象的k最近邻列表完全一致时,它们的相似程度最大。SNN2.基于层次的方法相似度就是它们共享的近邻个数。计算SNN相似
此文档下载收益归作者所有