K-means实验报告

K-means实验报告

ID:46767428

大小:69.51 KB

页数:15页

时间:2019-11-27

K-means实验报告_第1页
K-means实验报告_第2页
K-means实验报告_第3页
K-means实验报告_第4页
K-means实验报告_第5页
资源描述:

《K-means实验报告》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、人工智能大作业目录1.问题描述22.设计要求23.需求分析34.详细设计35.测试及运行结果46.程序源码及注释57.课程设计心得体会1514人工智能大作业1.问题描述k-means算法是根据聚类中的均值进行聚类划分的聚类算法。输入:聚类个数k,以及包含n个数据对象的数据。输出:满足方差最小标准的k个聚类。处理流程:Step1.从n个数据对象任意选择k个对象作为初始聚类中心;Step2.循环Step3到Step4直到每个聚类不再发生变化为止;Step3.根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并

2、根据最小距离重新对相应对象进行划分;Step4.重新计算每个(有变化)聚类的均值(中心对象)k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心,而对于所剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后,再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数,具体定义如下:(1)其中E为数据库中所有对象的均方差之和,p为代表对象的空间中的一个

3、点,mi为聚类Ci的均值(p和mi均是多维的)。公式(1)所示的聚类标准,旨在使所获得的k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.设计要求首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。14人工智能大作业输入:聚类个数k,以及包含n个数据对象的数据库。输出:满足方差

4、最小标准的k个聚类3.需求分析K-Mean是一种分割式分群方法,其主要目标是要在大量高纬的资料点中找出具有代表性的资料点;这些资料点可以称为群中心,代表点;然后再根据这些群中心,进行后续的处理,这些处理可以包含1)资料压缩:以少数的资料点来代表大量的资料,达到资料压缩的功能;2)资料分类:以少数代表点来代表特点类别的资料,可以降低资料量及计算量;分割式分群法的目的是希望尽量減小每个群聚中,每一点与群中心的距离平方差(squareerror)。假設我们現在有一組包含c个群聚的資料,其中第k个群聚可以用集合Gk來表示,假设Gk包

5、含nk个資料{x1,x2,…,xnk),此群聚中心为yk,则该群聚的平方差ek可以定义为:ek=Si

6、xi-yk

7、2,其中xi是属于第k群的资料点。而这c个群聚的总和平方差E便是每个群聚的平方差总和:E=Sk=1~cek我们分群的方法,就改成是一个最佳化的問題,換句话說,我們要如何选取c个群聚以及相关的群中心,使得E的值为最小。4.详细设计k-means算法是一种基于样本间相似性度量的间接聚类方法,属于非监督学习方法。此算法以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。相似度的计算根据一个

8、簇中对象的平均值(被看作簇的重心)来进行。此算法首先随机选择k个对象,每个对象代表一个聚类的质心。对于其余的每一个对象,根据该对象与各聚类质心之间的距离,把它分配到与之最相似的聚类中。然后,计算每个聚类的新质心。重复上述过程,直到准则函数会聚。k-means算法是一种较典型的逐点修改迭代的动态聚类算法,其要点是以误差平方和为准则函数。逐点修改类中心:一个象元样本按某一原则,归属于某一组类后,就要重新计算这个组类的均值,并且以新的均值作为凝聚中心点进行下一次象元素聚类;逐批修改类中心:在14人工智能大作业全部象元样本按某一组的

9、类中心分类之后,再计算修改各类的均值,作为下一次分类的凝聚中心点。k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。k-means算法把N个点聚集成K个组合的算法,要求任意输入K各对象作为初始中心点,这个的最大疑问就是怎么能够通过这随便选择的K个点来达到满足要求的K个组合呢。K-means算法其实每次迭代都会改变中心,也就是初始的K各对象作为中心点

10、在每一次迭代后都会更新。首先以这K各顶点作为初始K个聚类的中心顶点,第一轮计算所有的其他顶点与这个K个顶点的相似度,取相似度最大的或者说与这K个顶点中某个顶点距离最近的顶点加入这个顶点所代表的cluster中,注意在第一轮检测所有顶点的距离并判断其属于哪个簇的过程中,这K各簇的中心仍然是以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。