欢迎来到天天文库
浏览记录
ID:34263065
大小:451.02 KB
页数:20页
时间:2019-03-04
《《模式识别与智能信息处理实践》实验报告.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、《模式识别与智能信息处理实践》实验报告书专业:学号:姓名:计算机科学与工程学院2011.6.20实验一聚类分析一、实验目的通过聚类分析实验,加深对聚类分析基本思想、方法的理解和掌握。二、实验内容了解动态、静态聚类算法的特点;熟练掌握k-均值算法或层次聚类算法;编写能对实际模式样本正确分类的算法程序。掌握动态聚类算法的基本思想;认识类别数、初始类心的选择对k-均值算法聚类结果的影响;编写能对实际模式样本正确分类的k-均值算法程序。三、方法手段设类别数为k,选取k个初始聚类中心,按最小距离原则将各模式分配到k类中的某一类
2、,不断地计算类心和调整各模式的类别使每个模式特征矢量到其所属类别中心的距离平方之和最小。四、k-均值算法(1)从D中随机取k个元素,作为k个簇的各自的中心。(2)分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。(3)根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。(4)将D中全部元素按照新的中心重新聚类。(5)重复第4步,直到聚类结果不再变化。五、k-均值程序运行结果(1)改变初始类心,观察对聚类结果的影响若选初始类心是[123]时的结果为其分为1类共
3、39个,分为2类共61个,分为3类共50个,其中被分为第1类的样本为{515378101103104105106108109110111112113116117118119121123125126129130131132133135136137138140141142144145146148149},被分为第2类的样本为{525455565758596061626364656667686970717273747576777980818283848586878889909192939495969798991001021
4、07114115120122124127128134139143147150},被分为第3类的样本为{1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950}。若选初始类心是[245]时其聚类结果为其分为1类共96个,分为2类共22个,分为3类共个32,其中被分为第1类的样本为{515253545556575960626364656667686970717273747576777879808
5、182838485868788899091929395969798100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150},被分为第2类的样本为{234791013142526303135394243464858619499},被分为第3类的样本为{1568111215
6、16171819202122232427282932333436373840414445474950}。可见,初始类心的选择对于K均值算法的影响较大。(2)改变类别数k,比较其对类内距离平方和的大小的影响若k=3且选初始类心是[123]时,其最终各类中心的距离为[1.16570.82304.0783],若k=4且选初始类心是[1234]时,其最终各类中心的距离为[1.30490.49174.07831.3928],可见,改变类别数k,其对类内距离平方和的大小有直接的影响,且k越大,其类内距离平方和距离越小。六、实验总
7、结影响k-均值算法结果的因素有:初始类心的选择以及k值的选择,且k-均值算法适用于k值已知的情况,即类别号已知的情况。七、Kmeans程序functiony=my_Kmeans(k,mid)k=3;%类数mid=[123];%随便给三个聚类中心%从文本文件读入数据放入X中X=load('iris.txt','height','weight');num=size(X,1);%获得X维数大小fori=1:kZ(i,:)=X(mid(i),:);%获取k个聚类中心的初始坐标end%计算新的聚类中心,K-均值算法的核心部分t
8、emp=[];while(~isequal(Z,temp))%聚类中心是否变化,若不变化则停止循环temp=Z;class=cell(k,1);%初始化类样本classvalue=cell(k,1);%初始化类样本的坐标valueforj=1:numfort=1:kD(t)=dist(X(j,:),Z(t,:)');%计算每个样本到类中心的距离
此文档下载收益归作者所有