资源描述:
《聚类分析报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划聚类分析报告 学院班级: 学生学号: 学生姓名:杨阳 同作者: 实验日期:XX年12月 聚类算法分析研究 1实验环境以及所用到的主要软件 WindowsVista MATLABRXXa2实验内容描述目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务
2、技能及个人素质的培训计划 聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”过程,它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法,从算法思想。关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的
3、聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。实验中主要选择了K均值聚类算法、FCM模糊聚类算法并以网站下载的IRIS和WINE数据集为基础通过MATLAB实现对上述算法的实验测试。然后以WINE数据集在学习了解Weka软件接口方面的基础后作聚类分析,使用最常见的K均值聚类算法和FCM模糊聚类算法。下面简单描述一下K均值聚类的步骤。 K均值算法首先随机的指定K个类中心。然后: 将每个实例分配到距它最近的类中心,得到K个类; 计分别计算各类中所有实例的均值,把它们作为各类新
4、的类中心。重复和,直到K个类中心的位置都固定,类的分配也固定。在实验过程中通过利用Weka软件中提供的simpleKmeans 其中c是划分的聚类数,Ai是已经属于第i类的数据集vi是相应的点到第i类的平均距离,即 vi??Nik?1xkNi,xk?Ai 其中Ni表示在数据集Ai中的对象数。 算法的基本过程 step1:任意选择K个对象作为初始的类的中心; step2:repeat; step3:根据类中的平均值,将每个数据点(重新)赋给最相近的类;step4:更新目的-通过该培训员工可对保安行业有初步了解,并感受到安保行
5、业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 类的平均值; step5:until不再发生变化,即没有对象进行被重新分配时过程结束。 算法代码分析 K均值聚类算法的代码分析过程如下 首先调用clust_normalize函数将数据集标准化具体过程如下data=clust_normalize(data,'range'); 下面是对K均值算法的初始化 ifmax(size())==1, c=
6、; index=randperm(N); v=X(index(1:c),:);v=v+1e-10; v0=X(index(1:c)+1,:);v0=v0-1e-10; else v=; c=size(,1); index=randperm(N); v0=X(index(1:c)+1,:);v0=v0+1e-10; end iter=0; 接着是迭代求解直到满足要求的解或者达到最大的迭代值目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了
7、适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 whileprod(max(abs(v-v0))), iter=iter+1; v0=v; fori=1:c 这里是用来计算欧氏距离 dist(:,i)=sum([(X-repmat(v(i,:),N,1)).^2],2); end 下面将分类结果赋值 [m,label]=min(dist'); distout=sqrt(dist); 下面计算分类中心 fori=1:c index=find(label
8、==i); if~isempty(index) v(i,:)=mean(X(index,:)); else ind=round(rand*N-1); v(i,:)=X(ind,:); end