资源描述:
《《应用多元分析》实验5聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、实验五聚类分析一、实验说明实验项忖名称:聚类分析实验类型:基础实验课时:2实验所用主要仪器:微型计算机1台(能够连接互联网,32bit或64bit的Windows操作系统),R软件编程坏境。二、实验目的:1・系统聚类法:使用dist函数计算各种距离,使用hclust函数分别进行最短距离法、最长距离法、中间距离法、类平均法、重心法、ward法等六种聚类分析,对聚类结果使用plot函数作出聚类树形图,通过查看碎石图(最小距离height与聚类数目的散点图)选择聚类数,使用rect.hclust函数在聚类树形图上加框分类,使用cutree函数得
2、到聚类结果;安装并加载mvstats包,使用H.clust函数进行上述六种系统聚类分析。2•使用scale函数在各变量量纲不一致或取值相差较大时,对数据进行标准化变换。3.kmeans聚类法:使用kmeans函数进彳亍快速聚类,并会查看聚类结果。三、实验内容和步骤1•通过运行代码,查看运行结果,学习使用R命令进行系统聚类(又称为分层聚类,层次聚类)和kmeans聚类(又称为k均值聚类)。2•聚类分析的练习案例:1)教材的四个例子:例7・1(165,166,170,171页),例7・2(171至175页),例7・3(176至179页),案例
3、分析:全国区域经济的聚类分析(18()至183页)2)某年我国31个省、直辖市、自治区环境污染状况的聚类分析数据。3•练习的代码文件:“练习ch7-l.R",“练习ch7-2.R"4•练习的数据文件:“mvstats(2015).xls"(表单d7.2),“mvcase.xls"(表单Case6),“PollutionData.txf,四、实验要求1•完成教材的184-185页:2,3题,见数据文件「'mvexec3.xls"(表单E7.2)。2.分析数据文件:"birth,csv”:70个国家和地区的出生率(%)和死亡率(%)数据,删去
4、(除了表头的)第17行和第52行的都是FRANCE的观测值,对剩下的68个国家和地区的出生率和死亡率进行聚类分析。3.分析数据文件:"LA_Neighborhoods.txt":美国普查局2000年的洛杉矶街区数据。一共110个街区,15个变量。第1个变量:LA_Nbhd(街区名字),第2个变量:Income(收入中位数),第3个变量:Schools(公立学校API屮位数),API是涉及学生成绩的AcademicPerformanceIndex的缩写,第4个变量:Diversity(种族多样性),第5个变量:Age(年龄中位数),第6个变
5、量:Homes(有房家庭比例),第7个变量:Vets(复员军人比例),第8个变量:Asian(亚裔人口比例),第9个变量:Black(非裔比例),第10个变量:Latino(拉美裔比例),第11个变量:White(欧裔比例),第12个变量:Population(人口),第13个变量:Area(面积)第14个变量:Longitude(经度),第15个变量:Latitude(纬度),请自行增加第16个变量:人口密度density二Population/Area,使用第1,2,5,6,11,16个变量创建新数据框,根据第2,5,6,11,16这
6、五个变量对110个洛杉矶街区进行聚类分析(聚类前考虑对数据施行标准化变换)o3.撰写纸质稿的实验报告,要求实验报告最后一段有文字总结(学习心得,实验总结,提出问题,对于课程的意见和建议等),书写请用止楷字,勿用草书。下周三上课时交给学习委员。5•学习委员统一将作业代码(根据需要,用#进行文字注释,文件后缀名为.R或・r)电子版在下周三前发送至教师邮箱nikitalhy@163.com