聚类分析例题

聚类分析例题

ID:44652763

大小:297.63 KB

页数:9页

时间:2019-10-24

聚类分析例题_第1页
聚类分析例题_第2页
聚类分析例题_第3页
聚类分析例题_第4页
聚类分析例题_第5页
资源描述:

《聚类分析例题》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、5.2酿酒葡萄的等级划分5.2.1葡萄酒的质量分类由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对何:支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。表5:葡萄酒等级表等级特优优优良良及格不及格分数95-10090-9480-8970-7960-690-59在问题2的计算屮,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分

2、得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。表6:细化后的葡萄酒等级表等级偏优偏优良良屮及格分数80-8475-7970-7465-6960-64数字等级54321通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):表7:各支葡萄酒的等级编号红洒原等级细化等级白酒原等级细化等级1号68.12277.9342号743375.8343号74.63475.6344号71.23376.9345号72.13381.5456号66.32275.5347号65.32274.2338号662272.33

3、39号78.23480.44510号68.82279.83411号61.62171.43312号68.32272.43313号6&82273.93314号72.63377.13415号65.7227&43416号69.92367.32217号74.53380.34518号65.42276.73419号72.63376.43420号75.83476.63421号72.23279.23422号71.63379.43423号77.13477.43424号71.53376.13425号68.22279.53426号723374.33327号71.533773428号79.634经过整理,我

4、们初步得到了对于葡萄酒的质量的分类的表格。考虑到葡萄酒的质量与酿酒葡萄间有比较Z间的关系,我们将保留葡萄酒质虽对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。5.2.2建立模型在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法屮的ward最小方差法,乂叫做离差平方和法。聚类分析是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。为了将样品进行分类,就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点,并在空间的定义距离,距离较近的点归为一

5、类;距离较远的点归为不同的类。面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。现在我们将用SAS系统里面的stepdisc和cluster过程完成判别分析和聚类分析,最终确定元素对象的分类问题。建立数据阵,具体数学表示为:儿...X=(5.2.1)YV_…nm.式中,行向量X产偽,兀沏)表示第i个样品;列向量X,=(兀打,…,屯)门,表示第j项指标。(i=l,2,•••,n;j=l,2,—m)接下来我们将要对数据进行变化,以便于我们比较和消除纲量。在此我们用了使用最广范的方法,ward最小方差法。其中用到了类间距离來进行比较,定义为:Dkl=11X,-X,II2/(1/

6、兔+1/®)(5.2.2)Ward方法并类时总是使得并类导致的类内离差平方和增量最小。系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。在实际应用屮常使用下面几种方法确定类的个数。由适当的阀值确定,此处阀值为q,。根据样木的散点图直观的确定。当样木所含指标只有2个或3个时,可运用散点图直观观察。如果指标超过3个时,可用主成份法先综合指标。根据统计量确定分类个数。在SAS中,捉供了一些來口方差分析思想的统计量近似检验类个数如何选择更合适。1)F统计量:F=

7、l—S;/S;=S;/S;(5.2.3)其中,S;为分类数为k个数时的总类内离差平方和,S;为所有样品或变量的总离差平方和。F越人,说明类内的离差平方和在总离差平方和中比例较小,也就是分为k个类的效果越好。显然分类越多,每个类离差越小,疋越大,所以我们只能取k使得疋足够人,但k本身比较小,而且F不再人幅度增加。2)半偏R2统计量:在把类Q和类G合并为卜一水平的类C,”时,定义半偏相关:半偏R2=BkI/T(5.2.4)具中陽二S,”-⑸+①)为合并类引起的类内离差平方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。