基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法

基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法

ID:21107807

大小:71.00 KB

页数:5页

时间:2018-10-19

基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法_第1页
基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法_第2页
基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法_第3页
基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法_第4页
基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法_第5页
资源描述:

《基于改进后的k―means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于改进后的K—means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法[摘要]文章研究的是葡萄酒的根据酿酒葡萄的理化指标和葡萄酒的质量,对这些酿酒葡萄进行分级和分析酿酒葡萄及葡萄酒的理化指标对葡萄洒质量的影响。首先研究筛选了一组合理的葡萄酒样本进行了标准化处理。分别建立丫K-means分析模型去进行样本分析。为丫得到明确的评估指标,研究改进了K-means算法,结合主成分分析的原理,得到了PCA-K-means模型。研宄把酿酒葡萄分成了四类,而葡萄酒分成了五类。本文采集自网络,本站发布的论文均是优质论文,供学习和研究使用,文

2、中立场与本网站无关,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除匕转载的信息,如果需要分享,请保留本段说明。[关键词]聚类分析;主成分分析;K-means算法[D0I]1013939/jcnkizgsc2017161961引言酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。研究采用已有数据,根据酿洒葡萄的理化指标和葡萄洒的质量对这些酿酒葡萄进行分级。2基于K-means算法对酿酒葡萄进行分级21算法模型分析研究要通过酿酒葡萄的理化指标和葡萄酒的质景对酿酒

3、的葡萄进行合理的分级。首先使用我们之前采集到的评酒员给出的数据。同吋,考虑到葡萄酒的质量和酿酒葡萄理化指标所包括的数据量较大且类型较多,而且这些变量的量纲不同且测量值范围相差悬殊,研究应该对所有数据进行标准化处理。接着,基于本问题要求对不同种类的大数据进行合理的分类,研究采用聚类分析相关理论建立模型。聚类分析可以很好地描述事物之间的相似程度,适用于解决多变量且右着不同程度的界限的分类问题。考虑到主成分分析能够很好地通过权重和贡献率得岀比较准确的综合评判指标,研究对K-means分析模型进行合理的改进,得到PCA-K-means复合模型,从

4、而建立模型并得到准确的分级结果。22模型的建立221数据的标准化处理首先,根据葡萄酒行业相关的质量标准,我们筛选了氨基酸总量、蛋0质、VC含量、花色苷鲜重、洒石酸、苹果酸、拧檬酸和多酚氧化酶活力等重要指标进行分析。其次,为了消除它们之间量纲和数据变化范围不同造成的影响,我们对这些数据进行了标准化处理。yj=[SX(]xj-xmin[]xmax-xmin[SX)](1)其中,xj代表第j个数据,xmin、xmax分别代表所有数据的最小值和最大值。yj表示经过标准化处理的数据。222算法模型建立我们分别以第二组葡萄洒质量和酿洒葡萄的相关指标标

5、准化处理后的数据为样本,进行聚类分析。在这里,我们分别基于K-means分析合理地建立了模型。为了能够更好地确定各个理化指标之间的权重,从而确定它们的累计贡献率,我们引入PCA(主成分分析)对K-mcans聚类分析算法进行优化。PCA-K-means聚类算法的具体流程如下:(1)我们对于给定的一个8维数据点数据集X={xl,x2,…,xi,x8},xie[WTHZ]R[WTBZ]其中xieR,代表8种理化指标,以及要生成的数据子集的数目K,K-Means聚类算法将数据对象组织为K个划分。在问题二中,K分别为27(红葡萄酒)、28(白葡萄酒

6、),即每组的样本总数。O{ck,i二1,2,•••,!<},每个划分代表一个类ck,每个类ck存一个类别中心uio(2)考虑到欧氏距离在对坐标轴做正交旋转时,欧氏距离是不变的,即当我们对原坐标系进行平缓和旋转变换后,样本点间的距离和变换前完全相同。因此我们选取欧氏距离作为相似性和距离判断准则,计算该类内各点到聚类中心Pi的距离平方和。同时,根据最小二乘法和拉格朗口原理可知,聚类中心ui应该取为类别Ck类各数据点的平均值。(4)选择两个主成分,计算综合评价值,并计算综合得分。结合上述K-means聚类算法流程,我们建立的聚类模型如下:①分别

7、计算红葡萄洒和白葡萄酒的所有样本点n两两之间的距离d(xi,xj),记为矩阵D=[d(xi,xj)]nXn。②首先构造n个类,毎一类只包含一个样本点,毎一个平台的高度均为0。③合并距离最佳的两类为新类,并且以这两类间的距离值作为聚类图的平台高度。④计算新类与当前各类的距离,若类的个数己经为1,转入步骤E,否则返回步骤C。⑤画聚类图。⑥确定类的个数和类,根据评分结果对红、白葡萄酒分别进行分级。23算法模型的求解根据上述的K-means聚类分析方法,借助计算机模拟,我们分别得到了红葡萄酒和白葡萄酒聚类分析的?Y果。根据葡萄酒的质量,我们对葡萄

8、酒进行了分类,分类结果如图1和图2所示。我们对类间距离的计算采用了类平均法,并得到了聚类分析树形图,如图2所示。从图1的K-means聚类评分结果和图2的标准距离我们可以看出,葡萄酒质量大体上

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。