欢迎来到天天文库
浏览记录
ID:5237499
大小:27.50 KB
页数:5页
时间:2017-12-06
《根据葡萄酒理化指标对葡萄酒质量统计研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、根据葡萄酒理化指标对葡萄酒质量统计研究 【摘要】本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归与数据挖掘中的决策树实现对葡萄酒质量的分类评估,关注影响葡萄酒质量分类的关键指标。【关键字】葡萄酒,理化指标,质量分类,逻辑回归分析,决策树一、问题提出葡萄酒是一种成分复杂的酒精饮料,葡萄酒行业评价葡萄酒质量时,惯用的是感官评价,但这种方法受评定人员的嗜好、习惯、情绪、年龄、经验等因素的影响较大,评定常有一定程度的主观性和不确定性,尤其在葡萄酒质量差别不大时,更易引起打分不一致和数据分析产生偏差,
2、使品评结果不够科学。对葡萄酒质量通过量化的方法进行评价,为酿酒行业对葡萄酒进行质量分类提供理论参考成为必然。葡萄酒的成分与葡萄酒的质量关系密切,是判定葡萄酒质量的重要依据。本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归方法与数据挖掘中的决策树实现对葡萄酒质量的分类评估,得到影响葡萄酒质量分类的重要指标。二、主要研究方法5针对葡萄酒质量及其理化指标的关系的理论研究方法,现在主要有多元线性回归、神经网络、支持向量机等方法。本文主要采用数据挖掘中的逻辑回归分析与决策树及其优化对葡萄酒质量分类问题进
3、行对比研究。逻辑回归模型主要研究某些因素与二分类变量之间的联系,通过逻辑变换,建立因变量与自变量的线性模型,其中,因变量的系数表示为该因素改变一个单位,个体发生事件概率与不发生事件概率之比的自然对数变化值。系数得到则主要通过最大似然估计。决策树通过选择分类效果最好的属性,把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例的分类。本文主要通过Rattle中包含的决策树的CART算法对葡萄酒质量进行分类研究。此外,本文还引入了Adaboost算法对决策树分类进行优化,以得到对葡萄酒质量最佳的分类
4、结果。三、指标选取及数据探索5本文主要选择葡萄酒的理化指标作为分类依据进行研究。参考文献并根据数据的可取得性,最终选择非挥发性酸度、挥发性酸度、柠檬酸、剩余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐、PH值、酒精11个理化指标作为输入变量。输出变量为基于感觉得到的葡萄酒质量(葡萄酒专家提出的至少3个评价的均值)。葡萄酒数据来源于UCI数据库。对于输出变量,每位专家的葡萄酒质量分级介于0~10,其中0为质量极差,10为质量极好。极好的和极差的葡萄酒样本都是少数,评价为中间的葡萄酒样本最多。红葡
5、萄酒样本总数有1599个,质量分为6类,分别评价为3至8。由于本文目的主要在于对质量评价相近的葡萄酒进行量化分类,故通过简单的统计红葡萄酒各评价的个数后,将葡萄酒质量进行0~1化。若红葡萄酒评价类别为3~5,则为0(质量差);若红葡萄酒评价类别为6~9,则为1(质量好)。数据中没有缺失值。选择前70%的样本进行建模,15%的样本进行验证,15%的样本进行测试。四、主要结果及比较分析将上述处理好的数据在R软件的Rattle包中进行分析,得到不同分类方法对葡萄酒质量分类结果:1、逻辑回归分析。通过logi
6、stic回归结果得,在99.9%的置信度下,挥发性酸度、硫酸盐对红葡萄酒的分类存在显著影响。对红葡萄酒而言,总二氧化硫、理化指标对红葡萄酒质量有显著影响。2、决策树分析—CART。通过对红葡萄酒建立决策回归树,最终得到红葡萄酒决策回归树的树结构比较简单、判别规则较为清晰,但底层分类较为繁杂。当酒精11且硫酸盐>0.58时,就可以判定该红葡萄酒为质量好。3、5模型间的比较。通过逻辑回归和决策树两种模型对葡萄酒质量进行分类,不同模型对葡萄酒分类的重要指标结论不同,为比较两种模型的优劣,画出了ROC曲线。在
7、ROC曲线中,曲线下方面积越大,模型的正判率越高。具体数据如下表。逻辑回归模型对红葡萄酒的正判率为72.8%意味预测样本中真正质量差的红葡萄酒样本有32%被准确定为‘质量差’,而有12%的样本被错误定位‘质量好’;同理,质量好的红葡萄酒样本中,有41%被准确定为‘质量好’,而有15%(8%)的样本被错误定位‘质量差’。通过ROC曲线图得到,决策树的正判率总是要高一些。因此,决策树分类结果所得到的重要指标更具有参考价值。考虑到决策树算法有着分类规则复杂、收敛到非全局的局部最优解、过度拟等缺点,故用Ada
8、boost方法对决策树进行优化,以得到更为准确的分类,得到更好的分类重要指标。4、决策树模型优化—Adaboost。在建立Adaboost模型时,建立的决策树棵树对模型效果有着十分显著的影响。在建立红葡萄酒Adaboost模型时,本文通过选择50-500的建树棵树,得到不同的正判率,最终选择建立350棵树进行分析,此时的正判率最大,为82.4%。相对于决策树模型正判率74.9%有了显著的提高。5从红葡萄酒Adaboost模型得到变量重要度:密度对红葡萄酒
此文档下载收益归作者所有