欢迎来到天天文库
浏览记录
ID:31375308
大小:109.50 KB
页数:8页
时间:2019-01-09
《箱形图在长江流域棉区棉花含杂率异常值检验中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、箱形图在长江流域棉区棉花含杂率异常值检验中的应用 摘要:针对长江流域棉区棉花加工过程中不同采样点的棉花含杂率样本中存在异常值的问题,采用SPSS统计分析软件,绘制不同样本的箱形图,确定不同样本中的异常值;通过比较剔除异常值前后的均值、标准差和Spearman偏度系数,分析了异常值对样本均值和标准差的影响;通过分析长江流域棉区不同采样点棉花含杂率样本箱形图,确定了不同加工设备对于棉花的清杂效果;结果确定长江流域棉区棉花加工后棉花含杂率样本均值为1.585%,可以为修订棉花含杂率国家标准提供数据支撑。
2、关键词:棉花含杂率;箱形图;K-S检验;Spearman偏度系数;长江流域棉区;异常值检验 中图分类号:S-3;O212-1文献标识码:A文章编号:0439-8114(2016)11-2895-04 DOI:10.14088/j.cnki.issn0439-8114.2016.11.0478 棉花含杂率检验是棉花质量检验的重要内容,棉花含杂率标准值是贸易中计算公定质量的关键指标之一。随着棉花加工工艺的改进和加工设备进步、子棉预处理效率的提高、皮棉清理机的应用,棉花实际含杂率总体上有所变化。现行国家
3、标准规定的棉花含杂率标准值已不能准确反映目前中国棉花实际含杂率的分布状况[1-4]。为了推动国家标准后续修订工作的开展,做好棉花标准含杂率设限调整的研究工作,以长江流域棉区棉花加工过程中不同取样点的棉花含杂率作为调研对象,确定长江流域棉区棉花含杂率分布。 由于棉花含杂率调研涉及取样、棉样邮寄、棉样测试、数据统计等诸多环节,取样过程本身就具有随机性,可能造成最终测试的样本数据存在异常值现象。异常值的存在对不同取样点的棉花含杂率分析结果准确性造成偏差,影响棉花含杂率调研结果的准确性。为了客观、真实地反映长
4、江流域棉区棉花含杂率的分布现状,本研究采用箱形图法判断棉花含杂率样本中异常值的存在情况,对于存在异常值的样本,剔除异常值,分析异常值对样本均值和标准差的影响,并确定长江流域棉区棉花加工过程中不同采样点棉花含杂率的分布状况。 1箱形图异常值检验 箱形图也叫箱线图,是检验样本数据中异常值的常用方法,与格拉布斯法(Grubbs)、3σ法、Z分数法等不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断,适用范围较广[5]。 箱形图的中心位置为中位数,箱子的长度
5、表示四分位数的间距(IQR),两端分别是上四分位数(Q3)和下四分位数(Q1),箱两端的须为最大值和最小值。箱形图法定义的异常值是指样本数据中大于Q3+1.5IQR和小于Q1-1.5×IQR。其中Q3+1.5×IQR和Q1-1.5IQR为异常值截距线,Q3+3IQR和Q1-3IQR为极端值截距线,介于异常值截距线与极端值截距线之间的异常值叫温和异常值,位于极端值截距线以外的异常值叫极端异常值[6-9]。箱形图的结构见图1。8 异常值的处理原则针对极端异常值与温和异常值是有所不同的。对于极端异常值,通常
6、采用直接剔除的方法,而对于温和异常值,通常有几种处理方法[5],包括保留、剔除、替换(用非异常值替换异常值)、修正(在找到实际原因时修正异常值)。 由于长江流域棉区棉花含杂率调研为长江流域2个省3个棉花加工厂,棉样一旦选取就无法改变,棉样测试后,每个棉样的异常含杂率无法测试修正。考虑调研数据的特殊性,本研究对异常值的处理采用剔除,以确保结果的准确性。 2数据分析 2.1子棉清理前棉花含杂率 子棉清理前棉花含杂率样本容量348,样本均值为3.307%,样本中位数为3.307%,样本标准差为0.92
7、3%。采用SPSS软件绘制子棉清理前含杂率样本的箱形图(图2),从图2中可以看出,子棉清理前含杂率样本中无异常值。 采用SPSS软件对子棉清理前棉花含杂率样本进行K-S检验,其检验结果P>0.05,表明子棉清理前含杂率样本服从正态分布,计算子棉清理前棉花含杂率样本的Spearman偏度系数=0,表明子棉清理前含杂率样本呈标准正态分布。 2.2子棉清理后棉花含杂率8 子棉清理后棉花含杂率样本容量348,样本均值为2.834%,样本中位数为2.982%,样本标准差为0.790%。采用SPSS软件绘制子
8、棉清理后含杂率样本的箱形图(图3)。从图3中可以看出,子棉清理后含杂率样本中存在6个异常值,且均小于正常样本数据的最小值,异常值的存在会减小子棉清理后含杂率的样本均值。在剔除异常值后,子棉清理后含杂率新样本的样本容量为342,样本均值为2.876%,样本中位数为2.998%,样本标准差为0.730%。剔除异常值前、后棉花含杂率散点图见图4、图5。从剔除异常值前后样本的比较可知,剔除异常值后,样本标准差减小了0.060%,样本的离散程度有所降
此文档下载收益归作者所有