欢迎来到天天文库
浏览记录
ID:56216090
大小:337.91 KB
页数:5页
时间:2020-06-21
《异常值的检测及其对棉纱强力预测精度的影响.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第4O卷第1期东华大学学报(自然科学版)Vo1.40,No.12014年2月J0URNAI0FD0NGHUAUNIVERSITY(NATURALSCIENCE)Feb.2O14文章编号:1671—0444(2014)01—0043—05异常值的检测及其对棉纱强力预测精度的影响李晓峰,郁崇文(东华大学纺织学院,上海201620)摘要:异常值的存在会不同程度地影响BP神经网络对棉纱强力指标的预测精度,因此对原数据进行异常值检测及对检出异常值的处理是非常关键的.采用系统聚类中的k最近邻密度估计方法对数据样本中存在的异常值进行检测,使用多元回归分析方法
2、对检出的异常值进行修正,对修正前后共4组棉纱强力数据样本进行预测,得到各自的预测精度,经过对比分析,发现修正样本的相对误差和均方误差均明显低于其他3组包含异常值的样本,且异常值的数量越多则预测精度越低.关键词:棉纱强力;异常值;预测;k最近邻密度估计法;多元回归分析中图分类号:TS103.7文献标志码:AOutlierDetectingandItsImpactonAccuracyofCottonYarnStrengthPredictionLIXiao—yeng。y己,Chong-wen(CollegeofTextiles,DonghuaUniv
3、ersity,Shanghai201620,China)Abstract:Withtheexistenceofoutlier,theaccuracyofcottonyarnstrengthpredictedbyBPneuralnetworkwasaffectedindifferentextent.Therefore,itwasveryimportanttofindoutoutliersfromrawdataanddecidewhichmethodfortreatmenttobeusedproperly.k—nearestneighbordens
4、ityestimationmethodwithpertainingtohierarchyclusteringwasadoptedforoutlierdetection,multipleregressionanalysiswasrecommendedtorevisetheoutlier.Andthen,basedonall4datasetsrevisedbeforeandafter,cottonyarnstrengthwaspredictedrespectively.Bymeansofcomparativeanalysis,itisfoundth
5、attherelativeerrorandmeansquareerrorofreviseddatasetarealllessthantheother3datasetswithoutlierinside,furthermore,themorethequantityofoutlieris,thelowertheaccuracywillbe.Keywords:cottonyarnstrength;outlier;prediction;k—nearestneighbordensityestimation;multipleregressionanalys
6、is异常值是数据集中与其他数据具有显著不同的统计学方法、基于聚类的方法、基于密度的方法数据,有多种别名,如噪声、偏离点、孤立点、离群点等_3].分布情形下检验异常值的统计方法主要包括等[1].在某些领域异常值可能作为有用的信息得以保Grubbs检验、T检验、Dixon检验、3d检验等,这些留,但在棉纱质量预测中,却可能因为异常值的存在传统检验方法在某种程度上都存在着一定的局限而影响整个指标预测的精度,因而必须进行异常值的性,如,对数据样本数量有所限制,由于自身算法缺挖掘,并且对其来源做进一步的分析以免误判L2].陷产生异常值“遮蔽”现象,不能一
7、次性检出所有异目前,检测异常值的方法有很多,主要包括基于常值,或者对检测多个异常值无能为力等].传统检收稿日期:2013-03一l1作者简介:李晓峰(1980一),女,黑龙江大庆人,博士研究生,研究方向为智能算法在棉纺系统上的应用.E—mail:lxf一8022@mail.dhuedu.cn郁崇文(联系人),男,教授,E—mail:yucw@dhu.edu.CR东华大学学报(自然科学版)第4O卷验方法的基本原理是根据数据样本的特点假定一个1最近邻密度估计算法检测异常值数据分布的概率模型,然后采用不一致性检测来确定异常的存在,而绝大多数不一致性检
8、验仅针对单聚类分析是一种探索性的分析方法,其从样本个属性,并且需要提前知道数据集合参数的知识,因数据出发,将一个数据集划分为若干个组或簇,使得此,当没
此文档下载收益归作者所有