资源描述:
《数据质量评估与提升方法与应用分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据上海交通大学学位论文数据质量评估与提升方法及应用研究摘要在数据的产生、存储、传输的过程中,难免会出现错误数据、缺失数据等问题,数据的存在是因为它的价值,有些数据用作证据,有些数据用来做分析和预测;不管数据的作用是什么,如果数据出现错误、缺失以及其他问题,都会降低数据存在的价值,有时甚至带来深重的灾难。因此,确保数据的高质量,是有效利用数据的基础。近年来,数据呈现爆炸式增长,人们对大数据的热情与日俱增,很多人努力寻找更好的数据分析方法,很少人注重数据质量问题,对数据质量进行研究的文章比较少。本文
2、通过对数据质量管理研究的文献进行梳理,总结在这方面的研究成果,重点讨论了数据质量评估和数据质量提升方法,将聚类和分类方法引入到数据质量评估过程中,列举并比较了几种常见的聚类和分类方法,探索了这两种方法在数据质量评估的可行性,将测量工具分析方法GageR&R以及方差分析法用于可行性分析,最后简单介绍了针对不同的数据质量问题应该采用的提升方法。以消费者投诉数据为实例研究对象,选择K-means聚类对数据进行质量评估,聚类数对应于待检验的人工分类数,每个聚类簇的名称与人工分类的名称相对应,再建立评估矩阵,采
3、用VanRijsbergen的I万方数据上海交通大学学位论文FI值理论得到评估值,再用测量工具分析方法对这些评估值分析,发现聚类分析方法有可能用于数据质量评估。在数据质量提升方面,对于非标准化数据的质量提升做了详细介绍,采用关键词匹配的方法实现了数据标准化。经过对数据的探索以及质量评估,对数据质量管理提出了一些建议,将数据质量管理分为三部分:数据库设计阶段、数据生产过程、数据生产后处理。关键词:数据质量管理、K-means聚类、GageR&R、投诉数据II万方数据上海交通大学学位论文DATAQUALI
4、TYASSESSMENTANDIMPROVEMENT:METHODSANDAPPLICATIONSABSTRACTIndataproduction,storageandtransmissionprocesses,thereareinevitablydataproblems,missingdataandotherissues.Theexistenceofthedataisduetoitsvalue,somedataisusedastheevidence,othersisusedforanalysisan
5、dforecasting.Whateverdataisusedfor,ifthedatahaserror,missingorotherproblems,thevalueofthedatawillbereduced,sometimesevenbringshugelosses,soensuringdatahighqualityisthefoundationoftheeffectiveuseofdata.Inrecentyears,datahasgottenexplosivegrowth,whichhasb
6、eenincreasingpeople’sinterestinbigdata,mostofpeoplealwaysfindbettermethodstoanalyzebigdata,butfewpeoplereallycareaboutdataquality,whichleadstofewpapersaboutdataquality.Inthispaper,byreviewingliteraturesaboutdataquality,Isummarizedtheresearchachievements
7、inthisarea,myresearchismainlyaboutmethodsofevaluatingdataqualityandimprovingdataquality,andapplyclusteringandcategorizationinevaluatingdataquality,introduceandcomparesomeusual-usedmethodsofclusteringandcategorization,andexplorewhethertheyarefeasible.Asw
8、eknow,anymeasurementIII万方数据上海交通大学学位论文resultshavedeviation,IapplyGageR&Randanalysisofvariancetoevaluatethefeasibilityofevaluationmethodslikeclusteringandcategorization,andsimplyintroducedifferentimprovementmethodsofdataqualityacco