欢迎来到天天文库
浏览记录
ID:33830328
大小:459.20 KB
页数:8页
时间:2019-02-28
《缺失数据处理方法的比较研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据计算机研究与发展JournalofComputerResearchandDevelopmentISSN1000..1239/CN11..1777[TP43(Suppl.):171~175,2006缺失数据处理方法的比较研究乔珠峰田凤占黄厚宽陈景年(北京交通大学计算机与信息技术学院北京100044)(qiaozhufeng(孕126.tom)AComparisonStudyofMissingValueDatasetsProcessingMethodsQiaoZhufeng,TianFengzhan,HuangHoukuan,andChenJingni
2、an(SchoolofComputerandInformationTechnology.BeijingJiaotongUniversity,Beijing100044)AbstractDataminingapproacheshavebeenappliedwidelyinmanyfieldsnow,butmostdatasetsaremissingvalues.Thereforeitisveryimportanttostudydataminingmethodsbasedonmissingdata.Fourmethodsoftreatingmissingatt
3、ributevaluesareintroducedinthispaper.Theyaredirectdeletion,specialvaluescompleter,meancompleterandrobustmethod.Basedonthefourmethodsabove,fourmodelsoftreatingmissingattributevaluesandcorrespondingfourNaiveBayesianclassifiersarebuilt.Thesemodelsareconductedonfivedatasets.Five-folds
4、cross-validationisusedtoestimatetheperformancesofeachmodel,whichshowsthesenaiveBayesianclassifiersareeffective.Keywordsdatamining;missingvalue;naiveBayesianclassifier;robust;cross-validation摘要由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法
5、4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的.关键词数据挖掘;缺失值;朴素贝叶斯分类器;Robust;交叉验证中图法分类号TPl8近年来,数据挖掘技术被广泛地应用到各个行业领域.数据挖掘的过程包括问题理解、数据采集和理解、预处理、数据挖掘工具、模型评估和知识应用.根据研究,在数据挖掘过程中20%的时间用于目标识别,60%的时间用于数据准备,数据挖掘和知识分析的时间只占10%.为什么人们要将超过
6、50%的精力放在数据预处理上呢?在现实世界的数据库中存在着严重的质量问题:①数据不完整;②数据冗余;收稿日期:2006—06—05基金项目:国家自然科学基金项目(60503017)③数据不一致;④噪音数据.这些严重的质量问题会降低数据挖掘算法的性能,因此,人们不得不将大量的时间和精力花在数据预处理上.在保证不减少数据所含信息的前提下,合理有效的数据预处理可以压缩数据量,改善数据质量,提高数据挖掘算法的性能,减少学习时间.缺失数据的处理问题是数据挖掘过程中的一个严重问题.本文介绍数据预处理过程中的几种常见缺失数据处理技术以及Ramoni和Sebastiani
7、提到万方数据172计算机研究与发展2006,43(增刊)的Robust方法[1
8、,并根据这些方法建立4个缺失处理的模型进行实验分析比较.1研究意义1.1数据缺失处理的重要性和复杂性数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据.因此,空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距.数据缺失在许多研究领域都是一个复杂的问题.对数据挖掘来说,缺值的存在造成了以下影响:①系统丢失了大量的有用信息;②系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;③
9、包含缺值的数据会使挖掘过程陷入混乱,导致不可靠的输出.1.2数据缺
此文档下载收益归作者所有