一种基于近邻规则的缺失数据填补方法

一种基于近邻规则的缺失数据填补方法

ID:9369913

大小:265.14 KB

页数:4页

时间:2018-04-29

一种基于近邻规则的缺失数据填补方法_第1页
一种基于近邻规则的缺失数据填补方法_第2页
一种基于近邻规则的缺失数据填补方法_第3页
一种基于近邻规则的缺失数据填补方法_第4页
资源描述:

《一种基于近邻规则的缺失数据填补方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第38卷第21期计算机工程2012年11月V01.38NO.21ComputerEngineeringNovember2012·软件技术与数据库·文章编号:100o—3428(2012)21—_o053—_o3文献标识码:A中图分类号:TP391一种基于近邻规则的缺失数据填补方法王凤梅,胡丽霞(湖南科技学院计算机与通信工程系,湖南永州425100)摘要:数据缺失是数据挖掘与分析过程中的常见问题,若直接删除含缺失的事例可能导致不可靠的决策。为此,针对缺失数据的填补问题,提出一种基于近邻规则的缺失数据填

2、补方法。根据关联规则的后件数据项进行分类,计算分类后的规则项与缺失项集问的相似度,用最相似的规则项值填补缺失值。实验结果表明,该方法具有较高的填补正确率。关健诃:关联规则;缺失数据;填补;近邻规则;相似度;K最近邻法AMissingDataImputationMethodBased0nNeighborRulesWANGFeng—mei.HULi—xia(DepartmentofComputerandCommunicationEngineering,HunanUniversityofSciencean

3、dEngineering,Yongzhou425100,China)[Abstract]Datamissingisacommonproblemindatamininganddataanalysisprocess,itcanleadtoreliabledecision—makingifitisdeletedwiththecasesdirectly.Animputationmethodofsolvingthemissingdataisputforward,whichisbasedonassociatio

4、nrule.Inthismethod,therulesareclassifiedbytherules’consequent,andthencalculatethesimilarityofconstrainedrulescases’itemsandmissingc~ises’items,imputethemissingvaluewiththemostsimilarrule’Sitem.Experimentalresultsshowthismethodhashigherimputationaccurac

5、y.[Keywords]associationrules;missingdata;imputation;neighborrule;similarity;K—NearestNeighbor(KNN)algorithmDOh1O.3969/j.issn.1000-3428.2012.21.0l41概述建立完备的数据集起到很重要的作用,这些经验与成果为高速发展的经济社会产生了海量的信息,在收集这些本文研究工作提供了坚实的理论基础。用于数据挖掘与机数据的过程中,因某些数据暂时无法获取或在获取过程中器学习的各

6、种算法对缺失数据填补都有借鉴及应用,如基的粗心导致一些数据遗漏的情况经常发生,且基本是无可于神经网络的缺失填补算法J、基于决策树的填补算法、避免的。然而,这些缺失数据项很有可能携带该数据对象基于贝叶斯网络的填补算法J、基于K最近邻(K—Nearest的重要信息,若直接利用这些带有缺失的数据进行数据挖Neighbor,KNN)法的填补算法J、基于聚类的填补算法J、掘或数据分析,其得出的结果对决策的影响是十分严重基于关联规则的填补算法J。的,即包含缺值的数据会使挖掘过程陷人混乱,导致不可经典KNN填补算

7、法已成为当前各改进算法的对比标靠的输出。准。用关联规则的思想对缺失值进行填补比较新颖并且事先估计缺失数据的值即缺失数据填补技术,是指使效果也较好。本文利用关联规则算法与KNN思想结合设用任意一种策略能将不完备数据集中的缺失值填补成为计新的缺失数据填补方法。完备的数据集以满足标准的数据分析技术的应用。随着数2近邻规则填补方法据库技术的不断发展,填补缺失数据的方法无论是在技术2.1近邻规则选择策略上还是理论上都受到了很高重视J。很多国外文献资料表在填补缺失数据前,先将给写定的数据集分成完备的明一些缺失数

8、据填补方法已在工业、经济、医学等领域得不含缺失值的数据集D和含缺失值的数据集D然后通到研究与应用[2-3],尤其是统计学领域对缺失数据填补方过从D中训练出关联规则,再计算出Di。集中含缺失值法有广泛的研究,如均值填充法、回归法、热卡(hot—dec)的项集与哪些规则关系最密切,即计算出与缺失项最近邻填补、最大期望法(ExpectationMaximization)、随机回归的关联规则。计算方法如下:填补法(PredictiveMeanMatching,PMM)、趋势得

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。