欢迎来到天天文库
浏览记录
ID:56249117
大小:47.00 KB
页数:5页
时间:2020-03-24
《数据清洗研究.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、数据清洗研究摘要:本文简要的论述了数据清洗的由来及其重要性,系统的介绍和总结了数据清洗的定义、存在的问题、步骤、评价标准和常见的一些数据清洗算法。针对目前的研究现状,对数据清洗将来方向进行了预测。关键词:数据挖掘;数据准备;数据清洗;数据清洗算法ResearchonDataCleaningAbstract:Thispaperintroducesbrieflyaboutoriginandtheimportanceofdatacleaning.Itanalyzessystematicallyandsumsupthedefini
2、tionofdatacleaning,existingproblems,steps,andsomealgorithmsofdatacleaning.Aimingatthepositionofresearchondatacleaning,theauthormakesaprospectofthedevelopmentofdatacleaning.Keywords:datamining;datapreparation;datacleaning;datacleaningalgorithm1概述人类正处在信息“爆炸”时代,面对浩如烟
3、海的数据,怎么组织和存数数据,才能使人们从各种各样巨量的数据集中快速高效地获取所需的信息,成为人们迫切关心的问题。数据仓库与数据挖掘的出现为人们解决这些问题带来新的有效途径。与传统的关系数据库相比,数据仓库是一种多维化的信息组织技术,它面向复杂的数据分析以支持决策过程的,集成了一定范围内的所有数据,是面向主题的、整合的、相对稳定的,并随时变化不断更新的数据集合。对数据的时效性要求不高,更注重历史数据。数据挖掘是一种有效利用信息的工具,主要是基于人工智能、机器学习、统计学等技术,高度自动化地分析组织原有的数据,进行归纳性的推
4、理,从中挖掘出潜在的模式,预测客户行为,帮助组织的决策者正确判断即将出现的机会,调整策略,减少风险,进行正确的决策。搭建在数据仓库上的数据挖掘将会提供更加高效准确的数据分析。数据仓库作为数据挖掘的数据预处理阶段,主要包括以下几个重要的步骤:外部数据源的选取,数据抽取,数据清洗,数据转换。其中,数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”,即数据有空缺、噪音等缺陷。而且在数据仓库的各数据之间,其内容也存在着不一致的现象,为了减少这些“脏数据”对数据仓库分析结果的影响程度,必须采取各种有效的措施对其进行处理,
5、这一过程称为“数据清洗(DataCleaning)”。2数据抽取完成之后的数据集所存在的问题2、1不完整的数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。2、2错误的数据这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等2、3重复的数据对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确
6、认并整理。“脏数据”会对建立的数据仓库系统造成不良影响,扭曲从数据中获得的信息,影响数据仓库的运行效果,进一步影响数据挖掘效能,最终影响决策管理。因此,为了使数据仓库系统中的记录更准确、一致,消除重复和异常记录就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在数据仓库构建过程中占据重要位置。对于任何数据仓库而言,数据清洗过程都是必不可少的。3数据清洗定义所谓的数据清洗,是在数据仓库中去除冗余,清除错误和不一致数据的过程,并需要解决元组重复问题。数据清洗并不是简单地用优质数据更新记录,它还
7、涉及数据的分解与重组。4数据清洗的步骤4.1定义和确定错误的类型4.1.1数据分析数据分析是数据清洗的前提与基础,通过详尽的数据分析来检测数据中的错误或不一致情况,除了手动检查数据或者数据样本之外,还可以使用分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题。4.1.2定义清洗转换规则根据上一步进行数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数,数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤。要尽可能的为模式相关的数据清洗和转换指定一种查询和匹配语言,从而使转换代
8、码的自动生成变成可能。4.2搜寻并识别错误的实例4.2.1自动检测属性错误检测数据集中的属性错误,需要花费大量的人力、物力和时间,而且这个过程本身很容易出错,所以需要利用高的方法自动检测数据集中的属性错误,方法主要有:基于统计的方法,聚类方法,关联规则的方法。4.2.2检测重复记录的算法消除重复记录可以
此文档下载收益归作者所有