数据挖掘过程中数据清洗的研究-论文.pdf

数据挖掘过程中数据清洗的研究-论文.pdf

ID:57925305

大小:554.56 KB

页数:4页

时间:2020-04-14

数据挖掘过程中数据清洗的研究-论文.pdf_第1页
数据挖掘过程中数据清洗的研究-论文.pdf_第2页
数据挖掘过程中数据清洗的研究-论文.pdf_第3页
数据挖掘过程中数据清洗的研究-论文.pdf_第4页
资源描述:

《数据挖掘过程中数据清洗的研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第36卷第2期通化师范学院学报(自然科学)V0l_36№22015年4月JOURNALOFTONGHUANORMALUNIVERSITYApr.2015DOI:10.13877/j.cnki.cn22—1284.2015.04.003数据挖掘过程中数据清洗的研究孟龙梅(滁州职业技术学院信息工程系,安徽滁州239000)随着IT技术的发展、信息系统的广泛应用,大量的数据被生成并存储在数据库中.应用数据挖掘圈一.技术在数据中寻找它们的相关性和其他有用的信;息,可以帮助企业更好地适应变化,并做出更合理的囤匮囹决策.通过对数据的清洗和转换可以提高数据的质\\^/————————量,提高数据

2、挖掘结果的准确性,为用户提供了可.数据挖掘弓l擎、)靠、可用的数据决策支持.、一一一一一._一。1数据挖掘的过程从广义上说,任何从数据库中挖掘信息的过程臣圆都叫做数据挖掘.但是,从技术术语上说,数据挖掘图l数据挖掘的过程特指的是:源数据经过清洗和转换成为适合于挖掘决策树、神经网络算法、贝叶斯算法心].面临数据分的数据集,然后建立特定的挖掘模型,利用这些数据类任务,原始数据往往存在很多问题,不能直接用于集训练模型,最后利用模型找出知识模式进行预测,数据挖掘,需要对数据进行清洗,使这些数据符合数从而辅助决策工作⋯.数据挖掘的过程如图1表据挖掘任务.示.首先定义一个数据挖掘的问题,然后收

3、集相关的2数据清洗概述数据放人数据仓库中,再对数据进行清洗处理,得到将数据按照数据挖掘源数据的要求进行处理的要进行分析的数据,应用数据挖掘算法、构建挖掘模工作可以通过数据清洗来解决.数据清洗是指发现并型,使用数据挖掘引擎,再分析得到的数据.且纠正数据文件中可识别的错误的最后一道程序,包例如分类是数据挖掘中最常见的任务之一.把括检查数据一致性,处理数据录人后的无效值和缺失数据按照属性分成多个类别,基于数据集中的其他值等.数据清洗的目的是除去数据集中不符合要求属性预测一个或多个离散变量.典型的分类算法有和不相关的信息.数据清洗的领域有如下几个方面.{收稿日期:2015—03—15基金项

4、目:安徽省岛等学校省级质量C程项目“示范实验实训中心信息实训中心”(2014sxzx032);滁州职业技术学院质量工程项目“计算机应用专业教学团队”(zlgc2014006)作者简介:盂龙梅,女,安徽滁州人,讲师.·7·2.1数据一致性检查而给出相应的数据清理方法.例如,在数据清洗中,数据一致性检查是根据每个变量的取值范围和SQL的CASE表达式是一种非常灵活的方式,用于相互关系,检查数据是否合乎要求,发现超出正常范创建有意义的变量.围或者逻辑上不合理的数据.具有逻辑上不一致CASE表达式允许根据对一个或者多个条件的性的问题可能以多种方式存在:例如,在人员基本信评估来指派结果.运用

5、CASE可以达到以下目标:改息中,对象的出生日期与从身份证号码中的编号看变值的标签,手动离散化列、减少有效状态的个数.出的出生日期不一样.当发现不一样时,要记录下(1)数据的处理方法.如果有些缺失的数据可来,便于进一步核实纠正.由其他数据源推导出来,可利用一定的推导方法将2.2无效值与缺失值的处理数据导入.否则能够用手工填入的数据就由手工填由于录入、理解上的误差,数据中可能存在一些入.无效值和缺失值,针对这一类型的值,需要有适当的(2)错误值的检测及解决方法.可以用统计分处理方法.常用的处理方法有:估计、整列删除、析方法来识别错误值或异常值,亦可使用常识性规变量删除.则来检测和清理

6、数据.估计,最容易的办法就是用其他变量的值代替(3)重复记录的检测及消除方法.数据库中属无效值或缺失值.这种办法较简单,但误差可能较性值完全相同的记录被认为是重复记录,通过判断大.另一种办法就是根据该对象其他数据的填写,通记录间的属性值是否相等来检测记录是否重复,对过逻辑推论进行估计.于重复的记录可采取合并或清除.整列删除,是删除含有缺失值的数据.这种做法(4)不一致性的检测及解决方法.可以通过定的缺点是导致数据样本量大大减少,无法利用这一义数据的完整性约束来检测数据的不一致性.也可部分数据.以通过分析数据发现联系,从而使数据保持一致.变量删除,若某一变量的缺失值很多,而且该变4数

7、据清洗的实现量对于所研究的问题不是特别重要,则可以考虑将数据清洗是数据库服务中必需有的一项技术,该变量删除.SQLServer就提供了这种服务与技术.以高技能人3数据清洗的原理与方法才信息系统数据库中的数据为例,如果以高技能人3.1数据清洗的原理才的年龄、性别、学历、培训经历等作为影响预测其数据清洗原理是利用有关技术,按照预先定义能否获奖的因素参与数据挖掘,那么就要为数据挖好的清理规则将原始未经清洗的数据,即脏数据,转掘准备相关的数据.高技能人才信息系统的数据库化为满

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。