数据挖掘中数据预处理的研究

数据挖掘中数据预处理的研究

ID:24525695

大小:52.00 KB

页数:6页

时间:2018-11-14

数据挖掘中数据预处理的研究_第1页
数据挖掘中数据预处理的研究_第2页
数据挖掘中数据预处理的研究_第3页
数据挖掘中数据预处理的研究_第4页
数据挖掘中数据预处理的研究_第5页
资源描述:

《数据挖掘中数据预处理的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘中数据预处理的研究胡秀(荆楚理工学院计算机工程学院,湖北荆门448000)摘要:本文旨在研究数据挖掘中数据预处理技术,首先通过简单介绍数据挖掘的基本概念以及数据挖掘的逻辑构成,介绍了数据预处理在整个数据挖掘过程中所处的阶段,然后从数据预处理的数据清洗、数据变换、数据集成、数据简化等数据预处理操作入手,详细介绍了填充缺失值、弱化噪声数据、数据集成等数据预处理技术,最后给予专门的数据预处理的流程来实现数据挖掘中的数据预处理的过程..jyqkation)、数据集成(DataIntegration)、数据简化

2、(DataReduction)等数据处理过程,主要包括了消除噪声数据、推导计算缺值数据、消除重复记录、按成数据类型转换等数据操作.得到预处理数据之后,就可以利用数据挖掘的技术,对这些数据进行智能挖掘和分类的过程,主要是基于某种思想,设计相应的算法,最后通过对预处理之后的数据进行数据挖掘算法的处理,最终是生成而分类的数据.当然,这时数据挖掘的过程并没有结束,这些数据只是以某种数据挖掘的思想进行分类存储,并没有以具有现实意义的形式展现出来,所以此时还需要开发人员,基于自己的业务逻辑和需求,开发相应的分析或评估功能

3、,对数据挖掘之后的数据进行形象显示,从而形成对企业有用的知识.3数据挖掘中的数据预处理数据预处理是数据挖掘过程中必不可少的一部分,进行数据预处理过程的主要原因是因为从原始数据选取的目标数据,是以原有的数据库初始定义的格式和结构进行存储的数据,存在很多空白数据、重复数据、复杂数据、不可用数据等,这些数据对于数据挖掘来说非常不适用,而且会增加数据挖掘的复杂度,所以需要数据预处理的过程来对目标数据进行预处理,从而生成预处理之后的数据.由图1.可以看出,数据预处理的过程对于数据挖掘来说是非常重要的,是为后期数据挖掘过

4、程奠定坚实基础的过程.常见的数据预处理的过程包括,数据清洗(DataCleaning)、数据变换(DataTransformation)、数据集成(DataIntegration)、数据简化(DataReduction)等内容.其中数据清洗(DataCleaning)的主要操作就是在根据一定的原则和规定对目标数据样本进行消除无关数据或者噪声数据的操作,包括处理数据样本内的重复数据以及缺省数据等.数据变换(DataTransformation)的操作主要是对处理后的数据进行降维处理,从而消除原始特征力度无效属性

5、,找到真正有用的特征,以方便后期数据挖掘的处理和计算.数据集成(DataIntegration)的操作主要是合并目标数据样本内存在的异构数据,主要包括数据的选择、不同数据库文件之间的数据冲突以及不一致等问题的处理操作.数据简化(DataReduction)的过程是在挖掘目标的有用特征以及对数据自身内容理解的基础上,尽量保持目标数据样本原有的数据特性的基础上,最大限度地对目标数据样本进行精简处理的过程,主要包括数据样本的参考属性选择以及数据抽样的数据处理.3.1数据预处理主要方法数据预处理的主要方法是填充目标数

6、据缺失值、消弱噪声数据、数据集成等.在我们设计信息管理系统伊始,会考虑到各种各样的问题,所以在设计数据存储表时会牵涉到各方面的信息,而在实际的应用过程中,之前设计的数据表的内容有很多时候并未有实际的数据,而是使用了缺失值存储,如果这些数据作为数据挖掘处理,会带来诸多不便,所以对于这些缺失值的处理,可以直接使用人工填写的方法来弥补缺失值,或者用该字段的所有属性值的均值,其他同类的属性值,利用回归或贝叶形式化的推理工具得出的最有可能值或最邻近的值的来代替,从而对缺失值进行填充弥补,形成完成的数据.此外,在目标数据

7、中,统一类的属性值可能有某些偏离正常数据,这些数据我们称之为噪声数据,对于噪声数据的数据预处理也需要专门的方法或技术来对其进行噪声消除.常见的方法有分箱法,即对某一个区域内的近邻数据进行观察,从而形成局部噪声消除;回归法则是利用回归函数找出某两个属性值的回归线,通过一个属性来对另外一个属性进行预测;中心点距离法就是计算目标数据的该属性值的平均值,然后计算所有数据对象与中心点的欧氏距离,并对其进行排序,而后根据数据性质和背景知识确定一个距离阈值,而与中心点距离大于该阈值的数据对象则为孤立点.在我们设计信息系统数

8、据表时,各个表格之间需要存在一些冗余来提高各个表之间的关联性,方便信息系统的数据表的关联查询.这也就导致了在得到的目标数据中,可能是因为数据信息的相同或者业务逻辑数据信息的类似,会有一部分的数据信息冗余,这些冗余对于数据挖掘来说也是没有必要的,或者最后需要数据挖掘的对象是来自不通数据库内容的信息,所以要通过数据集成的方法来对冗余数据或者不同数据结构的数据进行集成.在使用数据集成的方法来对数据信息进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。