欢迎来到天天文库
浏览记录
ID:54127605
大小:260.88 KB
页数:5页
时间:2020-04-29
《数据挖掘中数据预处理的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第7期菅志刚等:数据挖掘中数据预处理的研究与实现·117·*数据挖掘中数据预处理的研究与实现菅志刚,金旭(北京科技大学信息工程学院,北京100083)摘要:数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。并在此基础上,介绍了数据挖掘软件KDD中数据预处理技术的实现。关键词:数据预处理;数据分析;KDD(KnowiedgeDiscoverinDatabase)中图法分类
2、号:TP391文献标识码:A文章编号:1001-3695(2004)07-0117-02ResearchonDataPreprocessinDataMiningandItsAppiicationJIANZhi-gang,JINXu(Dept.ofComputerScience&Engineering,BeijingUniuersityofScience&Technology,Beijing100083,China)Abstract:Indatamining,datapreprocessconvertsthereaidatab
3、asetotheminingdatabase.Sotheminingaigorithmscanruneffectiveiyandtheminingresuitscangetabetterdispiay.Aimatstructuraidata,discussestwotargetsofthedatapreprocess.Oneistoeiiminatethedefectsinreaidatabase.Theotheristomakepreparefortheminingprocess.Onthisbases,weintro-d
4、uceitsappiicationintheKDD,asoftwareofdatamining.Keywords:DataPreprocess;DataAnaiysis;DataMining;KDD数据挖掘整体过程中,原始数据库中的数据从现实中提取趣,希望通过数据挖掘工具对相关数据的操作来发现该主题下而来,存在着各种各样现实中不可避免的缺陷。海量数据GB一些隐含的规律,从而对所从事的行业行为有所指导。而数据乃至TB,使得运行时间成为需要考虑的问题;不同数据表中对库中的数据数量巨大,涵盖范围也相对比较广泛。有些数据表相同属性的
5、不同命名,在表面上切断了数据之间联系;数据表格中的数据根本上是没有联系的。如果不对数据库进行简单中总会有大量的空缺值,甚至是错误的记录。这些问题形成了筛选,则会使无用数据参与挖掘过程,造成各种资源上的浪费。原始数据库与数据挖掘所需要的挖掘数据库之间一道鸿更为严重的问题是,由于一般挖掘算法仅对抽象的数据进行操[1]沟。即使这些问题在一定程度上得以解决,考虑到挖掘算作,即使完全不相关的数据也会“挖掘”出“规律”。这种规律法的有效性和运行时间的问题,还需要对数据库中的数据做一可以说毫无实际意义,仅是数据海量造成的结果。定的处理。以
6、上,从原始数据库到挖掘数据库之间,对数据进数据库操作人员对数据库中的数据有充分的了解,由他们行的操作称为数据预处理。数据预处理一般分为四个步骤:数来选择待挖掘数据是很适合的。但是,考虑到数据量的巨大,据选取、数据表属性一致化、数据清理、数据离散化(数据归如果完全由人来进行选取是不现实的。一般我们采取人机结约)。其中,前三个步骤解决原始数据库中表面存在的问题,合的方式。由人来选择较高概念层次上的数据类别,而通过预[2,3]已经有了相应的多种方法和技术;第四个步骤涉及到原始先编制好的程序来选择数据库中具体的数据表格。如果数据数据
7、库中数据的内涵,对下一步的挖掘工作起着决定性作用,挖掘在数据仓库的基础上进行,那么操作起来会方便一些;如[4]一般采用具有一定智能化的处理方法,而为了避免挖掘出果没有建立数据仓库,在数据表选取的时候会遇到所谓“实体[5]类似“圣经密码”的无效知识,领域专家的参与在该步骤是[3]识别”问题,即同一实体在不同数据表中由不同的属性来表[6]必不可少的。示,通常我们可以通过元数据的查询来解决这一问题。实体识别问题在数据表属性一致化中将得到根本解决。!"数据选取#"数据表属性一致化数据选取是从用户的原始数据库中由用户指定选出用户感兴趣
8、的、与知识发现任务相关的数据表项。用户在选择过程当待挖掘的数据表已经选取完毕时,我们开始对这些数据中可以通过查看所选数据表的记录数据,来作出进一步的选择表中的数据进行挖掘前的预处理。首先,在数据表的属性这一判断。通常用户都是对数据库中的数据包含的某个主题感兴层次上进行统一。主要解决上边提到
此文档下载收益归作者所有