数据预处理技术的具体实现形式研究new

数据预处理技术的具体实现形式研究new

ID:34445524

大小:344.37 KB

页数:3页

时间:2019-03-06

数据预处理技术的具体实现形式研究new_第1页
数据预处理技术的具体实现形式研究new_第2页
数据预处理技术的具体实现形式研究new_第3页
资源描述:

《数据预处理技术的具体实现形式研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、技术应用数据预处理技术的具体实现形式研究邵明豪哈尔滨工业大学(威海)管理学院山东264209摘要:数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。本文针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。关键词:数据挖掘;数据预处理;数据清理0引言(1)空缺值处理。可采取以下几种方法:①忽略,当一对于任何一个应用系统,都不能保证数据的洁净,这严个元组的多个属性值空缺时,通常忽略它,即在数据表格中重地影响了数据挖掘结果的质量。含噪声的、冗余的数据会删除;②填补,

2、当元组仅有少数属性值缺少,一般要对空缺使挖掘过程陷入混乱,导致不可靠的输出。而大量的冗余数值进行填补。填补有多种方式,人工填补、全局常量和所属据可能降低知识发现过程的性能或使之陷入混乱。数据预处属性下的平均值。还可以对该属性下的数据应用推导工具(判理技术可以改进数据的质量,从而有助于提高其后的挖掘过定树等),通过对其他数值的分析来得到最可能的填充值。对程的精度和性能。由于高质量的决策必然依赖于高质量的数于不同属性下的空缺值,我们需要不同的处理方法。通常认据。检测数据异常、尽早地调整数据,并归约待分析的数据,为应用推导工具分析出来的数值更加可靠和有实用价值。将在决策

3、过程得到高回报。(2)错误数据处理。首先要能分辨出带有错误数据的元一个完整的数据挖掘系统必须包括数据预处理模块。它组,然后决定是更改数据还是忽略元组。通常在定义数据字以发现任务作为目标,以领域知识作为指导,用全新的“业典时,对数据有一个基本的规定。在这之上,现实世界中的务模型”来组织原来的业务数据,摈弃一些与挖掘目标不相事物都有其自身的约束,数据库中数据所系的实体亦然。譬关的属性,为数据挖掘内核算法提供干净、准确、更有针对如,教师工资是在1000~5000间的一个实数(其他的表示方式的数据,从而减少挖掘内核的数据处理量,提高挖掘效率,提转换过来也应该满足这一要求)

4、。这就是“教师工资”属性下高知识发现的起点和知识的准确度。数据预处理是数据挖掘的一个约束,如果有哪一个元组的该属性下的值跳出这一范前的数据准备工作,一方面保证挖掘数据的正确性和有效性,围,那么这是一个错误数据。显然该属性不能为文字或图片,另一方面通过对数据格式和内容的调整,使数据更符合挖掘而只能是实数。当然并不是所有的约束都这么简单,但它们的需要。其目的在于把一些与数据分析、挖掘无关的项清除的共性是总可以找出一个函数来作为约束函数。掉,为了给挖掘算法提供更高质量的数据。(3)处理噪声和孤立点数据。处理此类数据,目前最广有大量数据预处理技术,数据清理可以去掉数据中的

5、噪泛的是应用数据平滑技术。1999年,Pyle系统归纳了利用数音,纠正不一致。数据集成将数据由多个源合并成一致的数据平滑技术处理噪声数据的方法,主要有:①分箱技术,检据存储,如数据仓库或数据方。数据变换(如规范化)也可以使测周围相应属性值进行局部数据平滑;②聚类技术,根据要用。例如,规范化可以改进涉及距离度量的挖掘算法的精度求选择模糊聚类分析或灰色聚类分析技术检测孤立点数据,和有效性。数据归约可以通过聚集、删除冗余特征或聚类等并进行修正,还可结合使用灰色数学或粗糙集等数学方法进方法来压缩数据。这些数据处理技术在数据挖掘之前使用,行相应检测;③利用回归函数或时间序列

6、分析的方法进行修可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的正;④计算机和人工相结合的方式等。对此类数据,尤其对时间。于孤立点或异常数据,是不可以随便以删除方式进行处理的。1数据清理对于孤立点应先进入数据库,而不进行任何处理。当然,如对其中的数据进行清理时,主要解决的问题有:空缺值、果结合专业知识分析,确信无用则可进行删除处理。错误数据、孤立点、噪声。其中空缺值和错误数据是这一步2数据集成骤处理的重点,而后两者因为有可能在其中发现某些特殊规在分析中经常包含来自多个数据源的数据,这就需要把律,所以可以暂时不进行处理。来自多个数据库、数据立方体或文件的数据结合

7、起来存放在作者简介:邵明豪(1989-),男,哈尔滨工业大学信息管理与信息系统专业在读,研究方向:数据库,系统集成。522009.6技术应用一个一致的数据存储中,即数据集成。为了提高挖掘的效率,行相应处理。数据规约就是在减少数据存储空间的同时尽可有时还需要将数据转换成适于挖掘的形式。数据集成时有许能保证数据的完整性,获得比原始数据小得多的数据,并将多问题需要考虑,例如,实体识别问题是其中的一个问题,实数据以合乎要求的方式表示。数据归约的主要方法见表2。体识别问题主要是匹配来自多个信息源的现实世界的实体。表2常见的数据归约方法例如,数据分析人员或计算机如何才能确信一

8、个数据库中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。