关于数据挖掘中的数据预处理分析-论文.pdf

关于数据挖掘中的数据预处理分析-论文.pdf

ID:53026845

大小:130.44 KB

页数:1页

时间:2020-04-14

关于数据挖掘中的数据预处理分析-论文.pdf_第1页
资源描述:

《关于数据挖掘中的数据预处理分析-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、技术创新关于数据挖掘中的数据预处理分析王江涛重庆邮电大学软件工程学院重庆400065摘要:在当代,数据的处理大都依靠数据库对其进行存储、传输、采集等,但是数据库又会经常受到很多因素影响,因为通常情况下数据库的容量都会非常大,所以必须要保证数据质量。而预处理就是就提高数据挖掘质量的一种非常好的方法。本文就通过对数据挖掘中的数据预处理的基本功能进行分析,并提出了预处理的主要方法。关键词:数据挖掘:预处理;功能方法中图分类号:TP311.13文献标识码:A文章编号:1671578o(2o15)Ol一0002一()l在数据库不断发展壮大的环境,数据挖掘技术也正逐渐2数据挖掘中数据预处理的主

2、要方法应用于数据处理中。数据挖掘过程主要包括数据采集、数据2.1基于粗糙集理论的约简方法预处理、数据开采和评价呈现,其中数据预处理在整个过程粗糙集理论是一种研究不稳定性知识和不准确知识的中占据非常关键的地位,属于数据挖掘中不可或缺的处理技教学工具,也是一种精简数据维数,处理数据非常有效的方术。其突出功能是可以快速有效地挖掘出数据,正确使用其法。粗糙集理论不需要提供处理信息需要的数据集合之外的功能及采用正确的使用方法可以确保数据处理更有效。信息,它可以直接利用定义在数据集合上的等价关系对数据1顸处理的基本功能进行划分。因此应用粗糙集理论的数据预处理方法不需要提1.1数据集成前知道额外

3、的信息,同时操作方便、算法也很简单。但是粗数据集成主要是利用合并的方式处理异构数据,而异构糙集理论只能处理离散化的属性,要处理连续性的属性必须数据的运行环境主要包括了两个,多数据和多文件的运行环要进行离散化之后才能使用粗糙集理论处理。境,且在处理的过程中这两个环境是处于同时运行的状态。2.2基于概念树的数据浓缩方法数据集成主要解决数据的模糊性,也就是处理数据的冲突、概念树是指在数据库中有很多属性可以数据归类,根据选择及不一致等模糊性的问题。异构数据有时会存在转换问抽象成都的不同将各概念和各属性构成一个层次的结构。基题,因为只是发现的数据有时会从不同的实际系统中提取出于概念树的数据预

4、处理方法主要思路是一个属性中父概念来。此外,从不同数据源提取出来的数据通常也会有很多不代替具体的值,构成更好的元祖,计算出被宏元组覆盖的元一样的地方,比如结构、单位、命名等。祖数目,把那些分散的、不是常规的少数宏元组剪除掉。概所以,数据集成不仅是数据合并那么简单,它还可以将念树的方法其实是概念泛化处理,将处理的数据表现出不同数据进行规范化和统一化的复杂处理。在一些原始数据中出的密度和层次。现的矛盾问题,比如异名同义、字长不一样、单位不一样等,2.3基于统计分析的属性选取方法数据集成都可以在最低层次上对原始数据进行提炼、聚集和属性的选取可以应用统计分析中的一些算法,比如逐步转换,从而

5、形成最开始的知识发现空间。同时,数据集成还回归分析、主成分分析、公共图素模型分析都可以用统计分需要注意数据类型的选择,优先选择数据应在整个系统空间析。将某个事物的多个变量压缩成描述这个事物的主要成分中不会占据太多的容量,这样对那些大规模的数据来说将会或者少数的几个综合变量,用这些少数的综合变量和主成分减少系统开销的物理空间。代替原始的变量,而且让这种替代损失达到虽少。概念树的1.2数据清理数据预处理方法可以做到信息损失量最小、回归性最好、变数据清理主要是清除一些脏数据、修复遗漏数据、去除差性最优、相关性最好。源数据集中的无关数据和噪声数据,还要清理白噪声和一些2.4遗传算法空白数据

6、域,简而言之,数据清理就是对一些缺值、重复数遗传算法是基于分子遗传学和生物进化论的一种全局据进行处理,处理完成之后还需要对这些数据进行类型的转随机搜索算法,将某一个问题的可能解按照一种形式编码,换而清理的过程中应注意观察数据的变化情况与时间顺序。形成染色体,形成新的物种,这样一直繁衍下去,最后形成数据类型的转换在数据是数据清理的一个重要内容,一般是一个最适应环境的个体,从而也会找到问题的最好解答。遗指连续属性的离散化。传算法也可用来对数据进行聚类预处理,而且聚类的结果不就与类别无关的角度上来看,数据类型转换的方法包括会依赖于开始的聚类中心,这种方法通常会获得很好的效果。等额区间法、

7、等距区间法等,与有关类别的方法有归并法、2.5信息论思想和普化知识发现划分法等,离散化可以减少书记标的大小,提高分类的准确普化知识主要有分类知识和特征知识两种形式,有面向性。属性归约算法和数据立方方法两种算法。不同的属性归约次数据清理主要有两种类型,即有监督及无监督。无监督序所获得的结果知识有时会有所不同,所以在进行预处理时就是用样本数据训练算法的过程,在这个过程中可以获得一应该选择使用丢失信息最小的归约次序。在使用普化知识发定的经验,这样在以后的数据处理中自动的运用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。