数据挖掘(基于数据挖掘导论pdf).doc

数据挖掘(基于数据挖掘导论pdf).doc

ID:59194564

大小:15.00 KB

页数:2页

时间:2020-09-10

数据挖掘(基于数据挖掘导论pdf).doc_第1页
数据挖掘(基于数据挖掘导论pdf).doc_第2页
资源描述:

《数据挖掘(基于数据挖掘导论pdf).doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、一、数据预处理1)数据清洗(主要用于填补数据记录中的遗漏数据,识别异常数据,以及纠正数据中的不一致问题):①遗漏数据处理:忽略该条记录(遗漏比例较大时不很有效),手工填补遗漏值(大规模数据可行性差),利用缺省值填补遗漏值,利用均值填补遗漏值,利用同类别均值填补遗漏值(尤其在进行分类挖掘时),利用最可能的值填补遗漏值(可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值,最常用)②噪声数据处理:Bin方法,聚类方法,人机结合检查方法,回归方法(如线性回归方法,多变量回归方法)③不一致数据处理:2)数据集成处理(来自多个数据源的数据):模式集成,

2、冗余问题(冗余属性),数据值冲突检测与消除3)数据转换处理(用于将数据转换成适合数据挖掘的形式):平滑处理(bin方法,聚类方法,回归方法),合计处理,数据泛化处理,规格化(最大最小规格化方法,零均值规格化方法,十基数变换规格化方法),属性构造,4)数据消减:数据立方合计(主要用于构造数据仓库操作),维数消减(主要用于检测和消除无关、弱相关、或冗余的属性),数据压缩(利用编码技术压缩数据集的大小,方法:小波分析(更适合对高维数据进行处理变换),主要素分析(PCA)(能较好地处理稀疏数据)),数据块消减(利用更简单的数据表达形式来取代原有的数据如:参数模型(如线性回归模

3、型),非参数模型(聚类、采样[SRSWOR方法,SRSWR方法,聚类采样方法,分层采样方法]、直方图(等宽方法,等高方法,V-Optimal方法,MaxDiff方法)等)),离散化与概念层次生成1)离散化和概念层次树生成:数值概念层次树生成(Bin方法,直方图方法,聚类分析方法,基于熵的离散化方法,自然划分分段方法(3-4-5规则)),类别概念层次树生成一、数据泛化1)数据立方方法(OLAP方法)2)基于属性的归纳方法(AOI方法)二、属性相关分析属性相关分析过程:数据收集,利用保守AOI方法进行属性相关分析,利用所确定评估标准评估每个初选后的属性,消除无关或弱相关的

4、属性,利用AOI方法生成概念描述三、分类与预测

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。