第五章传统数据挖掘技术1.3.ppt

第五章传统数据挖掘技术1.3.ppt

ID:60904455

大小:6.86 MB

页数:45页

时间:2020-02-04

第五章传统数据挖掘技术1.3.ppt_第1页
第五章传统数据挖掘技术1.3.ppt_第2页
第五章传统数据挖掘技术1.3.ppt_第3页
第五章传统数据挖掘技术1.3.ppt_第4页
第五章传统数据挖掘技术1.3.ppt_第5页
资源描述:

《第五章传统数据挖掘技术1.3.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第五章传统数据挖掘技术5.1传统的统计分析类数据挖掘技术数据挖掘技术从传统意义上说是指数据的统计分析工具。数据挖掘中所采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术。5.1.1统计与统计类数据挖掘技术1.统计与数据挖掘统计推理分析一般需要借助统计数学模型完成,它是利用已有信息推断未知信息的过程。主要是利用过去的资料推断未来,利用局部资料推断总体,利用相关总体的资料进行变量间关系的推断等。2.统计类数据挖掘技术作为统计类的数据挖掘技术包含一般

2、数据库中的聚集函数、数据的度量、数据分布的图形、数据的趋势、数据的最近邻分析和数据的聚类分析等。5.1.2数据的聚集与度量技术1.数据的聚集函数:count()、sum()、avg()、max()、min()2.算数平均值:3.加权算数平均值:5.1.3柱状图数据挖掘技术表5-1客户信用数据库表图5.1信用属性柱状图5.1.4线性回归数据挖掘技术线性回归是最简单的回归形式。双变量回归是将一个随即变量Y(称作响应变量)看作另一个随机变量x(称为预测变量)的线性函数,即假定Y的方差为常数,是回归系数,分别表示直线在Y轴截距和直线的斜率。

3、这些系数可以用最小二乘法求解,这使得实际数据与该直线的估计之间误差很小。给定个或形如回归系数可以用下式来计算:表5-2年薪数据表图5.2工作年数与年薪关系分析表5.1.5非线性回归数据挖掘技术非线性回归的模型主要有:双曲线模型:二次曲线模型:对数模型:三角函数模型:指数模型:幂函数模型:修正指数增长曲线:5.1.6聚类数据挖掘技术图5.3客户聚类分析图1.聚类分析原理其中q=1就是曼哈顿距离,q=2就是欧几里德距离,其余是明考夫斯基距离。以上是加权明考夫斯基距离。2.分层聚类图5.4客户新增与流失分层聚类图表5-3新增与流失客户数据

4、3.划分聚类图k均值划分算法图基于k均值方法的一组对象的聚类图k中心点划分算法PAM图k中心聚类代价函数的四种情况4.密度聚类图在基于密度聚类中密度可达和密度相连性(DBSCAN)图OPTICS术语图OPTICS中的簇次序可达距离对象的簇次序无定义‘图2-D数据集的可能密度函数(DENCLUE)图中心定义的簇(顶部)和任意形状的簇(底部)的例子5.网格聚类图STING聚类的层次结构图特征空间及其多种分辨率结果(WaveCluster)6.模型聚类图分类树图神经网络方法TheresultofSOMclusteringof12088We

5、barticlesThepictureontheright:drillingdownonthekeyword“mining”Basedonwebsom.hut.fiWebpage5.1.7最近邻数据挖掘技术图5.5最近邻的预测数据A、B和C的信用评价情况5.2统计分析类工具5.2.1统计类数据挖掘工具许多数据挖掘工具都使用了这样一些统计分析过程:决策树推断(C4.5、CART)、规则推断(AQ、CN2、RECON)、最近邻方法、聚类方法、关联规则、特征提取和可视化等。但是许多常规的数据挖掘工具并不包含一些常用的统计方法。例如,假设检

6、验、实验设计、线性回归、判别分析、各种非线性回归、相关分析和因子分析。5.2.2统计类数据挖掘的商业分析图5.6商业分析人员在统计类数据挖掘中的作用5.2.3统计类数据挖掘工具的功能1.可视化功能2.探索功能3.统计和操作功能4.数据管理功能5.显示功能6.数据挖掘结果描述功能7.开发工具8.可接受的响应时间5.2.4统计类数据挖掘工具-spssSPSS功能:1.基本统计分析2.回归分析3.相关分析4.分类分析5.因子分析5.3统计分析类工具的应用5.3.1趋势分析图股票价格的时间序列数据5.3.2时序分析图时间序列数据中的子序列匹

7、配5.3.3周期分析图5.10超市销售情况周变化趋势5.4统计分析类工具应用的问题5.4.1统计类数据挖掘的预处理问题数据清理包括空缺值处理、噪声数据处理和不一致数据处理:1.空缺值处理1)忽略元组2)人工填写空缺值3)使用一个全局变量填充空缺值4)使用属性的平均值填充空缺值5)使用最可能的值填充空缺值2.噪声数据处理1)分箱2)聚类3)计算机和人工检查结合4)回归图5.11分箱技术的示例3.不一致数据的处理对于有些事务,所记录的数据可能存在不一致。1)有些数据的不一致可以通过使用其他数据进行人工更正。2)知识工程工具也可以用来检测

8、违反限制的数据。5.4.2统计分析应遵循的基本原则1.与定性分析相结合的原则2.连贯和类推原则3.统计资料的可靠性和分析公式的适应性原则5.4.3统计分析的步骤1.确定挖掘对象2.收集、审核及分析统计数据3.确定分析模型、选择合适的统

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。