心理测量中的数据挖掘ppt课件

心理测量中的数据挖掘ppt课件

ID:19738379

大小:1.17 MB

页数:109页

时间:2018-10-05

心理测量中的数据挖掘ppt课件_第1页
心理测量中的数据挖掘ppt课件_第2页
心理测量中的数据挖掘ppt课件_第3页
心理测量中的数据挖掘ppt课件_第4页
心理测量中的数据挖掘ppt课件_第5页
资源描述:

《心理测量中的数据挖掘ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、心理测量中的数据挖掘——关联规则和决策树余嘉元目录2013.5数据挖掘技术概述关联规则2决策树3来华留学生跨文化适应性测量的数据挖掘41我最喜欢的人之一:戴海琦老师中国心理测量的领军人物之一。我最害怕的人之一:戴海琦老师我总是跟不上他豪迈的步伐!1、数据挖掘技术概述1.1数据挖掘概念现代社会,充满了数据但并非所有数据都是完全的许多数据还受到随机因素的影响例如奥巴马、金正恩、禽流感人们希望从数据中找到有规律的知识这就是数据挖掘。1989年,从数据库中发现知识(KDD)从大量的、不完全的、有噪声的数据中发现隐含在数据中的关系,提取具有价值、能被理

2、解的知识的过程。前提条件:数据必须是真实的、大量的、含噪声的发现的是研究者感兴趣的知识;发现的知识要可接受、可理解、可运用。它是针对特定问题的,并不要求发现放之四海皆准的知识。数据挖掘(DataMining)是知识发现中最核心的部分,有时会不加区别的使用“数据挖掘”和“知识发现”这两个词。数据挖掘技术涉及到人工智能、数据库、统计学、模式识别、信息检索等多学科,是一门交叉性的学科。数据挖掘的任务:数据总结:对数据进行压缩;分类和预测:建立一个分类函数或分类模型;发现关联规则:从数据库中发现那些置信度(Confidence)和支持度(Suppor

3、t)都大于给定值的稳健(Robust)规则;聚类分析:使得属于同一个类别的个体之间的距离尽可能小,而使不同类别个体之间的距离尽可能大,把一组个体按照相似性进行归类;以及孤立点分析、演变分析等任务。1.2数据挖掘的方法(1)分类方法:决策树前馈神经网络(BP网络、RBF网络)基于规则的方法(AQ算法、C4.5rule)支持向量机贝叶斯分类粗糙集(2)聚类方法划分聚类(k-means算法)层次聚类基于密度的聚类Kohonen聚类(自组织特征映射)(3)关联分析频繁项集挖掘算法(Apriori算法)关联规则生成算法1.3数据挖掘过程(1)数据准备数

4、据选择、数据预处理及数据类型转换其中的数据预处理工作至关重要,也称为数据清洗,目的是消除或减少噪声。包括数据清理、合并、离散化等。数据清理主要是删除重复记录的数据,查找错误的属性值,利用均值等方式填补缺失值,识别和删除孤立点,平滑噪声数据(脏数据)。数据离散化主要是将连续性质的属性值采用区间的标记来替代实际的数据值,即用区间标记替换连续属性的数值。(2)选择算法根据数据挖掘的目的,如数据分类、聚类、关联规则发现等,选择相应的挖掘算法。(3)对模式进行评估对于冗余或无关的模式进行剔除;对于不满足实际要求的模式,返回到前面的阶段,重新选择数据、采

5、用新的数据变换方法、设定新的参数值,甚至变换挖掘算法等。2、关联规则为了考察两个变量线性相关的密切程度,通常采用相关系数对变量间关系进行度量。关联规则比相关系数能够得到更多信息,可以量化相互关系中两者的出现概率,以及前者出现对后者出现的影响率。即一个事件的出现时,另一事件出现的概率有多大,如果概率较大,则前后两者的关系接近因果关系,因此比相关分析的结果更有意义。相关系数的缺点:作为线性关联的度量,不便于描述非线性关系,且非线性关系与变量分布有关,计算方法也不同。对于不同类型的数据,需要采用不同的相关系数。等距变量:Pearson相关系数;两个

6、等级变量:Spearman相关系数多个等级变量:Kendall和谐系数。采用不同方法得到的相关系数无法比较,关联规则可以在一定程度上解决该问题。2.1关联规则方法的基本概念关联规则是由Agrawal(1993)提出,最初提出的动机是针对购物篮分析问题,目的是从交易数据库中发现顾客购物的行为规则。关联是指两个或多个变量的取值之间存在某种规律性,关联规则是描述两个或多个变量之间某种潜在关系的规则。实例:超市每周的交易记录称为事务,每一条事务都记录了一次交易中所销售的商品(称为项目)。因此管理者可了解本周各项目的销售量,还可发现哪些项目经常被顾客同

7、时购买。表1样本数据D定义:项目全集I={i1,i2,…im},是本周销售的所有项目的集合,在本例中,I={啤酒,果冻,面包,奶油,花生酱}。定义:事务t是某个客户在一次交易中所购项目的集合,并且tI,在本例中,t1={面包,果冻,花生酱}。对应每一个事务有唯一的标识,记作tid。定义:事务集(事务数据库)D={t1,t2,…,tn}是一系列的事务组成。定义:项目集是包含若干个项目的集合。定义:项目集维数是一个项目集中包含的项目的个数,也称为项目集长度。对于长度为k的项目集,称为k-项目集。支持度(support):设X是I中的一个项目集(

8、即XI),D是一个事务集,那么称D中包含项目集X的事务个数与D中总的事务个数之比称为X在D中的支持度,记做support(X),support(X)=支持度用于发

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。