欢迎来到天天文库
浏览记录
ID:55915230
大小:84.50 KB
页数:9页
时间:2020-06-14
《大数据挖掘课程报告材料.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘课程报告XX2012/12/8信息高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。学号XXXXXXX绪论数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。(1)数据是对客观事物记录下来的、可以鉴别的符号,这些符号不仅指数字,而且包括字符、文字、图形等等;数据经过处理仍然是数据。处理数据是为了便于更好地解释,只有经过解释,数据才有意义,才成为信息;可以说信息是经过加工以后、并对客
2、观世界产生影响的数据。(2)信息(1nformation)是对客观世界各种事物的特征的反映,是关于客观事实的可通讯的知识。(3)所谓知识,就是反映各种事物的信息进入人们大脑,对神经细胞产生作用后留下的痕迹。知识是由信息形成的。(4)在管理过程中,同一数据,每个人的解释可能不同,其对决策的影响可能不同。结果,决策者利用经过处理的数据做出决策,可能取得成功,也可能失败,这里的关键在于对数据的解释是否正确,即:是否正确地运用知识对数据做出解释,以得到准确的信息。数据(1)数据类型:左边这图中包含bool,string,int三种类型。一个数据集中的所有
3、数据对象都具有相同的数值属性集,则数据对象可以看作多维空间的点,每个维代表描述对象的一个不同属性行:对象列:属性(2)数据质量(3)数据预处理(4)相似度和相异度的度量聚类和分类在这里主要学习和应用了决策树的知识。决策树的结构一棵决策树是这样一棵树,该树的每个非终端点均表示被考察数据项目的一个测试或决策。根据测试结果,选择某个分支。为了分类一个特定数据项目,我们从根结点开始,一直向下判定,直到到达一个终端结点(或叶子)为止。当到达一个终端结点时,一个决策树便形成了。决策树是运用于分类的一种类似于流程图的树结构[9]。其中的每个部节点(intern
4、alnode)代表对某个属性的一次测试,一条边代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(classdistribution)。最上面的节点是根结点。这就是一颗简单的决策树。决策树的特性:决策树有很多的优点,是实际应用和学术研究领域最普遍采用的方法之一。主要特点有:1.灵活性决策树不需要对数据的分布进行任何假设,它是非参数方法。事例空间被分成子空间,每一个子空间适用于不同的模型。一棵决策树能完全包含一个事例空间,如果有足够的数据,它能近似任意函数的最优贝叶斯错误率。2.健壮性对单变量经过单调转换后的输入,单变量树的输出
5、是不变的。例如,对x,log2x,或者作为第j个输入变量,会产生同样结构的树。因此没有必要考虑输入变量的转换式。另外由于对部属性进行了选择,相对于有不相关输入变量的情况,而产生的树更加具有健壮性。3.可解释性全面的和复杂的决策可以通过一系列简单和局部的决策近似取得。所有的决策都是用来描述该问题的属性值上的。决策树具有这两个特性,具有可理解性和可解释性,它们是决策树被广泛使用的原因。4.速度决策树算法采用自上而下,分而治之,不需要回溯战略的一种贪婪算法。时间复杂是与例子的数目成线性关系的同样,决策树也面对一些问题:1.分块分块使得数据被分成较小的子
6、集。假定每次分枝数据都分成相等大小的数目,那决策树所要测试的属性的复杂度不大于O(logn)。在有许多相关属性的情形下,这是理想的结果。2.复制子树的复制指的是在不同的分枝复制相同的属性测试。由于属性间存在相关性项性(一个结果可由多个条件决定),例如,布尔函数f=X1X2+X3X4中属性X1和X2,或者属性X3属性X4间不是相互独立的,而是存在相关性;另外该布尔函数有多个乘积项X1X2和X3X4。出现这种情况时,生成的决策树会有子树复制问题。复制现象导致决策树理解,同时还导致分块问题:当树很大时,会造成数据集的划分越来越小,从而性能越差。3.缺值
7、决策树是一种层次测试方法,如果某个属性值未知的话,就会难以决定下一步分枝,因此必须使用特殊的机制来处理缺值的问题。4.连续属性决策树算法的瓶颈是对连续属性的处理。在这种情况下,要在每一个节点对每一个属性进行一系列的操作。有学者认为处理许多的连续属性的操作占决策树构造过程70%的时间。5.不稳定性训练集的小的变化能引起最终的树发生很大的变化。在每一个节点,分枝度量准则对属性进行排列并选择最好的属性进行排序。如果有两个以上的属性具有相同的排序值,则训练集数据的小的变化就能改变排序,该节点下面的子树就会发生变化。这种递归的分枝战略表明对于每个产生的分枝
8、,数据集基于测试属性被分割,在进行了一些分割后,通常就只有非常少的数据进行决策,因此靠近叶节点做出的决策就没有在根节点附近做出的决策可靠
此文档下载收益归作者所有