资源描述:
《数据仓库与数据挖掘技术第6章1决策树》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第六章数据挖掘的基本算法主要内容分类规则挖掘的基本思想是什么?预测分析与趋势分析规则的基本思想是什么?关联算法的基本思想是什么?聚类算法的基本思想是什么?统计分析算法的基本思想是什么?品种优化算法的基本思想是什么?数据挖掘的进化算法的基本思想是什么?11.分类规则挖掘的基本思想是什么?2分类(classification)分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。主要目的是分析输入数据,通过在训练集中的数据表现出来的特性,为每一类找到一种准确的描述或模型。3分类(classific
2、ation)分类问题是数据挖掘领域中研究和应用最为广泛的技术之一分类问题在商业、银行业、医疗诊断、生物学、文本挖掘和因特网筛选等领域都有广泛应用。银行业,可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减少银行的损失;医疗诊断,可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;因特网筛选,可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。4数据分类的基本步骤(参见P126~127)数据分类过程主要包含两个步骤学习建模分类测试5数据分类步骤
3、一:学习建模建立一个描述已知数据集类别或概念的模型;该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可认为是属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别标记属性)。(分类问题数据集的表示)分类学习方法所使用的数据集称为训练样本集合,因此分类学习又可称为监督学习(learningbyexample),它是在已知训练样本类别情况下,通过学习建立相应模型;而无教师监督学习则是训练样本的类别与类别个数均未知的情况下进行的。通常分类学习所获得的模型可以表示为分类规则形式、决策树形式,或数学公式形式。6学习建模举例例如:给定一个顾客信用信息数
4、据库,通过学习所获得的分类规则可用于识别顾客是否是具有良好的信用等级或一般的信用等级。利用训练数据集学习并获得分类规则知识(模型)7数据分类步骤二:分类测试就是利用所获得的模型进行分类操作首先对模型分类准确率进行估计,holdout方法就是一种简单的估计方法。它利用一组带用类别的样本进行分类测试(测试样本随机获得且与训练样本相互独立)。对于一个给定数据集所构造出模型的准确性可以通过由该模型所正确分类的(测试)数据样本个数所占总测试样本比例得到。对于每一个测试样本,其已知的类别与学习所获模型的预测类别进行相比较。若模型的准确率是通过对学习数据集的测试所获得的,这
5、样由于学习模型倾向于过分逼近训练数据,从而造成对模型测试准确率的估计过于乐观。因此需要使用一个测试数据集来对学习所获模型的准确率进行测试工作。8分类测试举例利用学习获得的分类规则(模型),对已知测试数据进行模型准确率的评估,以及对未知(类别)的新顾客(类别)进行分类预测。9分类问题中使用的数据集是用什么形式来表示的呢?AgeSalaryClass30highC125highC221lowC243highC118lowC233lowC1………………分类问题的示例数据集描述属性类别属性10可以将分类问题中使用的数据集表示为X={(xi,yi)
6、i=1,2,…,to
7、tal}其中数据样本xi(i=1,2,…,total)用d维特征向量xi=(xi1,xi2,…,xid)来表示,xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值;yi表示数据样本xi的类标号。假设给定数据集包含m个类别,则yi∈{c1,c2,…,cm},其中c1,c2,…,cm是类别属性c的具体取值,也称为类标号,对于未知类标号的数据样本x,用d维特征向量x=(x1,x2,…,xd)来表示。11应用举例一现有一个顾客邮件地址数据库。利用这些邮件地址可以给潜在顾客发送用于促销的新商品宣传册和将要开始的商品打折信息。该数据库内容就是有关
8、顾客情况的描述,包括年龄、收入、职业和信用等级等属性描述,顾客被分类为是否会成为在本商场购买商品的顾客。当新顾客的信息被加入到数据库中时,就需要对该顾客是否会成为电脑买家进行分类识别(即对顾客购买倾向进行分类),以决定是否给该顾客发送相应商品的宣传册。考虑到不加区分地给每名顾客都发送这类促销宣传册显然是一种很大浪费,而相比之下,有针对性给最大的购买可能的顾客发送其所需要的商品广告才是一种高效节俭的市场营销策略。显然为满足这种应用需求就需要建立顾客(购买倾向)分类规则模型,以帮助商家准确判别之后每个新加入顾客的可能购买倾向。此外若需要对顾客在一年内可能会在商场购
9、买商品的次数(为有序值)进行预测时,就