《应用关联规则》PPT课件.ppt

《应用关联规则》PPT课件.ppt

ID:57979418

大小:494.97 KB

页数:29页

时间:2020-09-04

《应用关联规则》PPT课件.ppt_第1页
《应用关联规则》PPT课件.ppt_第2页
《应用关联规则》PPT课件.ppt_第3页
《应用关联规则》PPT课件.ppt_第4页
《应用关联规则》PPT课件.ppt_第5页
资源描述:

《《应用关联规则》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关联规则 应用1关联规则设I={I1,I2,…,Im}是一组数据项集合,D是与任务相关的数据集合,也称为交易数据库。其中每个交易T是一个数据项子集,T∈I。关联规则是如下形式的一种蕴含:AB,表示Ifconditionsthenresult其中A∈I,B∈I,且A∩B=。一般用支持度、可信度、期望可信度、作用度4个参数来描述一个关联规则的属性。可信度:在属性集A出现的前提下,B出现的概率P(B

2、A)支持度:属性集A,B同时出现的概率P(A∧B)期望可信度:属性集B出现的概率P(B)作用度:可信度对期望可信度的比值P(B

3、A)/P(B)可信度是对关联规则准确度的衡量,支持度是对关

4、联规则重要性的衡量。显然,支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。作用度描述属性集A的出现对属性集B的出现有多大影响。作用度越大,说明属性集B受属性集A的影响越大。一般情况,有用的关联规则的作用度都应大于1,只有关联规则的可信度大于期望可信度,才说明A的出现对B的出现有促进作用,也说明了它们之间某种程度的相关性,如果作用度不大于1,则此关联规则就没有意义。2关联规则算法(Apriori算法)2.1概念介绍项集:一个数据项的集合;K项集:一个包含k个数据项的项集;项集频度:整个交易数据库D中,包含该项集的

5、交易记录数,也称为该项集的支持度。频繁项集:满足最小支持度的项集。若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中的记录数,就称该项集满足最小支持度阈值;满足最小支持度阈值所对应的交易记录数称为最小支持频度。返回2.2Apriori算法Apriori算法是一个基于两阶段频繁项集的数据挖掘方法,将关联规则挖掘算法分为两部分:一是找到所有支持度大于最小支持度的项集,称为频繁项集,二是使用第一步找到的频繁项集产生期望规则.Apriori算法的性质:如果一个项集是频繁的,则它的所有子集也是频繁的。首先,给定最小支持度及最小可信度。返回第一步:找频繁项集由数据库读入所有的交易,得

6、出候选单项集的支持度,再找出频繁单项集,并利用这些频繁单项集的结合,产生候选2项集,若候选2项集的支持度大于或等于最小支持度,则该候选项集为频繁项集,即为频繁2项集,并利用频繁2项集的结合,产生候选3项集,若候选3项集的支持度大于或等于最小支持度,则该候选项集为频繁3项集,并利用高频3项集的结合,产生候选4项,……,最后产生频繁多项集,再结合产生下一级候选项集,直到新产生的候选项集的支持度小于给定的最小支持度,则不再结合产生新的候选项集,算法结束。第二步:由频繁项集产生期望规则(1)对于每个频繁项集L,产生L的所有非空子集;(2)对于L的每个非空子集S,如果其可信度大于最小可信

7、度,则输出规则”sL-s”(一)Apriori算法在学生成绩分析中的应用研究学生的各科考试成绩一直以来作为国内各高等院校评价学生学业以及综合素质的重要指标,各高校经过长期的积累都储存了大量的学生成绩信息,但对成绩的分析处理一般还停留在简单的查询和统计阶段,例如统计优、良、及格、不及格等级别的人数以及计算平均成绩、标准差等指标,而对于学生取得这些成绩与课程之间的关系有无关联往往没有深入了解。如果能够合理开发利用这些数据,找到课程之间的相关关系对学生成绩的影响,必将对课程的设置与安排具有重大的指导意义。1研究对象以沈阳农业大学01届计算机专业学生在校四年的学习成绩作为数据源,选取

8、成绩数据库中《计算机网络》、《外语》、《工科高数》、《计算机基础》、《操作系统》等8门课程作为研究对象,挖掘出某门课程对于其他课程的影响程度,为教务人员以后安排课程提供参考,为学生选课提供指导。2数据预处理2.1数据清理原始数据库中包含全校各个专业、各个年级、各门课程的所有成绩,某些记录难免会有一些差错或者从经验上看没有关联,为了便于进行数据挖掘,只选取01届计算机专业学生的《计算机网络》等8门课程成绩作为挖掘对象,去掉所有其他不必要的字段,删除空白以及数据有缺失的记录。清理后的数据表部分数据如图1所示。图1原始数据表2.2数据转换学生成绩是以数值形式表示的,不便于进行数据挖掘

9、,因此对各科成绩进行离散化处理,即转换为优、良、中、及格、不及格5个等级。大于90分的为“优”,80~90分之间的为“良”,70~80分之间的为“中”,60~70分之间的为“及格”,小于60分的为“不及格”。“优、良、中、及格、不及格”5个等级分别用数字“1、2、3、4、5”表示,用“A”表示计算机网络,“B”表示数据结构,“C”表示计算机基础,“D”表示外语,以此类推。将各科目字段设置为字符型,转换后的数据表部分数据如图2所示。图2转换后数据表3研究方法3.2Apriori算法应用用宽度优

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。