欢迎来到天天文库
浏览记录
ID:54924828
大小:531.93 KB
页数:5页
时间:2020-05-04
《基于关联规则兴趣度挖掘在招生管理中的应用-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第23卷第1期临沧师范高等专科学校学报Vol_23No.32014年1月JournalofLincangTeachersCoUegeJan.2014基于关联规则兴趣度挖掘在招生管理中的应用李佐军(临沧师范高等专科学校信息科学与技术系,云南临沧677000)摘要:文章介绍了数据挖掘、关联规则、兴趣度的基本概念,收集了部分计算机专业学生的入学成绩和学业成绩信息,并完成对成绩信息合法性判断、缺失值处理和离散化处理,使用VisualFoxPro开发的数据挖掘工具对计算机专业学生的入学成绩和学业成绩进行了挖掘分析,找出客观存在的关联规则,为学校招生决策提供了新
2、的参考依据。关键词:关联规则;兴趣度;招生管理1引言取隐含在其中的、事先没有发现的,却有潜在1.1数据挖掘的概念利用价值的信息或知识的过程。它是由数据数据挖掘(DataMining,DM)也叫数据库中库、概率统计、人工智能等学科相融合而形成知识发现(KnowledgeDiscoverinDatabase,的一门交叉学科【”。数据挖掘过程也是知识发KDD),是从海量的、不完整的、有噪声的、现过程,一般由以下三个阶段组成:数据准模糊的、随机的或有污染的历史详细数据中提备、数据挖掘和评估表示,具体详见图1。■———(——(■厂——原数据L、._————_一
3、一悭模式I.一臣臣I数据预处理Il数据挖掘II评估表示图1数挖掘基本过程及主要步骤目前,利用数据挖掘进行数据分析的方法不同的角度对数据进行挖掘分析。主要包括分类、估计、预测、关联规则、聚1.2关联规则的概念类、描述和可视化、复杂数据类型挖掘(如关联规则(Associationroles)是由A—Text、Web、视频音频挖掘等)等,它们分别从grawal,ImielinskiandSwami在1993年的收稿日期:2013—12—12作者简介:李佐-~(1980一),男,彝族。云南凤庆人,临沧师范高等专科学校信息科学与技术系讲师。主要从事数据挖掘技术
4、和教学管理研究。..本文系临沧师范高等专科学校2011年校级课题“数据挖掘技术在教学管理中的应用研究”的阶段性成果之136SIGMOD会议上提出来的,将关联规则描述从关联规则定义可知,关联规则挖掘将产为:设I=fiJ,i,⋯,il是项目集,D是全生两个参数:支持度S和置信度C,支持度S体事务的集合,事务T是I上的一个子集,反映数据项集x在所有事务集中出现的频率,集合Tc_I,每个事务用唯一的标志TID来标置信度C反映数据项集x出现时Y中出现的识,则关联规则是形如(x=>Y)的蕴含式,其频率。假设全体事务D的总数为N,事务x的中I,YI且xnY一,X称
5、为规则的条计算为Count(X),事务x与Y同时出现的计件,Y称为规则的结果,表示为()(=>Y)圆。关数表示为Count(XUY),则支持度s和置信联规则反映的是:项集X中的项目出现时,项度算式分别为(1)和(2)式所示。集Y中的项目也随着出现的概率。S(X=>Y)=P(XUY)一Count(X)一×100%(1)N●C(X=>Y)=P(xIY)::×100%(2)在关联规则(x=>Y)中,发现关联规则联规则频繁项集的算法,使用一种称作逐层搜要求数据项必须满足的最小支持值叫做最小支索的迭代算法,k一项集用于探索(k+1)一项集[21。持度。同样地,
6、所必须满足的最小可信度值,其主要步骤是:称为最小置信度。支持度用来衡量关联规则在第一步,通过扫描数据集D,生成频繁l一整个数据集中重要性,置信度用来表示关联规项集Ll;则的可信程度。第二步,在频繁1一项集L。基础上生成频关联规则的挖掘过程主要被分解为两步,繁2一项集L2;第一步为找出所有的频繁项集,可以从1到k第三步,用迭代方法生成频繁项集Li,直递归查找k一频繁项集;第二步是由频繁项集到生成频繁n一项集;产生强关联规则,即找出满足最小支持度和最第四步,从各项数据集合中导出规则。小置信度的关联规则。由Apriori算法主要步骤知道,Apriori算1
7、.3Apriori算法法是使用迭代方法生成K一频繁项集过程,其Apriori算法是一种最有影响的挖掘布尔关具体算法如臣2。137图2Apriori算法2兴趣度3关联规则挖掘在招生管理中的应2.1兴趣度的提出用传统关联规则挖掘算法只有支持度S和置3.1数据收集信度C两个基本参数,这两个参数不能完全评原数据采用的是计算机专业学生的入学成价规则价值,导致满足最小支持度阈值和最小绩信息和学业成绩信息,具体结构见表1和表置信度阈值的强关联规则有时没有参考价值,2表1学生入学成绩信息表甚至产生具有一定诱导欺骗性的“强关联规则”,而且基于这一框架的数据挖掘还有另外
8、学号语文数学英语理综的缺陷,就是当二者阀值设得过低时,可能会0011139270184挖掘出一些矛盾的关联规
此文档下载收益归作者所有