资源描述:
《数据挖掘及其在高校教学系统中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第18卷第1期济南大学学报(自然科学版)Vol.18No.12004年3月JOURNALOFJINANUNIVERSITY(Sci.&Tech1)Mar.2004 文章编号:1671-3559(2004)01-0065-04数据挖掘及其在高校教学系统中的应用董彩云,曲守宁(济南大学信息科学与工程学院,山东济南250022)摘 要:简要介绍了数据挖掘技术,详细分析了关联规则挖种(根据IBM的划分方法):关联分析(Association掘算法。给出了一个完整的数据挖掘系统─教学系统的设rules);序列模式分
2、析(SequentialPatterns);分类分析计与实现过程。它包括数据的准备与选择、数据的预处理、(Classifiers);聚类分析(Clustering)。关联规则挖掘挖掘算法的选择与实现、挖掘结果的描述四个步骤。文中详算法是一种重要的数据挖掘方法。细介绍了上述各个步骤的处理过程,并增加了兴趣度阈值来[3]DM系统不是多项技术的简单组合,而是一提高挖掘的精度,为高校管理决策提供了科学依据。个完整的整体,它还需要其他辅助技术的支持,才能关键词:数据挖掘;关联规则;数据集市;兴趣度完成数据准备、数据挖
3、掘、结果表述、算法评价这一中图分类号:TP311文献标识码:A系列任务。根据功能,整个DM系统可以大致划分[4]为三级结构(如图1所示)。随着基于园区网络教务管理数据仓库中学生成绩记录的急剧增长,现在的教务管理人员很难再像从前那样直接根据学生的成绩数据分布找出规律,并根据此规律进行决策。因此必须借助于相应的数据仓库分析工具,自动发现数据中隐藏的规律或模式,为决策提供支持。数据挖掘技术可以用于从大量的数据中发现隐藏于其后的规律或数据间的关系,它通常采用机器自动识别的方式,不需要更多的人工干预。采用数据挖掘技术
4、,可以为用户的决策分析提供智能的、自动化的辅助手段。1 数据挖掘技术[1,2]早期文献中,数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的(implic2it)、未知的(previouslyunknown)和潜在有用的(poten2tiallyuseful)信息(如知识规则、约束和规律等)的非平凡的过程。确切地讲,数据挖掘(简记为DM)是一种决策支持过程,它主要基于AI、机器学习、统计图1DM系统结构图学等技术,高度自动化地分析各组织原有的数据,做DM的数据分析过程可以分成数据准备、数据出归
5、纳的推理,从中挖掘出潜在的模式,为管理人员挖掘、结果表述及评价四个步骤。数据准备阶段主决策提供支持。要是准备适合分析的数据;数据挖掘阶段是最关键从功能上可以将DM的分析方法划分为以下四的阶段,主要是选定合适的挖掘算法,对数据进行分析,以得出真正合理有用的知识;结果表述阶段是把收稿日期:2003-10-31挖掘阶段得出的知识以便于用户理解的方式进行描基金项目:国家863高技术发展计划资助项目(2002AA4Z3240)作者简介:董彩云(1978-),女,山东东营人,济南大学信息科述;评价阶段是用户根据已有的知
6、识对挖掘的结果学与工程学院硕士生。进行合理性分析,若有不合理的方面,再重复上述三©1994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net 济南大学学报66(自然科学版) 第18卷个步骤,以保证挖掘结果的合理性。为了生成频繁项目集,首先遍历数据库,收集每DM与其他数据库工具既存在区别又存在联个项目集的支
7、持度,取其支持度不低于最低支持度系。查询工具、验证型工具、发掘型工具各自的侧重的项目集构成频繁项目集的集合L1;然后两两连接点不同,因此适用范围和针对的用户也各不相同。L1中的项目集,形成二维项目集的集合,再次遍历发掘型的应用主要负责从大量数据中发现数据模数据库,收集每个侯选二维项目的支持数,取其支持式,预测趋势和行为,与验证型工具一个很大的不同数不低于最低支持项目集构成频繁二项集的集合在于,用户在整个信息的挖掘过程中无需或只需很L2;如此迭代,直到新的侯选集n维集合为空时为少的指导。数据挖掘就是一种发掘型
8、工具,与验证止。型工具不同,数据挖掘是一种展望和预测的工具,它213 关联规则的发现能挖掘数据间潜在的模式,发现经营者可能忽略的假设每个频繁集的支持度都得到,记作p(L),信息,并为企业作出前摄的、基于知识的决策。查询L∈频繁集,那么可信度Confidence(L1/L2)=p(L1工具、验证型工具和发掘型工具是相互补充的,只有∩L2)/p(L1)。如果Confidence(L1/L2)满足最低信很好的结合起来,