欢迎来到天天文库
浏览记录
ID:13520656
大小:96.50 KB
页数:5页
时间:2018-07-23
《数据挖掘在教育信息化中的应用空间分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘在教育信息化中的应用空间分析浙江大学教育系 邵兴江 随着信息社会的来临,大量信息在给人们带来方便的同时也带来了信息的消化、信息的辨识、信息的安全、信息形式的一致性等问题。人们开始考虑:如何才能不被信息淹没,而且从中及时发现有用的知识,提高信息利用率,最终避免“数据爆炸但知识贫乏”的现象。[1]这个任务就落在数据挖掘的身上。本文对教育信息化条件下,数据挖掘的应用空间进行分析,希望能为教育信息化建设提供有价值的参考。 一、数据挖掘及其技术 1.数据挖掘 数据挖掘(DataMi
2、ning)就是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程,是一类深层次的数据分析方法。它是一门交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力。[2] 2.数据挖掘系统 一个完整的数据挖掘系统包括规则生成子系统和应用评估子系统两个部分。规则生成子系统主要完成根据数据仓库提供的历史数据,统计并产生相关规律,并输出相关结果;应用评估子系统可以理解为系统中的挖掘代理程序,根据生成子系
3、统产生的规则按照一定的策略对数据进行分类预测,通过系统的任务计划对数据产生评估指标。 3.数据挖掘的分类 数据挖掘的分类方法很多。根据不同挖掘任务,数据挖掘可分为分类或预测模型发现,数据归纳、聚类、关联规则发现,序列模式发现,依赖关系或依赖模型发现,异常和趋势发现等等;根据挖掘方法,可分为机器学习法、统计方法、神经网络方法和数据库方法。其中机器学习法包括:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等;统计方法包括:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别
4、、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等;神经网络分析法包括:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等;数据库方法主要包括多维数据分析(OLAP)方法。 4.数据挖掘过程 数据挖掘过程包括对问题的理解和提出、数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示等过程,以上的过程不是一次完成的,其中某些步骤或者全过程可能要反复进行。 对问题的理解和提出:在开始数据挖掘之前,最基础的工作就是理解数据和
5、实际的业务问题,在这个基础之上提出问题,对目标作出明确的定义。数据收集:广泛收集用户的各种信息,建立数据库与数据表,为数据挖掘做准备。 数据处理:对收集的信息进行如“去噪”等处理,确保数据能够真实反映待要挖掘的对象。 数据变换:将经过“去噪”的数据进行一定的格式转换,使其适应数据挖掘系统或挖掘软件的处理要求。 数据挖掘:可以单独利用也可以综合利用各种数据挖掘方法对数据进行分析,挖掘用户所需要的各种规则、趋势、类别、模型等。 模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证
6、发现的模式的正确性。 知识表示:将挖掘结果以可视化的形式展现在用户面前。 5.数据挖掘的主要功能 概念/类描述、特征化和区分:对每个类的汇总、简洁、精确的描述可以通过数据特征化、数据区分和数据比较来实现。数据特征化是指目标类数据的一般特征或特征的汇总,如一年的成绩汇总;数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般性比较,如A学校和B学校的比较。 关联分析:目的在于发现关联规则,这些规则揭示属性与属性值在数据集中一起出现的条件。这种关联规则可以是单维关联规则或多维关联
7、规则。分类与预测:利用某种数据挖掘算法的某种规则自动对海量数据进行分类,其间较少有人工干预,目的是为数据挖掘基础上的预测服务。 聚类分析:聚类是根据最大化类内的相似性、最小化类间的相似性原则对海量数据进行聚类或分组,从而产生属性相近的各个类。 孤立点分析:所谓孤立点,是指数据集合中与多数数据的特征或行为完全不一致的数据。在最初的挖掘算法中,人们总是将孤立点从数据集合中删除,以保证数据的纯洁性。然而,删除孤立点可能会导致忽略某些非常有用的特殊规则,因而对孤立点需作特殊处理。 演变分析:可以
8、根据数据的特征对数据的发展变化作出相应的预测与分析。主要应用于对时间序列数据的分析、序列或周期模式匹配和基于类似性的数据分析。[3] 二、数据挖掘在教育信息化中的具体应用空间 1.学习者特征分析 学习者特征由学习者的知识结构和学习风格组成。知识结构说明了学习者对正在或将要学习知识的掌握情况,主要包括学习者初始技能、当前技能和目标技能。学习风格包括学习者的生理特征、心理特征和社会特征三个方面。[4] 利用
此文档下载收益归作者所有