欢迎来到天天文库
浏览记录
ID:19253027
大小:1.26 MB
页数:9页
时间:2018-09-28
《数据挖掘技术在美国院校研究中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘技术在美国院校研究中的应用数据挖掘(datamining)是一项新兴技术。作为商业智能(businessintelligence)的重要组成部分,它已被广泛应用于企业及金融领域,成为产品分析、市场预测、欺诈防范等工作流程中举足轻重的技术手段,并取得了卓著的成效。近年来,随着高校数据收集量的不断增加以及教育决策对量化分析结果的愈加依赖,数据挖掘在美国高校管理中的应用呈显著上升趋势。本文将简要介绍数据挖掘技术及其在美国高校管理中的应用现状,并通过个案分析,详细阐述数据挖掘建模步骤。一、数据挖掘技术:定义
2、与方法(一)数据挖掘技术数据挖掘是集数据库结构、统计学原理、机器学习、高性能计算等为一体的复杂技术融合体,是通过抽样、整合处理、建模、评估等一系列科学运作,从数据中探寻隐藏的信息和知识的过程。这些知识和信息可能体现了挖掘对象的个体特征,也可能反映了研究群体的发展变化趋势,等等。例如,我们可利用数据挖掘技术将具有共同或者相近属性的案例分群、分类,也可估算和预测未来某种事件发生的可能性,亦可探究某些事件发生的规律。(二)数据处理与整合数据处理与整合是数据挖掘的关键步骤之一。数据不准确、不完整都会导致分析挖掘结果
3、的误差,从而影响获取暗藏在数据中的有用知识和信息。目前,绝大多数用于挖掘的数据都来自于数据库。但由于数据往往来自于不同的组织或者数据库,变量的定义不尽相同,也没有可以用来合并数据集的通用变量,因此,挖掘人员在建模之前必须对数据进行整合,并检查变量值的类别、分布状况,等等。在许多挖掘项目中,处理数据所花费的时间比建模的时间花费要多几倍。在处理数据时,常见的棘手问题是对数据集缺失值的填补和对偏态分布变量值的转换。处理缺失值有许多方法。一种是在分析数据时只包括具有完整数据的个体。但这种方法的弊端是有时缺失值本身反
4、映了数据的某种特征,因此删除具有缺失值的个体会影响研究结果;另外,如果数据集含有非常多的缺失值,那么删除缺失值将使研究个体数量锐减,同样会影响研究结果。另一种方法是填充缺失值。有许多统计方法可用来完成这项工作,比如平均值、中值、回归方程预测等等。数据挖掘软件通常提供多种方法供研究人员根据数据的特点选择使用。处理偏态分布或含有游离值的连续性变量同样有多种可选择的方法。当然,建模者要根据使用的建模方法决定是否需要对这些变量进行数据转换。如果决定需要对某些变量进行转换,建模者必须根据变量的分布状态选择转换方法。(
5、三)数据挖掘方法数据挖掘技术包括许多不同的方法,其中常用的有决策树(DecisionTree)、神经网络(NeuralNetwork)、回归(Regression)、逻辑回归(LogisticRegression)、关联(AssociationRules)、聚类(Clustering)、集成(Ensemble)等。回归和逻辑回归方法和传统统计方法完全相同。本文仅对第三部分个案分析中使用的决策树、神经网络和集成方法予以简单阐述。决策树是利用一系列的决策规则将庞大的数据集分割成较小的具有同等或者非常相近属性的子
6、数据集。图1显示了决策树的生成过程。个案从根节点进入决策树,然后由函数变量和测试方法决定个案所归属的下一个子节点或叶节点。类似的程序重复循环直到所有个案归属于某个叶节点。从根节点到每一个叶节点的路径形成一条“规则”。这些规则被用来对目标数据集进行预测分类。例如,图1所显示的决策树含有五个路径,分别代表一条规则。神经网络通过模拟人的神经活动程序来处理一系列信息。它是由类似于神经元的许多元素精密连接形成的网络,通常包括三个层次:输入层、隐藏层和输出层(图2)。输入层是将原始数据输入到神经网络。隐藏层包含许多类似
7、于“神经元”的节点。这些节点是通过对输入变量之间及其与目标变量之间关系进行复杂运算产生“权重”结果。输出层所包含的变量可能是单一性的,也可能是多重性的。它们是通过对隐藏层上的神经元和输出值之间的“权重”进行计算得到。集成模型以其他挖掘方法建立的模型为基础构建而成。如果预测变量是分类型,集成模型是通过对预测变量的百分比进行平均得到新的集成模型的预测百分比;如果预测变量是连续型,集成模型则是通过对预测值进行平均得到新的集成模型的预测值。常用的建立集成模型的方法有两种:一种是从原始数据集中抽取不同的子数据集,然后
8、利用同一种挖掘方法建立不同的模型,并将这些模型综合建立集成模型;另一种方法是用同一个数据集,利用不同的挖掘方法建立模型,然后再将这些模型综合建立集成模型。图1决策树生成示意图图2神经网络生成示意图(四)模型的建立与评估建模时,通常需要将数据集分割(datapartition)成运行(training)、确认(validation)和测试(test)三个子数据集。运行数据集是用来建立最基本的数据模型;确认数据集是用
此文档下载收益归作者所有