基于数据挖掘的毕业生就业特征实证研究

基于数据挖掘的毕业生就业特征实证研究

ID:23913278

大小:59.50 KB

页数:9页

时间:2018-11-11

基于数据挖掘的毕业生就业特征实证研究_第1页
基于数据挖掘的毕业生就业特征实证研究_第2页
基于数据挖掘的毕业生就业特征实证研究_第3页
基于数据挖掘的毕业生就业特征实证研究_第4页
基于数据挖掘的毕业生就业特征实证研究_第5页
资源描述:

《基于数据挖掘的毕业生就业特征实证研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于数据挖掘的毕业生就业特征实证研究刘轶彤(天津职业大学经济与管理学院,中国天津300410)【摘 要】本文以现代人才管理和现有的数据库挖掘理论为指导,研究基于数据挖掘和决策树技术,结合某高职院校毕业生管理数据,提出C4.5的决策树算法在毕业生管理系统中的应用。本文对实验过程中产生的毕业生特征分析决策树模型和分类规则做了详细的介绍,发现决策属性在毕业生就业特征类别的决定性作用,以此为高校领导层提供决策支持,提高业务水平、完善的培训机制,对高校课程的开设和毕业生管理指导工作具有一定的意义。.jyqkember.是否党员;save_a

2、ct.是否低分;Educatione.成绩;pep.(进行数据挖掘)是否为已经就业的毕业生。1.1.2 总体分析步骤数据挖掘为了得出隐藏在数据中的有价值的信息,一般来说,其最后结局是难以预料的,但是站在决策者以及设计者角度来说,要明确问题的方向性和结果性,数据挖掘一旦存在不可以预知性,则表示盲目行事,分析也就难以获得成功[3]。分类挖掘的目的是找出隐含的知识,以便明了化,本实验选择C4.5挖掘算法,对经过转换的数据进行挖掘,对结果进行分析、解释和评估。第一步是数据准备,将毕业生信息管理数据表合成,从中提取与绩效考核成绩相关性较大的

3、特征属性,生成高职院校毕业生管理信息表;第二步是建立模型,包含分类原则和决策树的建立;第三步是对数据进行挖掘并得出规则;第四步是结果分析。1.2 实验流程1.2.1 实验准备在数据源里,海量的历史数据,属性众多,定义繁杂,具有明显的非完整性,数据挖掘前期要从这些海量数据中提取有效的数据。该实验选择信息增益率的方式来明确属性选择,其默认方式选择最高信息增益率作为节点的测试划分标准,由此来保证在信息量需求最小的情况下,也能产生最简单的决策树[4]。在提取信息增益率的时候,利用相关计算公式,提取最高信息增益率的相关数据,将之作为给定集合

4、S的测试属性,并创建出一个对应节点,然后创建分支,再对样本进行划分。1.2.2 数据归纳在数据归纳过程中使用面向属性的方法,即建立在数据库中的关系表上,并收集有效数据汇集成表,以分析和泛化各个属性,并将所有和决策规则相关的属性都查询处理,从而建立具有高效的、或压缩或泛化式的数据集合式分类样本模型,目的是减小数据规模,与属性值有关联,不与原始数据产生任何关系,从而更为有效地产生决策树。对毕业生关系数据库进行相应的处理,提取出有用的信息,得到毕业生就业情况信息表,利用迎合算法对该数据进行转化。1.2.3 建立决策树模型分类是数据挖掘中

5、的一个重要目标和任务,不同于聚类,被称为监督学习,对于现有的类别进行较为具体详细的类别性质的描述,对于新的观察值再进行类别性分类[5]。本实验采用决策树方法对毕业生特征进行分类挖掘,建立的训练集从实用角度考虑,并不复杂,故考虑选择ID3或C4.5算法,为了完成数据挖掘的任务,本实验选用C4.5算法对数据源进行挖掘和分类。在330名毕业生的存档信息资料中,随机抽取264个数据,占总数据的八成,把它们当作训练样本S;剩下二成的数据作为测试集,按预定类别将毕业生分为普通毕业生、优秀毕业生两类。生成决策树必须遵循一定的算法,生成原则依据G

6、enerate_decision_tree从原始训练数据中生成一棵判定树;数据导入依据训练样本samples,是离散值属性,属性群为attribute_list;数据导出为一棵判定树。生成步骤如下:(1)第一步需要根据训练数据来确定节点N;(2)Ifsamples同属于类Cthen;(3)需要返回N当作叶节点,标记为C类;(4)Ifattribute_list如果为空缺或者丢失then;(5)需要返回N当作叶节点,并标记。以samples中一般的类标记为其属性;(6)抽取attribute_list中信息增益高的为首选;(7)标记

7、test_attribute为分类节点;(8)Foreachtest_attribute内已知值ai;(9)N为属性再生成一个满足test_attribute=a.的分枝;(10)假定Si为samples中test_attribute=a.的样本集合;(11)假如Si为空值,then;(12)附加一个条件树叶,标记为samples中一般类别;(13)Else加上一个由Generate_decision_tree(s1,attribute_1ist_test_attribute)返回的节点。在数据挖掘过程中,决策树方法的本质是利用大

8、量的分类数据进行筛选,根据筛选后的数据挑选出具有价值的信息。本实验利用C4.5算法创建决策树,决策属性信息增益率的计算方法如下:在S中,有s个数据样本包含的集合,其中的个别属性分别获得m个不同的值,那么就会产生m个不同的类别Ci{i=1,2,……,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。