资源描述:
《数据挖掘技术在高职招生中的应用-毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘技术在高职招生中的应用目录摘要3ABSTRACT4一、导论5(一)研究背景及研究意义5(二)研究的主要内容及方法5二、数据挖掘概念与技术6(一)数据挖掘的概念6(二)数据挖掘方法与技术7三、决策树模型及算法7(一)决策树模型7(二)C4.5算法8四、决策树分类算法在高职院校招生中的应用10(一)确定数据挖掘对象,进行数据采集及预处理10(二)决策树模型构建11(三)分类规则的提取及预测分析13五、数据挖掘工作成果总结14结束语15致谢16参考文献1715摘要随着高等教育的迅速发展,各类高等院校如雨后春笋般出现,尤其是
2、高职院校数量的剧增,给高职院校的招生工作带来严峻考验。很多高职院校出现招生成本大、招不到学生及学生不报到等问题。本文运用数据挖掘技术中的C4.5决策树分类算法,对某高职招生信息进行分析,建立了适合于高职院校招生的数据挖掘模型。然后利用该模型进行预测,得到了比较准确的预测结果,从而为高职招生认定提供决策支持。关键词:数据挖掘;决策树;信息增益率;高职招生15AbstractWiththerapiddevelopmentofhighereducation,institutionsofhigherlearninghavesprun
3、gup,especiallythesharpincreaseinthenumberofvocationalcolleges,poseseriouschallengestotheenrollmentofhighervocationalcolleges.Manyvocationalcollegesadmissionscostsappearlarge,recruitstudentsandstudentsdonotreportsuchproblems.ThispaperusesdataminingtechniquesC4.5deci
4、siontreeclassificationalgorithm,avocationalenrollmentinformationforanalysis,theestablishmentofasuitablevocationalcollegesadmissionsdataminingmodels.Thenusethemodeltopredictgetmoreaccurateforecastingresults,soastoprovidedecisionsupportvocationalenrollmentidentified.
5、Keywords:datamining;tree;informationgainratio;vocationalenrollment15一、导论(一)选题背景及研究意义20世纪90年代末以来,随着我国高等教育事业的快速发展,高职院校如雨后春笋般一批又一批的挂牌成立。由于高职院校数量剧增,而高职计划数和报考考生的数量每年递增一般在10%左右。按人们常说的“蛋糕理论”,一块蛋糕如果分的人多了,每人分到的蛋糕就自然少了。(1)刘亚东.高职院校招生困难的原因及对策1)各高职院校均出现生源质量逐年下降,报到率低等问题。如何花费较少的费
6、用,对现有生源信息进行有效的处理和分析,以达到更高效的招生任务,成为摆在各高职院校面前的一个比较现实的问题。目前各高校的招生和招生宣传工作仅仅是根据以往的招生实际,凭上层领导的决策而开展的,工作周期长、效率低,需要耗费大量的人力、物力和财力,没有对历史数据进行一定的分析和研究,发现对工作有指导的、科学的知识和理论来指导高校科学地招生。(2)饶新颖数据挖掘在招生决策系统的应用2)高职院校这种盲目的招生工作会引发录取院校报到率低等问题,从而引发的问题有:(1)招生费用高,学校负担重。由于招生工作需要涉及前期的招生宣传、中期的招生
7、录取和后期的新生报到,虽然不报到的学生的比例不是很高,但是仍然浪费了部分人物、物力和财力,产生了资源的浪费。(2)学生报到率低,部分专业的新生人数会有所变化,影响了正常教学工作的开展。(3)考生被录取却选择不报到,这占用了招生计划,占用了其他考生读书深造的机会,是一种公共教育资源的浪费。因此对招生工作进行研究,改进从而达到节约资源,提高效率就显得尤为重要。(二)研究的主要内容及方法针对海量的毕业生信息,高职招生工作越来越感到工作的复杂性和艰巨性。基于上述情况,本文将尝试利用数据挖掘技术中的C4.5决策树分类算法,根据高职院校
8、招生宣传和招生工作的特点,在满足数据挖掘技术要求的特点基础上,对高职院校的招生工作提供有指导和促进意义的知识,便于高校使用这些知识进行招生工作,避免资源的浪费。二、数据挖掘概念与技术15(一)数据挖掘的概念数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际