欢迎来到天天文库
浏览记录
ID:46792730
大小:76.00 KB
页数:10页
时间:2019-11-27
《聚类分析在高考成绩探究主题发现中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、聚类分析在高考成绩探究主题发现中应用摘要摘要:2006年以来,高考成绩研究的学术关注度呈直线上升趋势,探究该领域研究的主题分布,有助于对高考成绩的深入研究及开发利用。以中国知网(CNKI)高考成绩相关研究文献为数据源,在对关键词进行数据清洗的基础上,构建高❷1词共现矩阵,继而对共现矩阵进行聚类分析,从而发现了高考成绩相关研究的10个主题方向关键词关键词:高考成绩;共词分析;聚类分析D0ID0I:10.11907/rjdk.171095中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2017)0050135030引言利用中国知网(CNKI)对高考成绩相关文献
2、进行指数分析,可以发现2006年以前,高考成绩研究的学术关注度较低,且发展平稳,而2006年以后,高考成绩研究的学术关注度呈现直线增长。探究该领域研究的主题分布,有助于对高考成绩的深入广泛研究及开发利用1研究理论与方法本文以文献关键词为数据对象,釆用聚类分析方法对高考成绩相关研究文献进行分析,从而发现该领域的研究主题及分布。这里的关键词指文献中作者指定的旨在反映文章主题内容的词。当两个关键词在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现次数越多,表明关系越密切、距离越近[1]。聚类分析是数据挖掘的典型方法,该方法根据数据对象的特征对研究个体进行划分,同一类中的
3、个体具有较大相似性,而不同类的个体之间存在不同程度的差异[2]。聚类分析可根据文献关键词的距离,将关键词分成不同类团,从而有助于发现所研究领域的主题分布情况具体研究过程如下:①数据准备:包括文献题录数据收集、文献关键词抽取、关键词数据清洗、共现矩阵生成等环节;②聚类分析:对关键词共现矩阵采用SPSS聚类分析方法生成类团,对各类团进行解析,从而确定高考成绩研究的主题2数据准备2.1数据收集文章以中国知网(CNKI)为文献数据源,以“TI二高考and主题二(成绩+数据+分数)*(分析+统计+剖析+挖掘+评价+预测+实证+差异)”为检索式,限定时间从2006〜2015年,共获得期刊文献
4、530篇,会议文献25篇,博硕论文359篇。在此基础上参照题名、关键词、摘要进行人工筛选,共获得380篇文献的题录信息作为研究的数据对象,其中期刊文献293篇,会议文献19篇,博硕论文69篇2.2数据清洗将采集到的文献题录导入到国内学者刘启元[3]开发的文献题录信息统计分析软件SATI3.2中,抽取到文献关键词994个,累计频次1640次。这些关键词存在着过于宽泛、主题不相关、不规范、一意多词等问题,因此利用3种方式对数据进行清洗(1)舍弃。舍去过于宽泛的词,如"分析”;舍去与主题无关的词,如“高潮期”(2)合并。合并意义相同或相近的词,如将“相关性分析”、“相关分析”合并为“相
5、关分析”(3)集中。将一些出现频次较少但反映特定内容的词,集中起来用上位词代替[4]。如将低频词"皮尔逊相关分析”、“偏相关分析”集中到高频上位词“相关分析”2.3高频关键词提取高频关键词是出现频率较高的关键词,能很好地反映领域内的关注点。数据清洗后,取频次大于等于5的42个关键词作为数据对象,表1列举了部分高频关键词2.4共现矩阵建立针对以上高频关键词建立高频词共现矩阵,矩阵数据为两词共现的频次,对角线上数据为该词出现总频次,如表2所示为避免关键词共现频次受各自词频大小的影响,采用Equivalence等价系数将共现矩阵转化为元素值在[0,1]区间的相关矩阵。在此基础上,用1与
6、相似矩阵中的各个数字相减,以减小因0值过多带来的计算误差,得到高频词相异矩阵,如表3所示。相异矩阵中元素越接近于1,所对应的行列关键词相似度越小;越接近于0,所对应的行列关键词相似度越大[2]Equivalence等价系数计算方式为[5]:Eij=CijCiXCijCj(1)其中,Eij为相似矩阵中第i个词与第j个词的等价系数,即相似矩阵中对应的元素值,Cij为共现矩阵中第i个词与第j个词的共现次数,Ci、Cj分别为第i个词与第j个词的频次3聚类分析将相异矩阵导入SPSS20.0,进行层次聚类分析(采用组间连接法,Euclidean区间距离)得到聚类树,根据聚类树可以获得10个分
7、别代表不同研究主题的关键词类团:T1,T2,T9,T10(见图1)现对各类团关键词及其代表的研究主题进行详细解析:(1)T1类团关键词包括:高考志愿、数据仓库、OLAP、数据挖掘、关联规则、决策树,代表数据挖掘相关技术在高考志愿分析中的应用。数据仓库与OLAP是商务智能领域的重要技术方法,采用数据仓库及OLAP技术可以对大规模高考数据进行有效集成,并进行多维度分析;关联规则挖掘、决策数挖掘是数据挖掘的常用技术,可发现隐藏在高考成绩、报考学校、专业、考生信息等多维度之间的规则,建立
此文档下载收益归作者所有