基于词频g指数共词聚类关键词选取探究

基于词频g指数共词聚类关键词选取探究

ID:5998061

大小:30.50 KB

页数:8页

时间:2017-12-30

基于词频g指数共词聚类关键词选取探究_第1页
基于词频g指数共词聚类关键词选取探究_第2页
基于词频g指数共词聚类关键词选取探究_第3页
基于词频g指数共词聚类关键词选取探究_第4页
基于词频g指数共词聚类关键词选取探究_第5页
资源描述:

《基于词频g指数共词聚类关键词选取探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于词频g指数共词聚类关键词选取探究  【摘要】利用CNKI中国优秀硕士学位论文全文数据库,以教育技术学专业为例,利用其中3465篇教育技术学硕士学位论文的6593个关键词为研究对象,对词频g指数和齐普夫第二定律选取的高频词进行共词聚类比较,基于词频g指数选取的关键词得到了良好的聚类结果,为以后共词聚类的关键词选取研究提供了理论依据。【关键词】共词聚类;词频g指数;齐普夫定律;教育技术学引言共词分析方法是一种重要的信息计量学研究方法,也属于内容分析法的常用方法之一。它的主要原理是:利用文献集中词汇对或名词短语共同出现的情况,来确定该文

2、献集所代表学科中各主题之间的关系,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。8共词分析以反映文献主题内容的高频关键词为研究对象进行统计分析,通过查阅大量的文献和著作发现,对于高频词的选取即高频词阈值没有统一的说法,一种方法是结合研究者自身的经验在选词个数和词频高度上平衡,即按照关键词频数分布情况选取词频大于某个特定值的关键词作为高频词,这种方法由于缺乏理论指导具

3、有一定的主观性。另一种使用相对普遍的方法是结合齐普夫第二定律辅助判定高频词的界限。为更加合理选取高频词,本文以教育技术学硕士学位论文为例,结合齐普夫第二定律和词频g指数,比较二者在共词聚类中确定高频词阈值的合理性。一、概念1词频g指数Hirsch提出用作者h指数衡量学者个人的论文产出数量和质量,引起了学界广泛关注。Egghe利用g指数对h指数进行了修正。g指数的计算过程为:将源项论文按被引次数降序排列,找出g值,使得前g篇论文被引次数的总和大于或等于g2,而前g+1篇论文的被引次数小于(g+1)2。可以看出g指数反映的是高质量论文对某

4、个科学家的贡献值。8杨爱青等根据g指数的计算方法,提出了词频g指数的定义,即:某一个研究主题关键词的数量分值为g,当且仅当此研究主题的关键词总量N中,有g个关键词其累计出现频次不少于g2次,而g+1个关键词其累计出现频次少于(g+1)2次。并归纳出词频g指数的计算过程如表1所示:其中i为关键词总量,按词频降序排列后每个关键词所得序号。序号i为1,表明对应的关键词出现频次最多。N为源项论文总数:Fi为对应序号为i的关键词的出现次数,对于所有i,有Fi-1≥Fi。共词聚类正是通过选择高频词来反映某个研究领域的知识结构,高频词代表了该词在所

5、有关键词中出现频次的贡献值。2齐普夫第二定律美国语言学家齐普夫提出了文献计量学的一个重要定律——齐普夫定律,布什(B.Booth)首先推导出基于齐普夫第二定律关于低频词分布的计算公式:ln表示文中出现的次数为n的关键词数量,该公式与文献长度无关,仅仅与关键词出现的频率有关。Donohue根据齐普夫第二定律提出了高频词与低频词的临界值分界公式,即:二、数据来源与研究流程1数据来源本研究以CNKI为数据源,选取《中国优秀硕士学位论文全文数据库》,简称为CMFD,它是国内内容最全、质量最高、出版周期最短、数据最规范、最实用的硕士学位论文全文

6、数据库。于2013年3月2日检索,以“学科专业名称”为检索条件,以“教育技术学”为检索词,学位年度限定在2008年到2012年,共检索到3465篇文献。2研究流程(1)以教育技术学领域为研究对象。8(2)选择中国优秀硕士学位论文全文数据库,检索2008-2012年的文献数据,统计其关键词频。(3)根据词频g指数计算方法,计算词频g指数,即共词聚类的高频关键词。(4)根据齐普夫第二定律的公式,计算出高频词和低频词的临界值n,得出高频关键词。(5)根据词频g指数和齐普夫第二定律选取的高频关键词进行共词聚类分析,检验二者选取高频词上的合理性

7、。三、数据统计与分析1选取高频关键词对检索到的3465篇文献进行关键词统计,得到原始关键词6593个。删除对研究主题没有影响的甘肃省、日本、应用、评价、发展、对策、模式、开发等关键词,合并具有相同或相近含义的关键词,经过反复的人工校对,最终确定了5022个关键词,将这些关键词按照出现的频次由高到低进行排序。通过词频g指数的计算方法,得到高频词的阈值为50,即出现频次大于24的前50个关键词作为高频词,如表2。8根据齐普夫第二定律计算高频词和低频词的分界线,得到高低频词的临界值为81,如把频数在81次及以上的关键词作为高频词,则本研究中

8、共有5个关键词符合要求。从选词数量上来看,齐普夫第二定律显然不适合作为选取高频关键词的标准。下面通过二者选取的高频词进行聚类结果比较,以进一步明确它们在选取关键词上的区别。2建立高频词共词矩阵两两统计不同关键词在同一篇文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。