欢迎来到天天文库
浏览记录
ID:54018143
大小:1.01 MB
页数:6页
时间:2020-04-28
《基于共词分析的我国科学数据领域研究主题探析.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、68图书馆(Library)2014年第6期(No.6.2014)・实证研究・*基于共词分析的我国科学数据领域研究主题探析司莉李鑫(武汉大学信息管理学院湖北武汉430072)〔摘要〕以CNKI期刊全文数据库中近十年以来科学数据领域发表的期刊论文作为数据基础,在对关键词进行一定程度人工干预的基础上,采用共词分析法探究我国科学数据的研究主题。结果表明,2003年至2013年科学数据的研究主题集中在8个方面:科学数据共享和数据共享平台、科学数据组织与分类、科学数据监护与服务、科学数据整合、科学数据政策与开放获取、科学数据网格技术、科学数据挖掘和科学数据管理。〔关键词〕科学
2、数据研究主题共词分析〔分类号〕G2501引言第一,关键词的预处理。抽取题录数据中的关键词,在随着数据密集型、数据驱动的科研成为新的科研方式,词频统计之前进行关键词的消歧处理,如将“datacuration”科学数据的管理和共享迅速得到了国内外图书情报界、信中文译名统一为“数据监护”。第二,统计关键词频次和构建息科学和其他学科领域的高度重视。王巧玲等从时间、主共词矩阵。利用EXCEL统计分析功能统计关键词的出现频题和期刊等方面对我国科学数据共享研究的论文进行了计次,并截取频次不小于5的48个关键词作为科学数据领域〔1〕量分析,姜晓虹梳理了科学数据研究的进程,并提出了现
3、研究方向和热点的高频关键词。高频词不足以概括该领域〔2〕阶段研究存在的问题与不足以及未来重点关注的方向。这的研究主题,需要两两统计这48个高频词在文献中出现的些研究对了解科学数据研究的发展现状和趋势及其研究进频次,利用EXCEL构造共词矩阵。程和结构有较大的参考价值,但他们均利用频次对文献数2.2.2基于共词矩阵的因子分析量、作者、主题、机构、来源期刊等进行统计描述,缺乏在共词矩阵的基础上,利用SPSS软件进行因子分析,进基于内容的分析,在考察科学数据的研究现状,尤其是对而展示该领域的研究主题和结构。因子分析的目标是用尽于当前科学数据的研究主题和热点的揭示存在一定的
4、局限可能少的因子去描述众多的指标或要素之间的联系,根据相性。关性大小把研究对象的变量分组,使相关性比较密切的几个〔4〕共词分析法属于内容分析方法的一种,其原理是对一变量归在同一类中,每一类变量就成为一个因子。因子分组词两两统计它们在同一篇文献中出现的次数,以此为基析中,为消除共词频次差异的影响,首先根据相关性将48×础对这些词进行聚类分析,从而反映出这些词之间的亲疏48的共词矩阵转化成斯皮尔曼相关矩阵。在此基础上,利用关系,进而分析这些词所代表的学科和主题的结构变化,主成分分析法(PrincipalComponents)、协方差矩阵(Covari-〔3〕鉴别某一学科
5、或主题的主要知识结构和研究热点。研究借anceMatrix)和平均正交旋转方法(Equamax)进行因子分析,助SPSS统计分析软件,采用共词分析方法探讨当前科学数得到主成分列表,并根据各主成分内因子载荷的分布情况结据的研究主题,并结合文献梳理主要的研究内容,旨在更合文献内容对主成分进行命名。加完整、客观地展示科学数据领域的研究现状和结构。2.2.3研究结果的分析和讨论2研究设计通过因子分析获得了国内科学数据领域研究论文关键2.1数据来源词的聚类结果,结合相关主题的文献对研究结果进行进一步研究所使用的数据来自CNKI全文数据库,为了尽可能的阐释说明,确定我国科学数据
6、领域的研究主题和结构,并地保证查全率,检索主题为“科学数据”或“科研数据”深入分析相关主题的研究内容。的相关文献(精确匹配),时间设定为2003年至2013年3研究的主要发现(检索时间为2014年1月13日),共获得2221条记录。剔3.1获取的高频关键词和构造的共词矩阵除与主题不符、重复刊载的论文和会议文献,有效记录为通过对582篇文献的关键词进行词频统计,共获取1193582条,下载相应的题录数据,采用共词分析法,分三个阶个关键词。按照词频由高到低进行排序,并截取词频不小于段进行研究。5的48个高频关键词作为共词分析的基础(如表1)。可以2.2研究过程看出,科学
7、数据共享和科学数据是出现最为频繁的关键词,2.2.1统计高频词和构造共词矩阵其频次远远高于排在第三的元数据。*本文系教育部人文社会科学研究项目“我国科学数据集成与共享的保障研究”(13YJA870016)研究成果之一。2014年第6期(No.6.2014)司莉、李鑫:基于共词分析的我国科学数据领域研究主题探析69表1国内科学数据研究论文的高频关键词(频次>4)表4因子分析确定的科学数据研究主题结构序号关键词频次序号关键词频次序号关键词频次因子名称关键词载荷值因子名称关键词载荷值科学数据共享0.567数据库0.6031科学数据共享22217共享服务1033编码6数
此文档下载收益归作者所有