中文社会科学引文索引数据质量问题研究

中文社会科学引文索引数据质量问题研究

ID:34142092

大小:97.50 KB

页数:7页

时间:2019-03-03

中文社会科学引文索引数据质量问题研究_第1页
中文社会科学引文索引数据质量问题研究_第2页
中文社会科学引文索引数据质量问题研究_第3页
中文社会科学引文索引数据质量问题研究_第4页
中文社会科学引文索引数据质量问题研究_第5页
资源描述:

《中文社会科学引文索引数据质量问题研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.中文社会科学引文索引数据质量问题研究[摘 要]:中文社会科学引文索引(CSSCI)虽是国内重要的社会科学评价工具,但还存在诸多数据质量问题,笔者从数据结构和数据内容两个大的方面详细分析数据库的数据质量问题,并提出了相应的改进建议,以期CSSCI能进一步发展完善。[关键词]:中文社会科学引文索引;CSSCI;数据质量;改进措施[中图分类号]:G353.21中文社会科学引文索引(ChineseSocialSciencesCitationIndex,以下简称CSSCI)是由南京大学中国社会科学研究评价中心开发研制的引文数据

2、库,用来检索中文人文社会科学领域的论文收录和被引用情况[1]。作为我国人文社会科学主要文献信息查询的重要工具,填补了我国社会科学成果量化统计和评价工具的空白,具有重要的科学价值和实际应用价值。CSSCI从1998年开始立项,2000正式出版光盘版,到现在已经历了10多个年头的发展和数据积累,正成长为国内最重要的社会科学评价工具之一。笔者最近在利用CSSCI统计分析数字图书馆主题文献的过程中发现,来自CSSCI的数据存在诸多质量问题,这些问题可大致分为结构和内容两个方面。1CSSCI数据结构存在的问题下载CSSCI的检索

3、结果记录时,使用者不能选择输出字段和输出文件格式,只能得到系统默认的TXT文件,文件内的记录字段名称、数量也是系统默认的,笔者在利用这些数据进行统计分析的过程发现,CSSCI的数据结构存在以下问题。1.1来源文献库提供的不同年份的下载数据结构不一致很多数据挖掘工作不能直接在CSSCI的检索主界面实现,研究人员常需将检出记录详情下载后按字段类别进行拆分、连接、归并等处理,以达到特定统计分析目的。但笔者对比来源文献库1998-2010的下载数据结构,发现各年代提供的下载数据差异极大,字段个数不等,名称不统一,甚至个别字段名

4、称都弄错,这些都会造成基于CSSCI的数据分析失去客观基础。来源库1998-2010各年代的检索结果下载数据结构详见表1。表1来源库1998-2010各年代下载记录的字段构成年代记录字段构成字段数1998文件序号、来源篇名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 151999文件序号、来源篇名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、期刊代码、年代卷期、标引词、参考文献 152000文件序号、来源篇

5、名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、地区、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 162001文件序号、来源篇名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 152002文件序号、来源文献、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 152003文件序号、来源文献、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名

6、称、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 15...2004文件序号、来源文献、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 152005文件序号、来源篇名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、地区、学科分类、第一作者、中图类号、年代卷期、标引词、学位分类、基金类别、参考文献 182006文件序号、来源篇名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、地区、学科分类、第一作者、中图类

7、号、年代卷期、标引词、基金类别、参考文献 172007文件序号、来源篇名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 152008文件序号、来源文献、英文篇名、来源作者、作者姓名拼音、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、中图类号、年代卷期、标引词、参考文献 162009文件序号、来源篇名、英文篇名、来源作者、文章类型、基金、期刊、第一机构、机构名称、地区、学科分类、第一作者、中途类号、年代卷期、标引词、标志、学位分类、

8、基金类别、参考文献 192010文件序号、来源篇名、英文篇名、来源作者、作者姓名拼音、文章类型、基金、期刊、第一机构、机构名称、学科分类、第一作者、期刊代码、年代卷期、标引词、基金类别、参考文献 17对表1的数据进行对比分析,至少可以发现以下问题:(1)不同年代记录的字段数不同。字段个数在15-19间无规律变动,既不是逐年增加,也

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。