水产科学研究的数据采集

水产科学研究的数据采集

ID:10345025

大小:56.50 KB

页数:6页

时间:2018-07-06

水产科学研究的数据采集_第1页
水产科学研究的数据采集_第2页
水产科学研究的数据采集_第3页
水产科学研究的数据采集_第4页
水产科学研究的数据采集_第5页
资源描述:

《水产科学研究的数据采集》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、水产科学研究的数据采集1数据采集文献检索方法最简便也应用最广,但由于机构名称不规范或检索策略不合理,容易带来漏检或误检。科研管理统计数据则多缺乏可供计量分析的字段。因此,将文献检索与科研管理统计两类数据作为基础数据可以最大程度地保证数据的全面性和客观性。由于各数据库收录期刊的范围存在差异,对单一数据库检索容易导致数据不全面。因此,选取中国知网中国学术期刊的网络出版总库和维普资讯中文科技期刊数据库同时作为数据库。检索策略为:机构=中国水产科学研究院or黄海水产研究所or东海水产研究所or南海水产研究所or珠江水产研究所or长江水产研究所or黑龙江水产研究所or淡水渔业

2、研究中心or渔业机械仪器研究所or渔业工程研究所,人工识别分析机构名称的各种不规范写法后,进一步优化检索式,如:黄海水产所实际应为黄海水产研究所,因情况众多不再逐一列举。最后将检索结果分别导入EXCEL表。科研管理统计数据主要来自于各研究所历年统计上报的数据,导入EXCEL表。因此,基础数据包括三部分,分别为中国知网检索数据、维普资讯检索数据和科研管理统计数据,下文将详述基础数据的去重与合并。以黄海水产研究所2007年数据为例,基于文献检索和科研管理统计获得的数据量如表1,可见实际数据量大于每个单独统计的数据量。2数据清洗数据清洗的原理是根据回溯思想,通过分析脏数据

3、产生的原因和存在形式,利用现有的技术手段和方法检测脏数据,制定数据清洗的方法、规则和策略并加以实施,将脏数据转化为干净数据。实践中,多将来自不同数据源的数据转换成统一的格式,补充遗漏记录,去除错误或重复记录,提高数据质量以满足分析的需求。实践表明,数据清洗约占文献计量工作量的80%~90%[4]。数据清洗方式以人工和计算机辅助人工为主,人工清洗结果精确得当但工作量大、效率低,目前通行的办法是计算机辅助人工处理[7]。近年来市场上已有数据清洗软件商品和专门的ETL工具[8,9],但这些软件多适用于特定数据库的文献格式、对中文文本的支持性较差且有些还需支付高额的使用费。

4、笔者借鉴前人研究的基础,结合实际工作,提出一些自己的做法。2.1数据去重将为中国知网和维普资讯的数据进行合并,首先去除二者共同收录的文献。由于不同数据库数据格式不统一,不能通过相同题名的字符完全匹配进行数据查重,如:同一篇论文,在不同数据库中收录时存在如下问题:标点符号(括号、引号、破折号等)全半角不统一且无规则;专有英文名称等大小写字母不统一;题目中混入空格等无意义字符;系列文章的序号将阿拉伯数字与大写数字混用;生僻字被拆分成两个字录入等。利用基于EXCEL的VBA编程,采用题名相似匹配与人工辅助相结合的方法对数据进行查重处理。处理流程如图1所示。(1)筛选各数据

5、库中待分析的特征题录字段,形成格式统一的表。(2)对题名字段进行预处理,如:半角化、去空格、大写字母转小写等。(3)建立空表,命名为VIP-KI、SUSPECT。(4)将中国知网数据复制至VIP-KI,用维普资讯数据与VIP-KI逐条对比。(5)如果题名完全相同,则认为是重复记录不做处理,继续对比下一条。(6)如果题名不同,则当题名长度差异在20%以内且相同字符匹配率达60%,将这两条数据添加至疑似相同文献表SUSPECT,继续对比下一条;当题名差异在20%以上,或相同字符匹配率60%以下,则将该条维普数据添加至表VIP--KI,继续对比下一条数据。(7)当所有对比

6、完成之后,人工判断表Suspect里的文献是否为相同文献,并做标记,直至判断结束。批量导入标记为不同的维普文献至VIP-KI。经去重后合并的表VIP-KI即为基于文献检索的中国水科院中文期刊论文集。用该数据集与科研管理统计数据对比进行去重及合并,并补充科研管理统计数据中缺失的字段,即为水科院中文期刊论文总集,因方法和流程与上述类似,故不再赘述。1水产养殖环境的外源性污染及影响水产养殖环境是水产生物资源赖以生存的基础,是水生经济动植物生长、繁衍的场所。水产养殖生态系统通过水域中的生物和生物(水生动物、植物和微生物等)、生物与环境之间相互制约、相互作用而构成相对稳定的统

7、一体。环境通过与水生生物的物质交换与能量转化,对水生生物的生存和发展产生影响。因此,优良的养殖水域生态环境是水生经济动植物赖以生存和发展的重要保证,是维持水产养殖可持续发展的基本前提[3]。水产养殖必须要有优良的水体环境作为基础,而养殖水体的水源主要来自天然水体,即海洋、河流和湖泊等,故养殖水体环境的污染首先来自于外源性的污染。近年来,随着我国经济的飞速发展,天然水体因遭受工业废水、生活污水和农业面源污染的影响,环境质量有所下降,这给水产养殖环境带来了一定的冲击。据国家环境保护部《2012中国环境状况公报》[4]的数据资料显示,中国农村环境形势日趋严峻,饮用水源

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。