欢迎来到天天文库
浏览记录
ID:32408663
大小:1.19 MB
页数:8页
时间:2019-02-04
《科学大数据管理技术与系统》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、技术与方法TechnologyandMethodology科学大数据管理技术与系统1*1,213*黎建辉李跃鹏王华进陈明奇1中国科学院计算机网络信息中心北京1001902中国科学院大学北京1000493中国科学院办公厅北京100864摘要由于现代科学发现越来越依赖于大规模科学数据的分析处理,如何高效管理科学大数据业已成为当下亟待解决的问题。文章分析了科学大数据的应用场景和需求,阐述了科学大数据在规模动态化、流水线管理、统一访问、数据共享(SPUS)4个方面面临的挑战。提出了包括计算和存储管理、数据流水线管理、数据融合查询管理、数据共享管理4个模块的科学大数据管理系统体系结构,并分
2、析了系统中存在的关键技术问题。最后,介绍了国家重点研发计划项目“科学大数据管理系统”的研发进展及其未来的研究方向。关键词科学大数据,融合查询,流水线,数据共享,弹性伸缩DOI10.16418/j.issn.1000-3045.2018.08.005[1]JimGray提出了科学研究的第四范式——数据密文领域的大型巡天望远镜(LSST)、高能物理领域的集型科学发现的观点,他认为海量数据是未来驱动科大型强子对撞机(LHC)、生命科学领域的人类基因组学发现的主要动力之一。2012年7月4日,欧洲粒子计划(HGP)、地球科学领域的灾害风险综合研究计划物理中心(CERN)通过分析过去两年大
3、型强子对撞机(IRDR)等,无一不是从大科学装置或观测设备中持(LHC)的实验数据,宣布发现“上帝粒子”;次年,续不断采集数据,然后通过数据分析进行科学发现。毫“上帝粒子”预言者获得了诺贝尔物理学奖。激光干涉无疑问,如今的科学发现模式已经进入科学大数据驱仪引力波天文台(LIGO)科学合作组织在积累500PB数动的时代。到2020年左右,LSST将全面完工运行,届据、历时14年模型和系统改进以后,2016年2月11日时LSST每3天完成1次巡天,每天产生15TB数据以用宣布第一次探测到了引力波的存在,证实了相对论的最于新星发现、暗物质探测等科研目标;阵列射电望远镜后预言;2017年
4、LIGO的3位重要贡献者获得了诺贝尔(SKA)每秒将产生200GB原始数据、每秒千万亿次物理学奖。环顾当今的重大科学研究装置和项目,如天计算、10倍于现有因特网传输速度,正等待科研人员去*通讯作者资助项目:国家重点研发计划(2016YFB1000600),国家自然科学基金项目(91546125)修改稿收到日期:2018年8月15日7962018年.第33卷.第8期科学大数据管理技术与系统突破和挑战。这些大科学项目对于宇宙起源认识、自然资源、文献、序列和疾病等数据,在10000多个数据源规律发现、科技创新具有重大意义,能否有效管理、处中构建100亿条关联的知识图谱数据,并要求1s内
5、完理、利用这些数据,将成为我国在新时代下能否取得国成100亿条关联数据的6步关联查询。际科技领先地位的关键因素之一。自2011年麦肯锡年度总结报告中提出“大数据”概念以来,学术界和工业界对大数据定义一直存在争议,这些1科学大数据应用场景及管理需求[6]争议主要来自不同领域中大数据的特征体现。目前学术1.1科学大数据的应用场景及典型特征界公认大数据具有“4V”特征——体量大(volume)、科学数据是科研活动的输入、输出和资产,是证实生成快(velocity)、多样性(variety)和密度低或者证伪科学发现或科学观点事实、证据或者论证推理(value),科学大数据应用场景充分体现
6、了这“4V”特的基础。它包括数字化观测、科学监测等来自仪器设备征,并具有以下独特的性质。或传感器的数据,计算模拟与模型输出的数据,对情景(1)科学发现的准确性建立在海量实验数据的重复或现象的描述,对行为的观测或定性描述,以及用于管计算验证之上。例如,“上帝粒子”和暗物质发现的正[2]理或者商业目的的统计数据等。目前科学大数据普遍存确性经过了对数百PB量级数据的多次重复计算,多次验在于各个领域的科学研究,尤其在天文学、高能物理、证重复出现同一结论时才能发布结论。微生物学等大科学领域,科学大数据的应用场景尤为明(2)短时间内科学实验会产生大量观测数据并进行[3]显。流程化处理,实验数
7、据会持续进入持久化存储设备进行在天文学领域,中法合作伽马暴探测天文卫星长周期存储。例如,GWAC在15s内完成40×32MB天区SVOM的关键地面设备GWAC的每个相机15s内会产图的点源检测、入库等操作,产生的所有数据将永久存生32MB的天区图,并于下一个天区图产生之前完成点储。源提取、交叉认证等操作,最终在3—5s内完成100万—(3)科学现象观测的量化指标存在图像、语音、时10000万行星表数据的插入,10亿—100亿行星表数据间序列等形式,数据分布在不同国家和机构中,科学
此文档下载收益归作者所有