欢迎来到天天文库
浏览记录
ID:12831153
大小:1.47 MB
页数:9页
时间:2018-07-19
《科研大数据平台关键技术与实践》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第6卷第3期工程研究——跨学科视野中的工程6(3):266-2742014年9月JOURNALOFENGINEERINGSTUDIESSep.,2014DOI:10.3724/SP.J.1224.2014.00266“大数据处理中的基础理论与关键技术”专刊科研大数据平台关键技术与实践程耀东,陈刚(中国科学院高能物理研究所,北京100049)摘要:首先,以高能物理领域数据处理为例,分析了支撑科学研究的大数据平台在存储和处理能力、传输和共享等方面的挑战,说明现有技术已经难以满足日益快速增长的数据处理需求。然后,给出了科研大数据平台的
2、典型架构,并讨论科研大数据平台的关键技术,包括数据采集与清洗、数据存储、数据处理、数据传输、数据共享与安全等技术,同时介绍了各种关键技术的研究现状或者主流系统。最后,介绍了中国科学院高能物理研究所科研大数据开放平台的建设思路和实现框架,该平台试图解决目前大数据发展过程中面临的一些问题,如数据开放和跨领域融合不够、跨地域数据传输性能低等,从而激活数据价值,降低应用门槛。关键词:大数据;数据存储;并行数据处理;开放平台中图分类号:O57文献标识码:A文章编号:1674-4969(2014)03-0266-09引言视频和音乐),远远超过
3、人类有史以来所有印刷材[2]当前,人类正在迈入一个前所未有的大规模料的数据总量(200PB)。根据2012年IDC的生产、消费和应用大数据的时代。大规模科学研数字宇宙研究报告,人类在2010年步入ZB(16究,以及近几年互联网、物联网的快速发展,把ZB=1×10[3]PB)时代后,到2020年数据量将增长人类带入了“大数据时代”。根据数据的来源,大50倍(图1)。数据可以粗略地分成两大类:一类来自物理世界,另一类来自人类社会。前者多半是科学实验数据或传感数据,后者与人的活动有关系,特别是与互联网有关。欧洲核子中心的大
4、型强子对撞机LHC(LargeHadronCollider)上的探测器每年产生的数据量达到25PB[1]。用电子显微镜重建大脑中的突触网络,1mm3大脑的图像数据就超过1PB。同时,人们的日常生活与网络关联得越来越紧密,海量的数据在网络中产生、传输、存储、处理。据IDC(InternetDataCenter)公司统计,2011年全球来自于个人的数据(主要是图片、无论科学实验数据还是人类社会产生的数图1全球数据增长图片来源:IDC(InternetDataCenter)的数字宇宙研究报告。收稿日期:2013-10-08;修回日期:
5、2013-11-25基金项目:国家自然科学基金项目(11205179)作者简介:程耀东(1977–),男,副研究员,研究方向为海量存储、网格计算与云计算等。E-mail:chyd@ihep.ac.cn陈刚(1961–),男,研究员,博士生导师,研究方向为高性能计算、分布式系统、大数据分析等。程耀东,等:科研大数据平台关键技术与实践267据,最终只有在大数据计算平台上进行分析处理,才能将数据转换成知识和信息,发挥出大数据的价值。本文首先介绍科研模式的转变以及科研大数据的需求和现状。然后,针对科研大数据平台中的关键技术,包括数据采集、
6、数据存储、数据传输、数据处理以及共享和安全进行分析。最后,结合高能物理领域的数据处理对科研大数据平台的一些实践进行介绍。1科研大数据及其计算平台现状1.1科研模式的转变人类探索世界的脚步永无止境,而科学研究的方式也在不断发展。远古时期,人们依靠观察和思辨来认识和探索世界。17世纪以来,随着牛顿经典力学基本运动定律的发表,科学家们逐渐把实验与理论作为科学研究的基本手段。然而,随着人类探索世界的不断深入,许多科学问题的实验研究和理论研究变得越来越复杂,甚至难以给出明确的结论。近半个世纪以来,随着电子计算机的诞生与快速发展,计算机仿真模
7、拟变成第三种不可或缺的科学研究手段,以帮助科学家们去探索实验与理论难以解决的问题,如宇宙的起源、汽车碰撞、天气预报等。而在当前社会,各个学科领域的研究不断向纵深发展,不管是实验装置还是计算机仿真模拟的规模都变得越来越大,产生了越来越多的数据,从而催生了围绕海量数据获取、存储、共享和分析的科学研究手段。来自大科学装置或者计算机仿真模拟的实验数据被收集和存储起来,并通过先进高速的网络与处于不同国家或机构的合作者分享。依靠分布式计算技术及协同工作环境,科学家们不仅共享数据,还共享软件、模型、计算、专家知识甚至人力等资源,从而加快科学成果
8、的产出。现代科学研究,特别是粒子物理、生命科学、能源环境、先进材料与纳米科学等新兴或交叉领域的发展要进行跨国家、跨地域的协作与交流,而大数据技术的发展正在对其产生深远的影响。下面以高能物理为例来说明科研大数据的需求及计算平台现状。新一代高能物理实
此文档下载收益归作者所有