大数据时代和大数据背景下的科研转变

大数据时代和大数据背景下的科研转变

ID:39324222

大小:1.37 MB

页数:19页

时间:2019-06-30

大数据时代和大数据背景下的科研转变_第1页
大数据时代和大数据背景下的科研转变_第2页
大数据时代和大数据背景下的科研转变_第3页
大数据时代和大数据背景下的科研转变_第4页
大数据时代和大数据背景下的科研转变_第5页
资源描述:

《大数据时代和大数据背景下的科研转变》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据时代和大数据背景下的科研转变大数据的概念数据海量化和数字化数据量的爆发式、几何式增长:从人类文明出现到2003年,人类总共才产生了5EB(ExaBytes,1EB=10亿GB)的数据,但是当前的人类两天内就创造出了相同的数据量,全球90%的数据都是在过去两年中生成的,到2020年全球数据使用量将大概需要376亿个1TB的硬盘进行存储。越来越多的数据存储为数字数据:在2000年,数字存储信息仍只占全球数据量的四分之一;而在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据;到2013年,世界上存储的数据预计能达到约1.2ZB(1Z

2、B=1000EB),其中非数字数据只占不到2%。数据分析和管理效率的大大提高模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。数据数字化和云计算技术的发展使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据,使得存储和处理这些数据变得既便宜又容易,从而大大提高了数据管理效率。大数据的4V特征“高容量(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。量Volume多样性Variety价值Value

3、速度Velocity数据体量巨大大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)数据的多样性数据类型繁多(文本、图像、视频、机器数据、地理位置信息等等)大量的不相关信息价值密度低需要强大的计算技术进行“提纯”数据产生和更新的频率快,处理速度快大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长

4、和消费者盈余浪潮的到来。”——全球知名咨询公司麦肯锡大数据时代数据处理思维的三个转变全数据模式,而不再依赖于随机抽样很长一段时间以来,准确统计和分析大量数据对我们而言都是一种挑战,比如人口普查。通常我们只能收集少量数据进行分析,称之为抽样分析。大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,使我们能够更清楚地看到了样本无法揭示的细节信息并进行新的分析。为了赢得与癌症的斗争,史蒂夫·乔布斯曾花费数十万美元为自己DNA测序,得到了包括整个基因密码的数据文档。这样,史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时

5、更换另一种药,最终这种方式帮助乔布斯延长了好几年的生命。乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”不再热衷于追求精确度追求精确度的思维方式适用于掌握“小数据量”的情况,此时必须确保记录下来的数据尽量精确。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。拥有了大数据,我们不再需要过于追究细节,只要掌握大体的发展方向即可。比如计算小商品的营业额和计算国民生产总值。不再执著于寻找因果关系长久以来,我们的研究总是热衷于追寻现象之间的因果关系。而在大数据时代,我们无须再紧盯事物之间的因果关系,应该寻

6、找事物之间的相关关系。 如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。 2011年,美国个人消费信用评估公司FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。大数据的应用:谷歌流感预测谷歌流感预测(www.google.org/f

7、lutrends)早在2008年即已推出,原理是采用流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等,并利用这些搜索结果来提前9个星期预测可能与流感相关的就医量,不像疾控中心一样要在流感爆发一两周之后才可以做到。2009年在H1N1爆发几周前,谷歌公司的工程师们在《Nature》上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。大数据的应用:PCORnetPCORnet由

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。