浅谈医学的大大数据

浅谈医学的大大数据

ID:28643056

大小:715.44 KB

页数:25页

时间:2018-12-12

浅谈医学的大大数据_第1页
浅谈医学的大大数据_第2页
浅谈医学的大大数据_第3页
浅谈医学的大大数据_第4页
浅谈医学的大大数据_第5页
资源描述:

《浅谈医学的大大数据》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅谈医学大数据陈遵秋和陈漪伊夫妇是美籍华人,现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表,与大家一起探讨。现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90%以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。大数据定义及其特征大数据顾名思义就是数量极

2、其庞大的数据资料。从上世纪80年代开始,每隔40个月世界上储存的人均科技信息量就会翻倍(Hibert&Lopez,2011)。2012年,每天会有2.5EB量的数据产生(Andrew&Erik,2012)。现在,2014年,每天会有2.3ZB量的数据产生(IBM,2015)。这是一个什么概念?现在一般我们电脑的硬盘大小都以GB,或者TB为单位了。1GB的容量可以储存约5.4亿的汉字,或者170张普通数码相机拍摄的高精度照片,或者300-350首长度为5-6分钟的MP3歌曲。那GB和TB,EB,ZB的关系又是怎样?1Z

3、B=1024EB=10242PB=10243TB=10244GB。如果你有一台1TB硬盘容量的电脑,那1ZB就是大致等于10亿台电脑的容量,远远超出了我们一般的想象。早期,IBM定义了大数据的特性有3个:大量性(Volume),多样性(Variety),快速性(Velocity)(Zikopoulos,Eaton,deRooos,Deutsch,&Lapis,2012)。后来又有学者把价值(Value)加到大数据的特性里。随着时间的推移和人们思考的进一步完善,又有三个大数据的特性被提出:易变性(Variability

4、),准确性(Veracity)和复杂性(Complexity)。作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度,和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战,而价值则是征服这些挑战后获得的回报。大数据的6个特性描述如下:大量性:一般在大数据里,单个文件大量性的级别至少为几十,几百GB以上,一调查(Russom,2013)显示相当多的机构拥有的数据总量在10到99TB之间。用我们传统的数据库软件,1GB已经可以储存千万条有着几百个变量的数据记录了。多样性:泛指数据类型及其来

5、源的多样化(Troester,2012),进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured),和非结构化(unstructured)(SAS,2014)。快速性:反映在数据的快速产生及数据变更的频率上。比如一份哈佛商学院的研究报告称在2012年时,谷歌每天就需要要处理20PB的数据(HarvardBusinessReview,2012)。易变性:伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值(Troeste

6、r,2012)。准确性:又称为数据保证(dataassurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低(W.Raghupathi&Raghupathi,2014)。所谓“垃圾进,垃圾出”。没有数据保证,大数据分析就毫无意义。复杂性:复杂性体现在数据的管理和操作上。IT时代,随着数据来源及数据量的爆发,各种不同渠道数据的大量涌现,数据的管理和操作已经变得原来越复杂。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得

7、越来越有挑战性。医疗大数据的爆发早期,大部分医疗相关数据是纸张化的形式存在,而非电子数据化存储,比如官方的医药记录,收费记录,护士医生手写的病例记录,处方药记录,X光片记录,磁共振成像(MRI)记录,CT影像记录等等。随着强大的数据存储,计算平台,及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化。有报告显示,2011年,单单美国的医疗健康系统数据量就达到了150EB。照目前的增长速度,ZB(约1021GB)和YB(约1021GB)的级别也会很快达到(I

8、HTT,2013)。KaiserPermanente,一个在加州发展起来的医疗健康网络系统,就有9百万的会员,被认为拥有26.5到44PB的电子健康记录(IHTT,2013)。IT时代涌现的还有各种网络社交媒体数据,比如曾经Google用来预测流感的数据。基因数据也是非常庞大的存在,一次全面的基因测序,产生的个人数据则达到300GB(Leah,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。