欢迎来到天天文库
浏览记录
ID:33802046
大小:1.15 MB
页数:10页
时间:2019-03-01
《大数据及其技术挑战》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、评论文章DOI:10.1145/2611567其他科学家使用。不仅如此,随探索在挖掘大数据潜力时面临的内在技术挑战着技术日益进步,特别是在下一代测序(NGS)出现后,可用的作者:H.V.JAGADISH,JOHANNESGEHRKE,试验数据集的规模和数量均呈指ALEXANDROSLABRINIDIS,YANNISPAPAKONSTANTINOU,数级增长。13JIGNESHM.PATEL,RAGHURAMAKRISHNAN,按每台单独的NGS机器产生CYRUSSHAHABI的原始序列数据计算,当前NGS方法的输出增长速度如图1
2、所示,图中还描绘了SPECintCPU基准的大数据及其技性能增长情况。很明显,对于单线程应用(本文中的SPECint)来说,NGS序列数据的增长远远超过了摩术挑战尔定律提供的性能增长。请注意,图1中的序列数据大小为分析NGS仪器实际产生的原始图像后得出的输出结果。由于这些原始图像数据集本身规模太大(每天每个实验室产生数个TB的数据),即便是在现在,考虑保存他们也不切实际。而且,序列数据是在实时分析图像时产生并保存的。大数据不仅对科学研究带来巨大的变化,而且有潜力在其它方面带来更大的变革。Google对谷歌文件系统(GoogleF
3、ileSystem)在广阔的应用领域中,数据正在以前所未有的规模增和MapReduce的研究以及随后出长。以前,决策基于猜测或人工构建的模型,费时费力;现的像Hadoop这样的开源系统已现在,人们使用数据驱动的数学模型做出决策。此类大数据分析现在几乎驱动了社会各领域的进步,包括重要见解移动服务、零售、制造、金融服务、生命科学和物理大数据正在彻底改变我们生活的所有科学领域。方面,从企业到消费者,从科学到政府,均经历着根本性的变革。举例来说,科学研究因为大数据已经发生了根本变1,1223革。斯隆数字巡天(SloanDigitalSk
4、ySurvey)已从大数据中创造价值是一个包含下列多个步骤的流程:采集,信息抽取和清经变革了天文学;之前天文学家的大部分工作是拍摄理,数据集成,建模和分析,以及解释天空的图片;现在天文学家的工作是从数据库中找出和部署。许多对大数据的论述只关注了一两个步骤,却忽视了其他的步骤。感兴趣的对象和现象,因为照片已经存放在数据库中。在生物科学领域,把科学数据存放入公共的存储库现研究想光的挑战很多,范围包含从数据的异质性、不一致和不完整、及时性、已成为一种约定俗成的习俗。该习俗也包括创建公共隐私、可视化效果和协作到围绕大数据数据库供其他科学
5、家使用。不仅如此,随着技术日益形成的工具生态系统等多个方面。进步,特别是在下一代测序(NGS)出现后,可用的13很多案例表明,能够正确驾驭大数据试验数据集的规模和数量均呈指数级增长。的人将会赋予丰厚的奖赏。图片由AMAZEMEGRAPHICS提供86ACM通讯
6、2014年7月
7、第57卷
8、第7期2014年7月
9、第57卷
10、第7期
11、ACM通讯87评论文章经引发了业界对大数据技术最广泛境建模(通过无处不在的传感器网2010年,企业和用户存储了4的开发和应用。专注于Web的公络收集数据)、节能(通过揭示超过13百亿亿字节的新数据;这司,如
12、脸谱网(Facebook)、领英使用模式)、智能材料(通过新材是美国国会图书馆的数据的50,00018(LinkedIn)、微软、Quantcast、料基因组计划、自然语言之间的多倍。根据麦肯锡最近发布的报Twitter和雅虎等公司引领了这一机器翻译(通过分析大型语料库)、告,对于终端用户而言,全球个人2潮流。它们已经成了众多应用中不教育(特别是在线课程)、计算社位置数据的潜在价值估计有7千亿可或缺的基础,涵盖了从网络搜索会学(一种越来越热门的新方法论,美元,它可以让产品开发和组装成17到内容推荐和计算广告学等各种领因为获取数据
13、的成本大大降低)、本最多降低50%。麦肯锡预测,14域。在下列领域中,利用大数据价金融领域的系统性风险分析(通大数据在就业方面也会造成同等规值的真实案例已然出现,且颇具说过集中分析大量的合同来找出金融模的巨大影响,其中美国将需要8服力:医疗保健(通过基于家庭的实体之间的依赖关系)、国土安140,000–190,000名拥有“深入分3连续性监测和跨供应商集成)、全(通过分析社交网络和潜在恐怖析”经验的员工;不仅如此,150城市规划(通过融合高保真地理数分子的金融交易)、计算机安全(通万名经理将需要精通数据。不令人据)、智能交通(通
14、过分析和可视过分析日志记录的事件,也被称为吃惊的是,美国总统科技咨询委员化展现实时的详细路网数据)、环安全信息与事件管理SIEM)等。会最近发布了一份有关网络化与IT22研发的报告,其中把大数据确定图1下一代序列数据的规模与SPECint的对比为“前沿研究方向”
此文档下载收益归作者所有