计算机前沿报告

计算机前沿报告

ID:32394270

大小:179.00 KB

页数:8页

时间:2019-02-04

计算机前沿报告_第1页
计算机前沿报告_第2页
计算机前沿报告_第3页
计算机前沿报告_第4页
计算机前沿报告_第5页
资源描述:

《计算机前沿报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、计算机前沿技术课程报告姓名:王向晨学号:201010012672013.12.3大数据技术与应用作者:王向晨摘要从大数据技术和应用2个方面剖析大数据时代带来的影响。对数据采集,数据管理,计算处理,数据分析和数据展现5个关键技术环节进行了分析。总结和探讨了互联网、电信、金融、政府等关键领域大数据应用的初步经验。关键词大数据技术大数据应用大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前

2、的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。各行各业对于数据的分析由来已久。大数据的不同,不仅仅在于数据量的剧增,更重要的是互联网的高速发展,带来的数据技术、数据应用、数据价值的变革。2000年之后,Google依托搜索引擎创新了数据处理等一系列技术,一是分布式并行计算和处理技术,提高了海量数据的运算能力,降低了计算成本,解决了摩尔定律周期内的瓶颈,为大数据分析提供了动力引擎;二是数据分析技术更加智能,人工干预更少,并且由于数据量更大,更多可能的相关关系被分析挖掘出来。进而智能推荐、价格预测等建立在海量数据分析之上的

3、互联网应用取得了巨大成功,聚集了海量社会各方面信息的互联网上的价值,获得其他各行业的关注,数据分析不再局限于企业内部数据,而是移动终端、互联网等外部数据源,互联网数据应用的思想扩展到其他行业,如互联网金融、社会趋势预测、无人驾驶汽车等大数据应用模式。数据的价值也被重新审视,作为一种资源,数据逐渐具有商品化属性。2011年,麦肯锡、世界经济论坛等总结各种创新的数据应用,并发布一系列报告,在全世界掀起一股大数据热潮。1.大数据关键技术大数据并非一项新技术,其前身是商务智能BI。大数据是一系列信息技术的集合,包括数据采集、数据管理、计算处理、数据分析和数据展现5个关键技术环节。其

4、中,数据管理、计算处理和数据分析3个环节的变革较大,本文将着重分析。1.1数据采集数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载(ETL,ExtractingTransformingLoading)。由于数据源不一样,数据采集的技术体系也不尽相同,其面临的挑战主要来自两方面,一是如何自动、实时地对接收的海量数数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载(ETL,ExtractingTransformingLoading)。由于数据源不一样,数据采集的技术体系也不尽相同,其面临的挑战主要来自两方

5、面,一是如何自动、实时地对接收的海量数据相结合。1.2数据管理大数据对存储管理技术的挑战主要在于扩展性。首先是容量上的扩展,要求底层存储架构和文件系统以低成本的方式及时按需扩展存储空间。传统的NAS、SAN等存储架构下,存储和计算分离,进行数据计算时I/O容易成为瓶颈,文件系统也存在吞吐量和可扩展性差的问题。新的以谷歌GFS和HadoopHDFS为代表的系统中,普遍采用了分布式的存储架构,使得计算和存储节点合一,消除了I/O瓶颈,文件系统也采用分布式并行设计。但GFS/HDFS主要针对大文件的追加(Append)写入和读取进行了优化。下一步的重点是突破GFS/HDFS在写操

6、作、小文件存取等方面的性能瓶颈,设计新的文件系统。其次是数据格式可扩展,满足各种非结构化数据的管理需求。传统的关系型数据库管理系统(RDBMS)为了满足强一致性要求,影响了并发性能的发挥,而采用结构化数据表的存储方式,对非结构化数据进行管理时缺乏灵活性。在谷歌BigTable和HadoopHBase等NoSQL数据库设计中,通过Key-value、文件等非二维表的存储形式增加灵活性,并且放松了一致性要求,只保证最终一致性,极大提升了并发性能。谷歌2012年公布的Spanner数据库,能够提供较强的一致性、支持SQL结构,可在全球任意位置部署,系统规模可达到100~1000万

7、台机器。未来存储管理上的发展趋势是融合关系型和非关系型数据库特点,研发超大规模的新型数据库。1.3计算处理对大数据进行分析处理要消耗大量的计算资源,这对计算的速度和成本都提出了更高要求。采用并行计算是应对大计算量的普遍做法。但传统的并行计算系统,一般由专用的性能强大的硬件构成,造价昂贵,若想提高系统性能,需要采取纵向扩展(ScaleUp)的方式,即通过提升单机CPU性能、增加内存、扩展磁盘等达到性能提升。这种扩展容易达到瓶颈,难以支撑持续的计算能力扩展,而且成本很高。谷歌在2004年公开的分布式并行计算技术MapR

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。