网络大数据的广泛应用52.pdf

网络大数据的广泛应用52.pdf

ID:52760358

大小:3.87 MB

页数:52页

时间:2020-03-30

网络大数据的广泛应用52.pdf_第1页
网络大数据的广泛应用52.pdf_第2页
网络大数据的广泛应用52.pdf_第3页
网络大数据的广泛应用52.pdf_第4页
网络大数据的广泛应用52.pdf_第5页
资源描述:

《网络大数据的广泛应用52.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、INSTITUTEOFCOMPUTINGTECHNOLOGY网络大数据应用提出的挑战性问题李国杰中国科学院计算技术研究所2012.5.22,香山科学会议1网络大数据的广泛应用2信息社会的发展变化60年前,数字计算机使得信息可读;20年前,Internet使得信息可获得;10年前,搜索引擎爬虫将互联网变成一个数据库;现在,Google及类似公司处理海量语料库如同一个人类社会实验室。数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,而且改变了科研范式。过去几十年,我们经常讲发展信息科学技术和

2、产业,但主要的工作是电子化和数字化。现在,数据为王的大数据时代已经到来,我们需要完成观念上的重大转变:将关注的重点真正落在数据(信息)上,计算机行业要转变为真正的信息行业。计算机要从追求计算速度转变为大数据处理能力,软件要从编程为主转变为数据优先。3什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)大数据=“海量数据”+“复杂类型的数据”大数据的特性(Volume,Variety,Velocity)–数据量大:PB、TB、EB、ZB级别的数

3、据量–种类多:包括文档、视频、图片、音频、数据库、层次状数据等–速度快:数据生产速度很快;对数据处理和I/O速度很快涉及多个领域–包括天文、气象、基因、医学、经济、物理、互联网等–本次会议重点讨论与人类社会活动有关的网络数据4目前大数据的规模IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021),其中75%来自于个人。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据

4、将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。5大数据总量增长态势(数据摩尔定律:两年翻一番)6大数据公司的现状Google公司通过大规模集群和MapReduce软件,每天处

5、理超过20PB的数据,每个月处理的数据量超过400PB。百度的数据量:数百PB,每天大约要处理几十PB数据,Gartner公司对未来五年的预测:到2015大多要实时处理,如微博、团购、秒杀。年,85%的世界五百强企业如果不采取大Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生成数据的策略将失去竞争力!300TB日志数据淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据。Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容

6、量超过100PB。(按照欧盟的规定,不能存储超过一年的用户数据)。7海量数据创造的巨大价值Dataisthenext“IntelInside”.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的创始人TimO‘Reilly8美国政府启动“BigData”计划2012年3月29日,美国政府启动“BigDataResearchandDevelopmentInitiative”计划,6个部

7、门拨款2亿美元。transformourabilitytouseBigDataforscientificdiscovery,environmentalandbiomedicalresearch,education,andnationalsecurity.preparethenextgenerationofdatascientistsandengineersseekinga100-foldincreaseintheabilityofanalyststoextractinformationfromte

8、xtsinanylanguage这是一个标致性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。9网络大数据的特点(1)多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。(2)交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导至大量网络数据具有很强的交互性。(从交易到交互)(3)时效性:在网络平台上,每时每刻都有大量新

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。