迎接大数据时代的来临_倪光南30.pdf

迎接大数据时代的来临_倪光南30.pdf

ID:52760694

大小:2.96 MB

页数:30页

时间:2020-03-30

迎接大数据时代的来临_倪光南30.pdf_第1页
迎接大数据时代的来临_倪光南30.pdf_第2页
迎接大数据时代的来临_倪光南30.pdf_第3页
迎接大数据时代的来临_倪光南30.pdf_第4页
迎接大数据时代的来临_倪光南30.pdf_第5页
资源描述:

《迎接大数据时代的来临_倪光南30.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2013中国国际云计算技术和应用论坛(CloudChina2013)迎接大数据时代的来临——大数据发生、特征、科研范式、处理与应用倪光南编写2013年4月7-8日1从商业智能(BI)到大数据大数据从数据挖掘、商业智能(BI)发展而来,经典实例如下:“啤酒与尿布”:20世纪90年代沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。这样,他们在尿布货柜附近放置了啤酒,结果销量大幅上升。美国第二大超市Target为了抓住含金量很高的一个顾客群体——孕妇,通过数据挖掘建立

2、了一个模型,选出了25种典型商品的消费数据构建了“怀孕预测指数”,由此,它能在很小的误差范围内预测到顾客的怀孕情况,从而能早早地把孕妇优惠广告夹杂在其他一大堆与怀孕不相关的商品广告中发出去,有效地招揽了孕妇顾客群。这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他高中生的女儿怀孕了,一时轰动全美。2怎样发展到大数据?随着互联网、移动互联网的发展,1.数据产生和发送的速度和频率急剧增长;2.数据源的数目和种类上升。全球范围内可用的数字数据从2005年的150EB增长到2010年的1200EB。预计在以后一些年里将年增长40%,即相当于人口增长速度的40倍。这意味着数字数据从

3、2007到2020将增长44倍,或每20个月翻一番。这些新的数字数据源包括搜索、新闻、博客、微博等社交网、移动电话和短信、热线电话、监控数据、遥测数据……,产生的新数据的特点是:一般以数字方式产生;往往是我们日常生活或与数字服务交互的副产品;一般是自动收集、有在数据产生时同时提取和存储它的系统;在地理上或短时期里可以跟踪,如手机位置数据或通话持续时间;可连续地进行实时或近乎实时的分析。这些新的情况再加上云计算的发展,为大数据提供了合适的环境和处理能力,推动数据挖掘、商业智能发展到大数据。3商业智能和大数据的比较名称商业智能大数据数据量不太大,常为TB量大,常为PB量级

4、(1015Byte)级(1012Byte)数据特性结构化信息,非实时主要为非结构化信息,如文本、图形、信息音频、视频、遥感遥测信息……,大多是实时信息数据来源主要为企业交易数据主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线、电子商务交易、遥感遥测数据……应用领域主要是自然科学范畴主要是社会科学范畴,如经济学和社会学应用、政治政策应用等4大数据的一些特性大数据的“实时”性并不意味着真正的实时,而往往是近似的“实时”:在一个相对短、相对新的时间里产生并可资利用;在一个与场景有关的短时期里,即能容许作出响应,

5、并判定效果的一个时间段里(即容许产生一个反馈过程)产生并可资利用。新的数字数据源的特点:从人们使用数字服务被动收集到的交易数据联机数据,网页搜索、新闻媒体和社会媒体的交互数据物理传感器数据居民报告或群体源的主动数据5科学研究的第四范式图灵奖获得者吉姆•格雷(JimGray)基于e-Science的思路提出:大数据是科学研究的第四范式(thefourthparadigm)。e-Science是英国科学技术局研究理事会前任会长约翰•泰勒(JohnTaylor)提出的,它实际上是一种基础设施,它提供了一种信息化的科学研究的环境和平台,使得不同学科领域的研究和科研活

6、动能够有针对地开发特定的科学研究与应用。实际上,像现在的核反应模拟、航空航天设计、生命科学研究……无一不依赖于高性能计算机及相应的数值计算方法,属于计算密集型科研。第四范式的思想是和e-Science一脉相承的,第四范式是从计算密集型科研发展到以大数据为基础的数据密集型科研方法,从目前看来它将在越来越多领域的研究中发挥重大的甚至是决定性的作用。6科学研究方法(范式)的发展科学研究范式(paradigm)的发展过程,最早是实验型科研(Experimental Science),这已有几千年的历史了,后来发展到理论型科研(Theore;cal Science),这也有数百年

7、的历史了,近几十年发展到计算型科研(Computa;onal Science),现在则推进到第四范式——以大数据为基础的数据密集型科研(Data‐intensive Science)。7资料来源:潘柱廷,《攻击大数据》各种科学研究范式的关系这几种范式在实际科研中往往同时使用,相辅相成。第一种范式即实验型科研是最基本的方法,因为任何科学都需要用实验来检验;理论在未经实验证实前,只能作为假设,所以第二种范式即理论型科研是以实验为基础并依赖于实验验证的;第三种范式即计算型科研往往需要利用第二种范式取得的成果,即需要在理论的指导下

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。