大数据产业正围绕数据形成新的生态

大数据产业正围绕数据形成新的生态

ID:25660153

大小:777.39 KB

页数:10页

时间:2018-11-22

大数据产业正围绕数据形成新的生态_第1页
大数据产业正围绕数据形成新的生态_第2页
大数据产业正围绕数据形成新的生态_第3页
大数据产业正围绕数据形成新的生态_第4页
大数据产业正围绕数据形成新的生态_第5页
资源描述:

《大数据产业正围绕数据形成新的生态》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据产业正围绕数据形成新的生态 软件定义世界(SDX)新用户请点击标题下【软件定义世界(SDX)】快捷关注☞【PPT】高巍:大数据产业正围绕数据形成新的生态文:高巍,转载自36大数据今天演讲的主题是《大数据产业进展和发展策略的思考》,我们研究院2012年开始在大数据方面进行了持续的研究,今天我也希望借这个机会分享一下我们的研究成果和想法。今天的演讲一共是这么三个部分:一个是大数据发展的脉搏,第二个是我们目前所看到的大数据技术、产业和应用发展的进展,第三点是大数据发展政策及思考。首先,简单看一下所谓大数据的起源和断代。自从人类有了文明之后就

2、开始有了数据,当然大数据也是随着人们文明不断的演化。我们现在所说的大数据,当然是从计算机计算技术出现之后,才出现的概念。从50年代开始计算机技术得以发展,至今我们是以处理结构化数据的脉络,一直到90年代提出数据仓储、数据挖掘、BI的概念,实际还是沿着结构化数据的脉络。我们说,99-00年左右,互联网的爆发增长体现出了现在的态势,一个是数据量的增大,99-00年web网页的数量达到了40亿,达到了TD级的数据。另外,web出现之后,给互联网带来了富媒体的内容,带来了更多的数据。我们觉得,除了这些基本的特性之外,我们还需要从一些理念的高度去理解

3、大数据,现在的信息社会,信息当中蕴含着很多价值,像金矿一样,我们原来没有手段和工具去挖掘,而现在要长期这样的工具。原来我们依靠单机的数据库方式,可能并不是非常好的工具,而现在有自动的智能深度分析,这样的工具出现,使我们逐渐有了能力挖掘大数据。我们如何看待数据本身?传统的方式,可能大家在很多场合也提到,传统的方式是抽样,但现在由于工具的改变,技术的提升,我们可以以全级的方式分析数据,同时我们分析的时候是寻找数据的相关关系,就是我们对待数据的理念上产生了变化。下面,简单分享一下我们对大数据技术应用的看法。从数据的技术角度,大致就这三个层面:第一

4、个是预处理,数据的抽取、数据的转换、数据的加载。第二个是数据经过预处理之后进行存储、计算、分析的过程,这是数据价值战斗的过程。第三个是数据的可视化,我们如何把数据转换成大众易于理解、易于形成决策的方式,类似我们在春节的时候新闻中不断在放百度对春运的大数据。现在的大数据处理跟传统的数据处理还是同样这三个环节,只不过因为现在一是数据量的爆发,第二是非结构化数据的引入,第三是对处理需求的出现,使得不同环节在技术上面对不同的挑战。首先主要的挑战在于不是结构化数据,而是来自于不同的数据源,或者多模态的数据,这些数据是非结构化数据的,如何进行统一的关键

5、数据抽取,这是现在面临的一个挑战。另外是数据的存储,现在互联网数据以PB级计算,如果还是用传统的存储方式,包括IO性能和成本上都没办法承载。所以,现在提出了低成本基于分布式的数据架构。同时,这种计算的场景,我们最初在搜索引擎这个时代,其实它并不要求数据处理的实时化,它采用的是批处理的方式,我把结果处理出来之后可以提供给他使用。但是,现在在线的应用,需要实时的数据处理,甚至还需要对其它不同结构的,包括以图结构来呈现的数据处理,原来以数据批处理的方式已经不再适用了,现在出现类似于像sdop(音)流式实时处理的架构。原来结构化数据的分析,更多是用

6、原有模型进行分析和处理,但是现在我们面对着大量的非结构化数据,可能鲜艳的知识模型没有办法应对现在这种新的不断变化的数据。那么怎么办?所以现在出现基于自动化的继续学习,使整个数据的分析过程,完全实现自动化,不需要人工干预。最后就是数据的可视化,如何能够实现直观的用户可以理解的结果,这是由于数据产生的方式,数据本身形态的变化,使得大数据技术不断进展。从技术本身来看,我们认为大数据技术的发展和创新,呈现这样三个阶梯的状态,从原创技术到开源社区,到最后的产品。其实,对应到我们产业界,对应着不同的企业群体,跟大家现在所看到的,这个数据分析的基础是Go

7、ogle04年通过几篇论文提出来的。实际上,Google在2000年之前已经拥有这些技术,三四年之后他通过学术论文的方式把这种技术和思想公开出来,当然由这个技术公开之后形成开源社区的版本,可能又过了3-4年的时间。所以说,从原创到最后的开源,中间会有5-6年的时间差。目前大多数的企业,是沿着开源的方向走,在开源里汲取营养。但还有其它一些公司,他希望把开源社区的版本变成商品,变成一种可以实现企业级应用的产品,这在开源领域又之后3-4年。其实,也就是从互联网领先的企业到互联网的领域,到社会的其它领域,其实呈现出了这三个不同的发展阶段。刚才一直提

8、到互联网,实际上互联网行业确实是目前大数据应用的领跑者,因为从最初互联网应对自身的数据分析处理的需要,到现在互联网已经基于大数据的分析衍生出很多能够产生商业价值的商业模式,包括基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。