海量数据的时代,互联网,计算技术.doc

海量数据的时代,互联网,计算技术.doc

ID:51780746

大小:38.52 KB

页数:4页

时间:2020-03-15

海量数据的时代,互联网,计算技术.doc_第1页
海量数据的时代,互联网,计算技术.doc_第2页
海量数据的时代,互联网,计算技术.doc_第3页
海量数据的时代,互联网,计算技术.doc_第4页
资源描述:

《海量数据的时代,互联网,计算技术.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据科学与信息服务产业:海量信息和海量数据的时代,互联网,计算技术【大中小】【打印】【关闭】  2012-8-27

2、来源科学网作者鄂维南 我们生活在一个信息时代,一个海量信息和海量数据的时代:互联网,计算技术,电子商务和各种其它的新兴技术使我们获取数据、分析数据和利用数据的能力有了一个本质的变化。这个变化正在不断深入地、全面地影响着我们的日常生活。由此也影响着社会、文化、国防和国民经济的发展。信息服务产业已成为发达国家经济转型的主要支柱。以谷歌和脸书为代表的信息服务企业,在短短几年的时间里就进入了全世界最大、最受瞩目的企业的行列。它们的发展速度

3、是在传统的工业模式下难以想象的。它们的成功也展示了信息服务产业巨大的发展空间。另外,数据和信息资源已成为继人力资源和物质资源以外的第三大资源。数据资源的开发和利用将是未来社会和经济发展的主要手段之一,也应该成为制定国家长远发展计划需要考虑的主要因素之一。我们自然要问,信息时代对社会,对政府,特别是对我们的教育和科学研究体制提出了什么样的新的要求;信息服务产业的科学基础是什么?传统工业,尤其是制造业的科学基础是自然科学。物理学提供了自然科学最基本的原理。在此之上、化学、生命科学、地球物理、天文学以及各种各样的工程科学为传统工业提供了科学指导。从大学、

4、科研机构,到企业、政府部门,我们都已经建立起了一整套教学、科研、开发、生产到市场的机制。信息服务产业的科学基础是数据科学。简单说来,它由两个部分组成:即用数据的方法来研究科学和用科学的方法来研究数据。先谈第一点。科学研究有两个最基本的模式,姑且叫做开普勒模式和牛顿模式。开普勒关于行星运动的三大定律完全是从前人所观察到的数据中所总结出来的。而牛顿则更进了一步,他寻求的是基本原理。他对行星运动规律的认识是建立在基本原理的基础之上的。牛顿不仅知其然,而且知其所以然。牛顿的认识无疑比开普勒要深刻得多。所以牛顿模式成了科学研究的首选模式。几百年来的科学研究都

5、是沿着一条以寻求基本原理为目标,而从根本上认识世界,认识自然这样一条道路走过来的。时至今日,科学家们在对基本原理的寻求方面取得了长足的进步。随着量子力学的建立,人们已经基本了解了在生命科学、化学、能源、环境等与日常生活息息相关的领域所需要的基本原理。现实的困难在于这些系统的复杂性——从基本原理出发去理解这些系统在目前和不太遥远的未来基本上都是一件不可能的事情。牛顿模式因此而面临着难以逾越的困难。而另一方面,由于人们获取数据和分析数据能力的提高,从数据中直接总结出客观规律的开普勒模式的优势就体现了出来。生物信息学的成功就是一个很好的例子。再谈第二点。

6、从传统的角度来看,分析数据属于统计学的范畴。但近年来,随着机器学习、数据挖掘、生物信息、图像处理、信号处理等方面的发展,数据分析已经深入到了计算机科学、社会学、电子工程、生命科学、天文、地理、气象等各个领域。而且,从数据分析的角度来看,这些不同学科中的不同问题有着相当程度的统一性。正是这种统一性,使得数据科学有存在和发展的必要。这里特别值得一提的是数学的作用。从根本上来讲,自然科学的基本原理来自于物理;而数据科学的基本原理则来自于数学。数据分析的主要手段就是给数据建立起数学结构。这种数学结构可以是多方面的:拓扑的、几何的、或代数的。最简单的结构是图

7、的结构。这也可以看作是一种拓扑结构。传统的统计学中最最常用的是分析方面的结构,如参数化模型。所以数据科学给数学也带来了许多根本性的问题:例如怎样把数据集(如网页)坐标化?怎样给数据集定义拓扑结构或曲率?怎样利用数据集中可能隐含的对称性?怎样设计高效的算法?怎样处理噪声,等等?数据和数,方程以及图形一样,也将成为数学研究的基本元素之一。这不仅能给数学的各个领域提供了新的问题,同时也会加深我们对数学中一些最基本的概念的认识。数据科学中最受瞩目的成就之一是小波理论。系统的小波理论出现之前,人们对在信号处理中引进局部基函数和对信号按尺度作分解都有过很多的尝

8、试。但这些工作都是经验性的,缺乏系统性。小波理论从根本上解决了这一问题。它使这些尝试性的工作由经验变成了科学。这样的转变是本质性的。它所带来的变化也是有目共睹的。压缩感知理论也经历了一个类似的过程。它所产生的影响也将是巨大的另外需要强调的一点是,由自然科学的成就转换成工业产品往往要经过一个漫长的过程。而数据科学则不同,数据科学与应用,与产业有着更为密切的联系。从小波理论的出现到它在图像处理方面的应用仅仅经过了几年的时间。正因为如此,对数据科学的研究更应该努力地走在最前沿:因为落后一步就意味着彻底失去机会。目前数据科学的发展存在着如下几个问题:一是缺

9、乏一个统一的平台。数据科学被瓜分到计算机科学、统计、数学、生物等等学科。他们之间还缺乏应有的联系。这使数据科学的发展受到了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。