欢迎来到天天文库
浏览记录
ID:33718695
大小:473.86 KB
页数:11页
时间:2019-02-28
《数据科学的研究范式探讨王志伟》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、“数据科学”的兴起---基于大数据的时空研究范式探讨王志伟当今科学世界已进入复杂性科学研究时期,其中,自然科学、社会科学、认知科学、系统科学和科学技术等不同学科、不同领域相互交叉、结合与综合是新时期的特点。科学研究的融合范式得以更接近的揭示出客观世界形态的多元性、可变性以及形态转化的规律性。这也就要求科学界研究创新的认识论和方法论,建立科学的时空系统观。数据科学就是在这样的一个复杂生态环境中萌芽初发。从数据科学之说诞生之初,它就已超脱出学术界长久以来存在的“实验科学”与“理论科学”之分以及“描述科学”与“精确科学”之争。它的学科基因里与生俱来的就包含了定性
2、与定量的结合子以及融合集成的方法论。按照库恩的范式理论,一个新学科的范式形成,大致有内外两个方面的标志:内在方面在科学共同体内形成共同的“学科基质”(范式),即通用的语言(理论方法),共同信念、共同价值和范例;外在方面是主流科学界(研究院、权威期刊等)对新学科的明确关注和认可。以此来审视数据科学,其目前仅仅还是处于前科学时期。本文试图就数据科学的萌芽构成做一个抛砖引玉的探讨。一大数据的涌现前不久,中国计算机学会(CCF)大数据专家委员会发布了《中国大数据技术与产业发展白皮书2013》。其中,明确指出:世界已进入网络化的大数据(BigData)时代。另据咨询
3、公司IDC的统计,2011年全球被创建和复制的数据总量为1.8ZB(10的21次方),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB),且增长趋势遵循新摩尔定律(全球数据量大约每两年翻一番),预计2020年将达到35ZB。Google公司通过大规模集群和MapReduce软件,每月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据;淘宝网会员超过4亿,在线商品超过9亿,1每天交易数千万笔,产生约2
4、0TB数据。传感网和物联网的蓬勃发展是大数据的又一推动力。大数据的特点可以总结为4个V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低)。其次,大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例将达到整个数据量的75%以上。同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。近几年,Nature和Science等国际顶级学术刊物相继出版专刊来专门探讨对大数据的研究。一个横跨信息
5、科学、自然科学、系统科学、人文科学、网络心理学、网络经济学、产业生态学和决策学等诸多领域的新兴交叉学科---数据科学,正在逐步形成。若是单从信息科学的角度看大数据:它是利用信息技术对数量巨大的(网络)数据做统计性与结构性的搜索、比较、聚类、分类等分析归纳。大数据直接反映的是海量孤立的数据和分散的链接,这些反映相互关系的链接整合起来是一个复杂网络,进而形成为多层次嵌套的复杂系统。由此而论,数据科学就是从整体上研究复杂系统的一门科学,其中,复杂网络分析是数据科学的基元;TB级数据挖掘是数据科学的基石。二数据科学的范式数据科学的研究对象不言而喻就是海量数据。就大
6、数据来说,它包括物理世界的源信息以及人类社会的相关活动信息。数据科学的研究目的:一是认识目的,即认识对象的性质、结构与运动规律;二是利用目的,即把已被认识的事物的性质与规律转化为方法与手段,用来解决实践问题。一般来讲,科学范式的基本原则是通过本体论、认识论和方法论三个层面表现,分别解答事物存在的本质性问题、真实性关系以及相应关联的理论体系。就数据科学而言,它的DNA的核心特征是体现于信息科学之中的。换句话讲,它的本体性是体现在海量数据的元结构层面,也就是业界所提出的“元数据集”2(MDS)概念。在认识论层面,数据科学的内涵是时空交互性。因为大数据的本体就是
7、超时空存在且动态互动的“时空网络”。在本文中,我暂且称之为:时空变换律。可归纳为以下三类特征:空间层面---事物的物理空间状态(虚拟网络结构)、社会层次维度(动态平衡过程)和个体内部空间(活动位置形态);时间层面---事物的平行处理、集成处理和分布处理;交互层面---事物的空间离合、时间离合、时空离合、跨界离合、整体与局部离合和依条件离合。我认为,数据科学领域的“数据界”(DataUniverse)元概念包括有四个维度---现实世界、意识世界、思维世界和信息世界,如下图所示:(图示1)四个维度的整体运作是依据时空变换律交互进行的,同时,每个维度内又都包含有
8、多元的四象限---扩散、收缩、跳跃和或然;动态均衡的六要素禀赋:对
此文档下载收益归作者所有