欢迎来到天天文库
浏览记录
ID:33341279
大小:1.64 MB
页数:4页
时间:2019-02-24
《数据科学的基本内容》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第 13 卷第8 期2017 年 8 月数据科学的基本内容鄂维南关键词:数据科学数据分析算法北京大学什么是数据科学?它和已有的信息科学、统计学、从这组数据可以看出,行星绕太阳运行的周期的平机器学习等学科有什么不同?作为一门新兴的学科,方和行星离太阳的平均距离的立方成正比,这就是数据科学依赖两个因素:一是数据的广泛性和多样性;开普勒第三定律。二是数据研究的共性。现代社会的各行各业都充满了表1太阳系八大行星绕太阳运动的数据数据,这些数据的类型多种多样,不仅包括传统的结23行星周期(年)平均距离周期/距离构化数据,也包括网页、文本、图像、视
2、频、语音等水星0.2410.390.98非结构化数据。数据分析本质上都是在解反问题,而且通常是随机模型的反问题,因此对它们的研究有很金星0.6150.721.01多共性。例如,自然语言处理和生物大分子模型都用地球1.001.001.00到隐马尔科夫过程和动态规划方法,其最根本的原因火星1.881.521.01是它们处理的都是一维随机信号;再如,图像处理和木星11.85.200.99统计学习中都用到的正则化方法,也是处理反问题的土星29.59.541.00数学模型中最常用的一种。天王星84.019.181.00数据科学主要包括两个方面:
3、用数据的方法研海王星16530.061.00究科学和用科学的方法研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统开普勒虽然总结出他的三大定律,但他并不理计学、机器学习、数据挖掘、数据库等领域。这些解其内涵。牛顿则不然,他用牛顿第二定律和万有学科都是数据科学的重要组成部分,只有把它们有引力定律把行星运动归结成一个纯粹的数学问题,机地整合在一起,才能形成整个数据科学的全貌。即一个常微分方程组。如果忽略行星之间的相互作用,那么各行星和太阳之间就构成了一个两体问题,如何用数据的方法研究科学我们很容易求出相应的解,并由此推导
4、出开普勒的三大定律。用数据的方法研究科学,最典型的例子是开普牛顿运用的是寻求基本原理的方法,它远比开勒关于行星运动的三大定律。开普勒的三大定律是普勒的方法深刻。牛顿不仅知其然,而且知其所以根据他的前任,一位叫第谷的天文学家留给他的观然。所以牛顿开创的寻求基本原理的方法成为科学察数据总结出来的。表1列出的观测数据是行星绕研究的首选模式,这种方法的发展在20世纪初期达太阳一周所需要的时间(以年为单位)和行星离太到了顶峰,在它的指导下,物理学家们提出了量子阳的平均距离(以地球与太阳的平均距离为单位)。力学。原则上讲,我们在日常生活中看到的自
5、然现45专栏第 13 卷第8 期2017 年 8 月象都可以从量子力学出发得到解释。量子力学提供和纵轴分别代表第一和第二奇异值所对应的特征向了研究化学、材料科学、工程科学、生命科学等几量,这些向量一共有1064个分量,对应1064个志乎所有自然和工程学科的基本原理,这应该说是很愿者。值得注意的是,这组点的颜色所代表的意义。成功的,但事情远非这么简单。狄拉克指出,如果由此可见,通过最常见的统计分析方法——主成分以量子力学的基本原理为出发点去解决这些问题,分析,可以从这组数据中展示出人类进化的过程。那么其中的数学问题就太困难了。因此必须妥
6、协,如果采用从基本原理出发的牛顿模式,上述问对基本原理作近似。题基本是无法解决的,而基于数据的开普勒模式则行之有效。开普勒模式最成功的例子是生物信息学表2SNP数据的示意和人类基因组工程,正因为它们的成功,材料基因SNP1SNP2⋯SNPm组工程等类似的项目也被提上了议程。同样,天体志愿者101⋯0信息学、计算社会学等也成为热门学科,这些都是志愿者202⋯1用数据的方法研究科学问题的例子。而图像处理是志愿者3另一个典型的例子。图像处理是否成功是由人的视⋯⋯⋯⋯⋯觉系统决定的,要从根本上解决图像处理的问题,志愿者n19⋯1就需要从理解人
7、的视觉系统着手,理解不同质量的图像对人的视觉系统会产生什么样的影响。当然,尽管牛顿模式很深刻,但对复杂的问题,开普这样的理解很深刻,而且也许是我们最终需要的,勒模式往往更有效。例如,表2中形象地描述了一但目前看来,它过于困难也过于复杂,解决很多实组人类基因组的单核苷酸多态性(SingleNucleotide际问题时并不会真正使用它,而是使用一些更为简Polymorphism,SNP)数据。研究人员在全世界挑选单的数学模型。出1064个志愿者,并把他们的SNP数据数字化,用数据的方法研究科学问题,并不意味着就不即把每个位置上可能出现的1
8、0种碱基对用数字表需要模型,只是模型的出发点不一样,不是从基本示,对这组数据做主成分分析(PCA)——一种简单原理的角度去寻找模型。以图像处理为例,基于基的数据分析方法,其原理是对数据的协方差矩阵做本原理的模型需要描述人
此文档下载收益归作者所有