欢迎来到天天文库
浏览记录
ID:32389216
大小:4.76 MB
页数:25页
时间:2019-02-04
《数据科学导论-error》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第1章新手上路无论你是热切的数据科学学习者,还是基础扎实的数据科学从业者,都能从本书关于Python数据科学精要的介绍中受益。如果你已经具备一些前期经验,如基础编程、用Python语言编写通用的计算机程序、熟悉MATLAB或R等数据分析语言,阅读本书收获会更大。本书直接探究Python数据科学,使用Python语言及其强大的数据分析和机器学习软件包,为你提供解决各种数据科学问题的快捷途径。本书提供的示例代码不要求你精通Python语言。不过,我们假定你至少应该了解一点基础的Python脚本、数据结构(比如列表和字典)和类对象的工作原理。如果你对该主题不够自信,或者掌握的Python语言知识极其
2、有限,建议阅读本书之前先学习一下在线教程,如趣味编程网站CodeAcademy上的课程http://www.codecademy.com/en/tracks/python/,或者Google上的Python课程https://developers.google.com/edu/python/。这两个课程都是免费的,只需几个小时的学习就能获得阅读本书的全部基础知识。在任何情况下都不要被本书开头提到的要求所吓倒;掌握Python数据科学应用不像你想象的那样困难。这只是我们假设读者应该具备的一些基础知识,因为我们的目的是直接进入数据科学应用的重点,而无需对所使用语言的概况解释太多。那么,准备好了吗?
3、让我们开始吧!本章只是一个简短的介绍,我们将从一些基础知识开始,逐步展开并介绍以下主题:T如何创建Python数据科学工具箱TIPython的用法T本书要使用的数据集的概述1.1 数据科学与Python简介数据科学是相对较新的知识领域,尽管它的核心内容已经被计算机科学界研究了很多2◆ 数据科学导论:Python语言实现年。它的研究内容包括线性代数、统计建模、可视化、计算语言学、图形分析、机器学习、商务智能、数据存储与检索。作为一个新的领域,读者必须考虑到目前数据科学的界定还不是很清晰,并且在不断地变化。由于该领域由多种学科构成,数据科学家各自的专业领域和能力不同,因此对这一领域的描述也不尽相同
4、。在这种情况下,作为职业数据科学家,什么才会是你高效地学习和使用的行业工具呢?我们相信Python会是最好的工具,本书将向你提供快速使用Python的所有重要信息。另外,其他的工具如R和MATLAB是数据科学家解决统计分析和矩阵操作等具体问题的专用工具。然而,只有Python完整包含了数据科学家所需要的技能集合。这种多功能语言适合开发与演示,不管你是什么背景和专业,都很容易学习和掌握。Python于1991年创建,是一种通用的、解释性和面向对象的语言,已经逐渐征服了科学界,成长为一个成熟的数据处理和分析的专业软件。它能够使你进行无数次的快速体验,轻松地进行理论扩展,并促进多种形式的科学应用。目
5、前,Python已成为数据科学不可或缺的工具,它的主要特性如下:TPython可方便地集成不同的工具,为多种语言(Java、C、Fortran甚至原语)、数据策略和学习算法提供真正的统一平台。这些学习算法结合在一起,能帮助数据科学家制订新的、功能强大的解决方案。TPython为数据分析和机器学习提供了一个大型、成熟的软件系统。确保提供数据分析课程需要的一切工具,甚至会更多。TPython是通用的。不管你是什么编程背景和风格(面向对象或者过程式的),都会喜欢使用Python编程。TPython是跨平台的。Python解决方案完美兼容Windows、Linux和MacOS操作系统,不用担心它的可移
6、植性。T虽然Python是解释性语言,但与其他主流数据分析语言如R和MATLAB相比具有毋庸置疑的速度优势(尽管还不能与C、Java和新出现的Julia语言的速度相媲美)。得益于本书将要介绍的一些简单技巧,它还能变得更快。T由于Python具有极小的内存占用和优秀的内存管理能力,它可以处理内存中的大数据。当进行数据加载、转换、切块、切片、保存或丢弃时,它会使用循环或再循环垃圾回收器自动清理内存中的数据。TPython非常简单,易学易用。掌握了基础知识之后就可以立即开始编程,没有比这更好的学习方式了。1.2Python的安装首先,我们继续介绍Python所需要的环境设置,以便创建一个完整的数据科
7、学工作环第1章 新手上路 ◆3境,确保能对本书后面提供的示例代码和实验进行测试。Python是一种开源的、面向对象的、跨平台的编程语言,与其直接竞争对手(比如C++和Java)相比非常简明,能在非常短的时间内创建工作软件原型。它仅仅是因为这个特点就成为数据科学家工具箱中最常用语言的吗?当然不是。它还是一种通用语言,能为一系列问题和需求提供各种各样的软件包,的确非常灵活。1.2.1Python2还是
此文档下载收益归作者所有