8.Python科学计算与数据处理

8.Python科学计算与数据处理

ID:43446999

大小:487.00 KB

页数:115页

时间:2019-10-08

8.Python科学计算与数据处理_第1页
8.Python科学计算与数据处理_第2页
8.Python科学计算与数据处理_第3页
8.Python科学计算与数据处理_第4页
8.Python科学计算与数据处理_第5页
资源描述:

《8.Python科学计算与数据处理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1pandas—入门目录pandas的数据结构介绍SeriesDataFrame索引对象基本功能重新索引丢弃指定轴上的项索引、选取和过滤算术运算和数据对齐函数应用和映射排序和排名带有重复值的轴索引2目录汇总和计算描述统计相关系数与协方差唯一值、值计数以及成员资格处理缺失数据滤除缺失数据填充缺失数据层次化索引重排分级顺序根据级别汇总统计使用DataFrame的列其他有关pandas的话题34pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具。它是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。因为Series和Da

2、taFrame用的次数非常多,所以将其引入本地命名空间中会更方便。>>>frompandasimportSeries,DataFrame>>>importpandasaspdpandas的数据结构介绍SeriesSeries是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series:5>>>obj=Series([4,7,-5,3])>>>obj04172-533dtype:int64pandas的数据结构介绍Series的字符串表现形式为:索引在左边,值

3、在右边。由于没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引。可以通过Series的values和index属性获取其数组表示形式和索引对象:6>>>obj.valuesarray([4,7,-5,3],dtype=int64)>>>obj.indexInt64Index([0,1,2,3],dtype='int64')pandas的数据结构介绍通常希望所创建的Series带有一个可以对各个数据点进行标记的索引:7>>>obj2=Series([4,7,-5,3],index=['d','b','a','c'])>

4、>>obj2d4b7a-5c3dtype:int64>>>obj2.indexIndex([u'd',u'b',u'a',u'c'],dtype='object')pandas的数据结构介绍与普通NumPy数组相比,可以通过索引的方式选取Series中的单个或一组值:8>>>obj2['a']-5>>>obj2['d']=6>>>obj2[['c','a','d']]c3a-5d6dtype:int64pandas的数据结构介绍NumPy数组运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引和值之间的链接:9>>>obj2>

5、>>obj2[obj2>0]>>>obj2*2>>>np.exp(obj2)d403.428793b1096.633158a0.006738c20.085537dtype:float64pandas的数据结构介绍还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中:10>>>'b'inobj2True>>>'e'inobj2Falsepandas的数据结构介绍11如果数据被存放在一个Python字典中,也可以直接通过这个字典来创建Series:>>>sdata={'Ohio':3

6、5000,'Texas':71000,'Oregon':16000,'Utah':5000}>>>obj3=Series(sdata)>>>obj3Ohio35000Oregon16000Texas71000Utah5000dtype:int64pandas的数据结构介绍如果只传入一个字典,则结果Series中的索引就是原字典的键(有序排列)。在例子中,sdata跟states索引相匹配的那3个值会被找出来并放到相应的位置上,但由于“California”所对应的sdata值找不到,所以其结果就为NaN(即“非数字”(notanumber)).

7、12>>>states=['California','Ohio','Oregon','Texas']>>>obj4=Series(sdata,index=states)>>>obj4CaliforniaNaNOhio35000Oregon16000Texas71000dtype:float64pandas的数据结构介绍在pandas中使用NaN表示缺失(missing)或NA值。pandas的isnull和notnull函数可用于检测缺失数据:13>>>pd.isnull(obj4)#Series也有类似的实例方法:CaliforniaTrue

8、#obj4.isnull()OhioFalseOregonFalseTexasFalsedtype:bool>>>pd.notnull(obj4)Ca

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。