一篇文章带你查看并处理Pandas数据.docx

一篇文章带你查看并处理Pandas数据.docx

ID:57662580

大小:1.43 MB

页数:26页

时间:2020-08-31

一篇文章带你查看并处理Pandas数据.docx_第1页
一篇文章带你查看并处理Pandas数据.docx_第2页
一篇文章带你查看并处理Pandas数据.docx_第3页
一篇文章带你查看并处理Pandas数据.docx_第4页
一篇文章带你查看并处理Pandas数据.docx_第5页
资源描述:

《一篇文章带你查看并处理Pandas数据.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、今天我们将一下如何查看Pandas中的各类数据以及对Pandas进行处理的一些方法通过这些方法我们可以更快的掌握Pandas对数据进行处理:·描述与统计·函数应用·修改列/行索引名称·类型的操作·表合并的方式一、描述与统计有时会我们在获取到数据之后想要查看一下数据的简单统计指标(比如最大值最小值平均值中位数等等)如想要查看年龄的最大值就可以直接对年龄这一列调用max方法就可以了。1、查看最大值·查看众英雄中年龄最大的是多少岁三种方式都可以查看第一种是使用np.max()对info表中的年龄列进行操作第二种是使用

2、np.max()对info表下的年龄进行操作第三种是info表下的年龄进行max()查找2、查看均值·查看众英雄年龄的均值类似的可以通过调用min、mean、quantile、sum方法可以实现最小值、平均值、中位数以及求和。可以看到对一个Series调用这几个方法之后,返回的都只是一个聚合结果。3、按轴求和下面给大家介绍一个有意思的方法:cumsum()看这个方法的名字就能看出来它跟sum方法有点关系应该是用来求和之类的事实上的确如此cumsum也是用来求和的不过他是用来累加求和的也就是通过它得到的结果与原始

3、的Series或Datafrxxxxame的大小相同。通过结果可以看到cumsum最后的结果就是将上一次求和的结果与原始当前值求和作为当前值。当然如果只是这种功能的话也就没有那么有意思了这个方法有意思的是可以对字符串类型的对象进行操作。4、查看表格信息虽然说常见的各种统计值都有对应的方法,如果我想要得到多个指标的话,就需要调用多次方法,是不是显得有点麻烦呢?Pandas设计者自然也考虑到了这个问题,想要一次性获取多个统计指标,只需调用describe方法即可。可以看到直接调用describe方法后会显示出数字类

4、型的一些统计指标比如:总数平均数标准差最小值最大值四分位数等如果想要查看非数字类型的列的统计指标的话可以设置include=[obxxxxject]来获得数据。6、统计某个值出现的次数:value_counts·查看英雄们的城市和性别出现的次数·查看英雄的年龄分布7、查看最小值或最大值对应的索引如果想要查看某列最大值或最小值对应的的索引可以使用idxmax或idxmin方法来完成。如果索引不是数据的话将会返回该行的行数。·查看哪位英雄的年龄最小·查看哪位英雄的年龄最大8、离散化有时候我们在处理数据的时候会碰到一

5、些需求比如想要将年龄进行离散化也就是将年龄分成几个区间这里我们想要将年龄分成三个区间段就可以使用pandas的cut方法来完成。通过这个结果可以看到cut自动生成了等距的离散区间如果自己想定义也是没有问题的。这里我们将区间定义为3个区间1-30之间属于青少年英雄30-60之间的属于中年英雄60-5000就属于不正常的的地球英雄了。有时候离散化之后想要给每个区间起一个名字那么我们可以指定labels参数·给英雄们添加一列中青年属性使用loc[]给表添加列除了可以使用cut进行离散化之外qcut也可以实现离散化。C

6、ut是根据每个值的大小来进行离散化qcut是根据每个值出现的次数进行离散化的。9、排序功能在进行数据分析时少不了的就是进行数据排序。Pandas支持两种排序方式:按轴(索引或列)排序和按实际值排序。9.1、按索引排序·Sort_index()方法默认是按照索引进行正序排列下面这个是英文索引下的排序·还可以通过sort_values(by=’’)进行排序by的意思是通过什么区排序直接填写也可以。按性别排序:按年龄排序:如果想要进行倒序排列可以设置参数axis=1或则ascending=False9.2、按值排序如

7、果想要实现按照实际值来排序例如想要按照年龄排序。使用sort_values方法参数设置by=age即可有时候我们可能需要按照多个值来排序,例如:按照年龄和城市来一起排序,可以设置参数by为一个list即可需要注意的是:list中每个元素的顺序会影响排序优先级的先分组在排序最后一个为排序标准。有时候数据量太大的时候我们可能只需要看前几行或者后几行的数据那么这个时候我们就可以用head()和tail()方法查看head()方法默认只打印前5行内容括号内可以填写想要的行数tail()方法同理只不过tail()方法是查

8、看后五行的数据。一般在排序后,我们可能需要获取最大的n个值或最小值的n个值,我们可以使用nlargest和nsmallest方法来完成,这比先进行排序,再使用head(n)方法快得多。二、函数应用1.根据现有列生成新的列·生成一列元素为英雄年龄对数的·生成一列身高列·生成一列年龄加一的列·经过了复联4后英雄们通过各种战斗现在都统一长高了10厘米现在再表格中添加一列英雄们的新身高·现在给

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。