我的报告 Python大数据处理模块Pandas.doc

我的报告 Python大数据处理模块Pandas.doc

ID:59280541

大小:78.00 KB

页数:9页

时间:2020-09-07

我的报告 Python大数据处理模块Pandas.doc_第1页
我的报告 Python大数据处理模块Pandas.doc_第2页
我的报告 Python大数据处理模块Pandas.doc_第3页
我的报告 Python大数据处理模块Pandas.doc_第4页
我的报告 Python大数据处理模块Pandas.doc_第5页
资源描述:

《我的报告 Python大数据处理模块Pandas.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、《Python科学计算与数据处理》结课报告Python大数据处理模块Pandas姓名:周冲浩学号:2018E8015361002研究所:成都计算机应用研究所2019-05-04一、Pandas介绍Pandas是Python的一个大数据处理模块。Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas可以存储混合的数据结构,同时使用NaN来表示缺失的数据,而不用像Numpy一样要手工处理缺失的数据,并且Pandas使用轴标签来表示行和列。Pandas 最初由AQRCap

2、italManagement于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(paneldata)和python数据分析(dataanalysis)。paneldata是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。二、Pandas数据结构介绍在p

3、andas中有两类非常重要的数据结构,即序列Series和数据框DataFrame。Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能;DataFrame类似于numpy中的二维数组,同样可以通用numpy数组的函数和方法,而且还具有其他灵活应用。1、Series的创建Series的创建主要有三种方式:1)通过一维数组创建序列importnumpyasnpimportpandasaspdarr1=np.arange(5)print

4、(arr1)print(type(arr1))s1=pd.Series(arr1)print(s1)print(type(s1))2)通过字典的方式创建序列importpandasaspdarr1={'a':10,'b':20,'c':30,'d':40,'e':50}print(arr1)print(type(arr1))s1=pd.Series(arr1)print(s1)print(type(s1))3)通过DataFrame中的某一行或某一列创建序列。方法下节介绍。2、DataFrame的创建数据框的创建主

5、要有三种方式:1)通过二维数组创建数据框importnumpyasnpimportpandasaspdarr1=np.array(np.arange(12)).reshape(4,3)print(arr1)print(type(arr1))df1=pd.DataFrame(arr1)print(df1)print(type(df1))2)通过字典的方式创建数据框 以下以两种字典来创建数据框,一个是字典列表,一个是嵌套字典。importpandasaspddic1={'a':[1,2,3,4],'b':[5,6,7,

6、8],'c':[9,10,11,12],'d':[13,14,15,16]}print(dic1)print(type(dic1))df1=pd.DataFrame(dic1)print(df1)print(type(df1)dic2={'one':{'a':1,'b':2,'c':3,'d':4},'two':{'a':5,'b':6,'c':7,'d':8},'three':{'a':9,'b':10,'c':11,'d':12}}print(dic2)print(type(dic2))df2=pd.DataF

7、rame(dic2)print(df2)print(type(df2))3)通过数据框的方式创建数据框df3=df2[['one','three']]print(df3)print(type(df3))s3=df3['one']print(s3)print(type(s3))三、数据索引index在pandas使用过程中,不论是序列也好,还是数据框也好,对象的最左边总有一个非原始数据对象,这个就是接下来要介绍的索引。在我看来,序列或数据框的索引有两大用处,一个是通过索引值或索引标签获取目标数据,另一个是通过索引,可

8、以使序列或数据框的计算、操作实现自动化对齐,下面就介绍一下这两个功能的应用。1、通过索引值或索引标签获取数据如果不给序列一个指定的索引值,则序列自动生成一个从0开始的自增索引。可以通过index查看序列的索引:s4.index现在我们为序列设定一个自定义的索引值:s4=pd.Series(np.array([1,1,2,3,5,8]))print(s4)#输

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。