利用python进行数据分析笔记

利用python进行数据分析笔记

ID:39855679

大小:469.18 KB

页数:20页

时间:2019-07-13

利用python进行数据分析笔记_第1页
利用python进行数据分析笔记_第2页
利用python进行数据分析笔记_第3页
利用python进行数据分析笔记_第4页
利用python进行数据分析笔记_第5页
资源描述:

《利用python进行数据分析笔记》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Pythonහഝړຉimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportstatsmodels.apiassmfrompandasimportDataFrame,SeriesCH02ڹ᥺̓JSON̈́records=[json.loads(line)forlineinopen(path)]time_zone=[rec['tz']forrecinrecordsif'tz'inrec]̓ܔ᦯ᦇහᓌ၄ᇇ̈́ಅํ؀࣐ᤩڡত۸ԅ0fromcollectionsimportdefaultdictcounts=def

2、aultdict(int)̓ڊሿེහtop10̈́fromcollectionsimportCountertoptz=Counter(time_zone)toptz.most_common(10)̓አpandasᦇහ̈́frompandasimportDataFrame,Seriesframe=DataFrame(records)tz_counts=frame['tz'].value_counts()//ᦇහѺtz_counts[:10]//top10#####fillnaڍහ๊ഘᗌ०؀NAclean_tz=frame['tz'].fillna('Missing')clean_tz

3、[clean_tz=='']=‘Unknown’//ဳ఺ᬯ᯾உᇙڦclean_tz==''#####Seriesጱplotڍහtz_counts[:10].plot(kind='barh',rot=0)//࿜ଘ๵୵ࢶtype(tz_counts)//pandas.core.series.Series#####DataFrame݄ധnullnaframe.a.notnull()//TrueFalseclean_frame=frame[frame.a.notnull()]Өframe.a.dropna()පຎፘ̓MovieLensහഝ̈́users=pd.read_table('x

4、x/movielens/users.dat',sep='::',header=None,names=['userid','gender','age','occupation','zip’])//හഝฎአ::ړۆጱratings=pd.read_table('./Downloads/pythonහഝړຉਫդᎱ/pydata-book-master/ch02/movielens/ratings.dat',sep='::',header=None,names=['userid','movieid','rating','timestamp'])movies=pd.read_table

5、('./Downloads/pythonහഝړຉਫդᎱ/pydata-book-master/ch02/movielens/movies.dat',sep='::',header=None,names=['movieid','title','genres'])#####pandasጱmergeڍහଚusersӨratingsdata=pd.merge(pd.merge(ratings,users),movies)//cool!data.ix[0]//ᒫӞᤈ#####pandasጱpivot_tableڍහᘸ඙Ѻmean_ratings=data.pivot_table('ra

6、ting',index='title',columns='gender',aggfunc='mean’)//؀࣐ଘጱړ಑୽ኪ᮱ྯ੒ڦ௔#####ᬦᄁᦧړහഝӧ᪃250๵ጱኪ୽rating_by_title=data.groupby('title').size()//ೲኪ୽ጱᦧړහፓړᕟtitle$1,000,000Duck(1971)37'NightMother(1986)70'TilThereWasYou(1997)52active_titles=rating_by_title.index[rating_by_title>=250]//ᬦᄁmean_ratings=mean

7、_ratings.ix[active_titles]//ဳ఺ixӨindexጱ܄ڦ#####ঀ௔ᥡռ๋ࡅཻጱኪ୽top_female_ratings=mean_ratings.sort_index(by='F',ascending=False)#####ካ௔޾ঀ௔ᦧړړྏ๋य़ጱኪ୽mean_ratings['diff']=mean_ratings['M']-mean_ratings['F']sorted_by_diff=mean_ratings.sort_index(by='diff’)//ঀ௔ๅࡅཻጱ

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。