第二讲 数据采集与操作

第二讲 数据采集与操作

ID:32290384

大小:1.59 MB

页数:63页

时间:2019-02-02

第二讲 数据采集与操作_第1页
第二讲 数据采集与操作_第2页
第二讲 数据采集与操作_第3页
第二讲 数据采集与操作_第4页
第二讲 数据采集与操作_第5页
资源描述:

《第二讲 数据采集与操作》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、法律声明本课件包括:演示文稿,示例,代码,题库,视频和声音等,小象学院拥有完全知识产权的权利;只限于善意学习者在本课程使用,不得在课程范围外向任何第三方散播。任何其他人或机构不得盗版、复制、仿造其中的创意,我们将保留一切通过法律手段追究违反者的权利。课程详情请咨询微信公众号:大数据分析挖掘新浪微博:ChinaHadoop互联网新技术在线教育领航者第二讲LOGO数据采集与操作--梁斌互联网新技术在线教育领航者目录•常用格式的本地数据读写•Python的数据库基本操作•数据库多表连接•爬虫简介•

2、BeautifulSoup解析网页•爬虫框架Scrapy基础•Logistic回归•实战案例:获取国内城市空气质量指数数据互联网新技术在线教育领航者目录•常用格式的本地数据读写•Python的数据库基本操作•数据库多表连接•爬虫简介•BeautifulSoup解析网页•爬虫框架Scrapy基础•Logistic回归•实战案例:获取国内城市空气质量指数数据互联网新技术在线教育领航者常用格式的本地数据读写常用的数据分析文件格式•txt•csv•json•xml•xls,xlsx•HDF•其他可以转换成以

3、上格式的数据文件•如GIS中的.dbf可以导出成.csv文件互联网新技术在线教育领航者常用格式的本地数据读写txt示例代码:01_txt_file_process.ipynb•由字符串行组成,每行由EOL(EndOfLine)字符隔开,‘’•打开文件注意编码•file_obj=open(filename,access_mode)•access_mode:‘r’,‘w’•读操作•file_obj.read()读取整个文件内容•file_obj.readline()逐行读取•file_obj.rea

4、dlines()返回列表,列表中的每个元素是行内容•写操作•file_obj.write()将内容写入文件•file_obj.writelines()将字符串列表内容逐行写入文件互联网新技术在线教育领航者常用格式的本地数据读写txt(续)示例代码:01_txt_file_process.ipynb•关闭文件•file_obj.close()with语句•包括了异常处理,自动调用文件关闭操作,推荐使用•适用于对资源进行访问的场合,确保无论适用过程中是否发生异常都会执行“清理”操作,如文件关闭、线程的自

5、动获取与释放等•withopen(filename)asf_obj:#执行相关操作互联网新技术在线教育领航者常用格式的本地数据读写CSV(Comma-SeparatedValues)•以纯文本形式存储的表格数据(以逗号作为分隔符),通常第一行为列名•文件操作•numpy的np.loadtxt(),较复杂•利用pandas处理,快捷方便•读操作•df_obj=pd.read_csv(),返回DataFrame类型的数据•写操作•df_obj.to_csv()示例代码:02_csv_file_proce

6、ss.ipynb互联网新技术在线教育领航者常用格式的本地数据读写Pandas•基于NumPy构建•索引在左,数值在右。索引是pandas自动创建的。•数据结构•Series,类似于一维数组的对象。•DataFrame,表格型数据结构,每列可以是不同的数据类型,可表示二维或更高维的数据示例代码:02_csv_file_process.ipynb互联网新技术在线教育领航者常用格式的本地数据读写JSON(JavaScriptObjectNotation)•轻量级的数据交换格式•语法规则•数据是键值对•由逗

7、号分隔•{}保存对象,如{key1:val1,key2,:val2}•[]保存数组,如[val1,val2,…,valn]示例代码:03_json_file_process.ipynb互联网新技术在线教育领航者常用格式的本地数据读写JSON(JavaScriptObjectNotation)(续)•读操作•json.load(file_obj)•返回值是dict类型•类型转换json->csv•编码操作•json.dumps()•编码注意•ensure_ascii=False示例代码:03_json

8、_file_process.ipynb互联网新技术在线教育领航者常用格式的本地数据读写XLS/XLSX(Excel文件)•常用的电子表格数据•文件操作•利用pandas处理,快捷方便•读操作•df_obj=pd.read_excel(),返回DataFrame类型的数据•写操作•df_obj.to_excel()•具体操作参考pandas如何处理CSV文件互联网新技术在线教育领航者目录•常用格式的本地数据读写•Python的数据库基本操作•数据库多表连接•爬虫简介•B

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。