环境科学数据管理

环境科学数据管理

ID:27828873

大小:58.00 KB

页数:6页

时间:2018-12-06

环境科学数据管理_第1页
环境科学数据管理_第2页
环境科学数据管理_第3页
环境科学数据管理_第4页
环境科学数据管理_第5页
资源描述:

《环境科学数据管理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网络数据实习报告姓名:马存学号:201528013329020单位:沈阳计算所目录网络数据实习报告11.数据产生的背景32.数据的生命周期33.质量控制61.数据产生的背景在互联网日益发达的环境下,人们上网的成本越来越低,从以前的奢侈品到现在的大众化,只用了短短几年的时间。为了更好地研究人们上网的行为,比如人们在哪个时间段上网更频繁,哪个时间段喜欢发言等等,我将从互联网上某个网站上监测用户的发言信息。由于只是示范性数据,所以数据采集可能不会太多,研究目标也很单一,只是单纯的衡量用户在每个时间段的发言量,并做出图表,也就是数据可视化。总结一下就是:

2、a)数据采集的目标是衡量一个网站的用户的每个时间段的发言数Hob)数据采集的对象是网站帖子或者新闻的评论信息,方式是通过编程,由程序下载信息保存到本地或者本地的数据库文件,采集设备只是一台能够上网的计算机,最后下载下来的数据类型是文本数据,其中包括用户名,评论时间,评论内容。2.数据的生命周期数据的牛•命周期包括六个阶段:数据创建阶段、数据保护阶段、数据访问阶段、数据迁移阶段、数据归档和数据销毁阶段。由于本项目是一个小项目,其中的数据迁移,归档阶段不是很重要,且项目数据主要从互联网获得,对全部人开放,所以数据销毁阶段也不重要。由于本项目主要是对数

3、据进行分析,所以需要一个数据分析阶段。总结来说,具体如下:数据的采集〉数据的保护数据的访问…->数据的分析…->结论。概念图模型:▼数据米集•通过加密▼数据保护・数据库保护(分布式存储)丿•数据检索A▼•数据抽取数据访问•数据复制和共享丿•统计、▼数据分析•规整丿•总结▼得出结论•验证丿▼工作流图示:收集数据验证准备数据得出结论分析数据1.质量控制木项目数据最不安全的节点应当是收集数据阶段,因为网页内容繁杂,编写的程序不可能适应每一个网页,使得都能正确返回信息,因此,在第一步获得的数据之后,我们应对数据进行有效的筛选,比如去除异常值,去除空值等等

4、。由于采集的数据庞大,最小的数据规模也应该是几万条数据,大的十万,甚至百万千万,否则较小的数据规模难以对用户的上网习惯分析出正确的结论,因此不可能用手工去检索异常的数据,我们可以借助工具或者编写程序对本地数据进行扫描,剔除异常值和空值。但是,用工具或者程序再次扫描数据会加大项目开发的周期和成本。我认为最好的做法是在采集数据阶段就进行质量控制,也就是在下载数据时实时对数据检测,如果本次数据不合规定则不予下载,直接进行下一次检测,检测通过后下载到本地并保存到数据库中。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。