数据清洗需求设计V1.1.doc

数据清洗需求设计V1.1.doc

ID:56759449

大小:38.50 KB

页数:6页

时间:2020-07-07

数据清洗需求设计V1.1.doc_第1页
数据清洗需求设计V1.1.doc_第2页
数据清洗需求设计V1.1.doc_第3页
数据清洗需求设计V1.1.doc_第4页
数据清洗需求设计V1.1.doc_第5页
资源描述:

《数据清洗需求设计V1.1.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据清洗(时间序列数据TSD(timeseriesData)需求设计DataCleaningModuleDCM应该属于DAX的一个模块。1、数据清洗的目的原始采集的数据会受到传感器、变送器、信号传输、环境干扰(电磁、潮湿、高热)、人为造假等各种因素的影响,数据中会包含一些受到“污染”的数据。如果直接利用这些数据进行控制、绘图、制表、数据分析、数据挖掘,则不可避免的会影响分析过程和结果,总的来说:低质量的数据无法获得高质量的分析结果。任何规模的数据在分析以前,有必要对原始数据进行预处理,以使其达到必要的质量,这个过程我们称之为数据清洗。数据清洗后,一般有两类

2、用途,一是直接用于在线过程控制,二是用于事后分析。那些数据需要清洗任何直接采集的数据都需要进行清洗,利用清洗程序对数据处理后,会对数据的各种缺陷进行标记,对发现的有缺陷的数据进行抛弃、估计、修改。很多工厂由于缺乏数据清洗这个环节,会大大影响过程控制的可靠性。低质量的数据,在事后分析时会带来很大的困难。不少环境监测类的投资,由于缺乏数据质量控制和数据清洗技术,会使投资回报大大降低。2、通用性设计常见的原始数据问题1)数据缺失2)跳点3)干扰(白噪声或其它)4)漂移(线性与非线性)5)超限6)滞后造成的时间不同步7)逻辑缺失(因果关系、相关关系)8)数据检验的

3、方法1)上下限制检验法2)斜率检验法3)差值检验法4)频率检验法5)时间区间检验法6)人工数据修正1)关系检验(因果、相关性)2)数据处理的方法1)删除法2)补差法a)取前点b)均值插补c)回归插补d)极大似然估计3)回归法4)均值平滑法5)离群点分析6)小波去噪7)人工修改8)对时间序列数据的定义1)源数据序列(OriginTSD):一般保存人工采集导入和自动测报采集的原始数据,为确保该类型数据安全,数据设置只读。2)生产时序数据(ProductionTSD):拷贝自源数据,加以校核和清洗。对数据的常规维护通常在这类序列上进行。3)衍生时序数据(Deri

4、vedTSD):一般是通过一些标准方法计算的统计序列,例如日月年特征值等。1、数据处理数据处理的过程是通过数据计算任务来执行,数据清洗属于计算任务的一部分。1)用于在线过程控制的计算任务,此类计算任务的执行实时性高,例如AVS,少人无人值守控制平台,计算任务在常规自控的轮询周期中。一般的刷新率是秒级或毫秒级。此类计算任务最好在PLC中处理,如无法再PLC中处理,就在上位机进行计算。进行数据清洗的计算任务,一般属于此类,计算是实时进行。2)用于事后分析的计算任务,此类计算任务的实时性不高,用途主要是数据分析,例如各类KPI、周期性的数据整理、各类自定义的计算

5、等等,大数据分析通常也是利用这些数据。此类数据的计算任务实时性不高,可以在事后按照固定的周期或者条件进行。2、数据质量(DQ)的定义:1)完整性Completeness完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为基础的一项评估标准。1)一致性Consistency一致性是指数据是否遵循了统一的规范(这些规范可以是格式,数位,或者是数据的统计性特征),研判数据集合是否保持了统一的规范。数据质量的一致性主要体现在数据记录的规范和数据是

6、否符合逻辑。规范可以特指:一项数据存在它特定的格式,例如手机号码一定是13位的数字,IP地址一定是由4个0到255间的数字加上”.”组成的。规范也可以特指,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在0到1之间的,还有数据统计性特征,比如仪表测量的数据和人为伪造的数据的统计特征是显著不同的。2)准确性Accuracy准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。一般而言,仅仅靠一些简单

7、规则无法判断数据的准确性,通常会借助人工或自动系统的检验,或者在检测过程中增加一些标准样的测量。比较特定样品的检测值就可以判断该批次检测的数据质量。数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用多种方法去审核。一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。3)及时性Timeliness不同的应用场景对数据的及时性要求不同,在线控制条件下,假如某个关键性的输入数据无法及时获得,会影响后后续的过程控制。在事后分析中,对及时性的要求就大大降低。4)合

8、理性Validation5)关联性Integration6)绝对质

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。