欢迎来到天天文库
浏览记录
ID:36793708
大小:305.02 KB
页数:4页
时间:2019-05-15
《电力调度数据中心数据质量问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第37卷第3期要菜雹力Vo1.37No.32009年3月EastChinaElectricPowerMar.2009电力调度数据中心数据质量问题研究张亮(华东电网有限公司调度中心,上海200002)摘要:结合调度中心数据特点和业务特点提出构建数据中心提高数据质量的一些控制方法,这些方法分别从电网数据的统计特性和业务特性(数据关联性特性)上对异常数据进行识别,并且基于这些方法给出了数据校验的模块设计,最后应用该数据校验模块到数据中心的系统架构中,提高了华东电力调度数据中心的数据质量。关键词:数据中心;数据质量,数据清洗作者简介:张亮(1974-),男,博士,主要研究方向为
2、电力信息整合、数据仓库和数据挖掘。中图分类号:TM732文献标志码:A文章编号:1001—9529(2009)03-0403-04ResearchondataqualityforelectricpowerdispatchdatacentersZHANGLiang(DispatchCenter,EastChinaGridCompanyLimited,Shanghai200002,China)Abstract:Basedonthedataandbusinessfeaturesofthepowerdispatchcenter,methodsforimprovingthedat
3、a’qualitywereproposed,whichcanbeusedtoidentifyabnormaldata.Basedonthat,themodulefordatacheckingwasdesignedandthenappliedtosystemarchitectureforthedatacenter.Keywords:datacenter;dataquality;dataclean目前电力调度中心已经积累了许多有关电网多或少地提供了一些数据清洗功能,但其通用性运行、生产管理、市场运营等方面的数据,这些数并不好,因为这些工具的设计并没有考虑特定领据的分散性、异
4、构性和不统一性使人很难直接发域的知识。数据清洗过程只有结合特定应用领域现隐藏在数据背后的信息或知识。为了发现这种的知识,才能取得更好的效果。信息,建立部门级的数据中心势在必行。在构建1数据质量的内涵电力调度数据中心过程中,如何确保数据中心人口数据的数据质量,对于电力调度数据中心构建1.1数据质量的评价指标项目的成败和数据能否有效应用将起到至关重要数据质量包含数据本身、数据存储、数据使用和的作用。数据传输等质量,就本文来说,仅考虑数据本身的数数据质量主要是指数据载人数据中心前异常据质量。数据本身的数据质量可以从正确性、完备数据的识别和错误数据的剔除。至于原始数据的性、一致
5、性、实效性、自治『生5个方面来描述¨卫。抽取、转换、装载过程(ETL)产生的数据质量问数据的正确性数据的正确性是指数据必须题,如:多数据源的异构问题、数据缺失、不完整或真实准确地反映实际业务。重复记录等问题,不在本文讨论范围之内。因为数据的完备性数据的完备性是指数据是充在数据抽取、模式转化和集成、数据装载方面,人分的,所需要的数据都存在,即任何有关操作的数们已经做了很多的研究工作,并且有了一些与业据都没有被遗漏。具体地说,指的是业务数据记务领域无关的通用的抽取、转化和装载(ETL)工录无重复或缺失,且数据中的关键属性值能够完具,这些工具基本可以适用于电力系统数据中心整的
6、描述所记录的业务。的建设。但对于提高电力调度数据中心的数据质数据的一致性数据的一致性是指相互关联量采用的数据清洗方面工作,还没有充分考虑电的各个数据在逻辑上是一致的。网运行数据的特点。虽然市场上的ETL工具或数据的时效性数据在需要的时间是否有效。姜繁电力数据的自洽性数据并不是孤立存在的,数2数据质量的控制方法据之间往往存在着各种各样的约束,这种约束描。述了数据的关联关系。数据必须能够满足这种数在电力调度数据中心中,控制载人数据质量的据之间的关联关系,而不能够相互矛盾。方法有3种:(1)基于统计的校验方法,将数据点1.2电力调度数据中心数据特点是否异常的判定依据是其是否符
7、合以前的统计规电力调度数据中心所存储的数据主要包含电律;(2)多个数据来源的数据校验;(3)基于数据网运行类、生产管理类和市场运营类数据。从数间关联关系的数据校验,即根据电网拓扑和业务逻据量上来看,电网运行类数据量非常大,约占这个辑来判断多个数据间是否满足相关约束。。数据的90%甚至95%以上。正是基于这个特点,2.1基于统计的校验本文讨论的电力调度数据中心的数据质量主要是基于统计的校验方法是指对给定的数据集合针对电网运行类数据的数据质量而言的。其他如(如电网某个运行属性值的时间序列)假定了一生产管理类和市场运营类数据的数据质量的提高个分
此文档下载收益归作者所有