基于云计算技术的电力大数据属性离散化方法-论文.pdf

基于云计算技术的电力大数据属性离散化方法-论文.pdf

ID:57924596

大小:269.17 KB

页数:3页

时间:2020-04-14

基于云计算技术的电力大数据属性离散化方法-论文.pdf_第1页
基于云计算技术的电力大数据属性离散化方法-论文.pdf_第2页
基于云计算技术的电力大数据属性离散化方法-论文.pdf_第3页
资源描述:

《基于云计算技术的电力大数据属性离散化方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用研究__十Ir数日啦面术基于云计算技术的电力大数据属性离散化方法王璐鑫(东北电力大学信息工程学院吉林吉林132012)4摘要:由于电力大数据背景下电网设备监测数据具有体量大、种类多、产生速度快、精度高等特点,传统的连续属性离散化方法已经无法满足高效处理的要求。为了对电网设备监测大数据进行有效的数据预处理,本研究利用MapReduce框架对基于似然比假设检验的连续属性离散化方法进行l图了并行化改进。最后’在Hado0p平台上对变电设备监测数据进行属性离散化,实验结果证明改进后的离散化方法可靠有效,适合当前电力大数据背景下的数据预处理。关键词:电力大数据MapP,.educe似然比假设检验

2、属性离散化中图分类号:TP18;TM769文献标识码:A文章编号:1007—9416(2o15)0l一0056—03随着智能电网建设和电力物联网的发展,海量连续型电网设备间粒的概念,结合熵理论定义区间粒的粒度,从而完成离散化。文献监测数据给传统属性离散化方法带来了很大的挑战。而电力大数据【7]~f智能优化理论中的粒子群算法和粗糙集理论,从初始断点中实时处理的特征使其对数据处理、分析的速度要求更高【11。因此,如寻找最优断点来划分离散区间。上述方法在处理电力大数据时存在何提高海量连续型电网设备监测数据的离散化效率成为电网公司计算资源严重不足的情况,因此出现了处理效率低下的问题。亟待解决的问题

3、。目前,Hadoop为研究者们提供了开发并行化算法和改进传统作为数据预处理的关键步骤连续属性离散化早已受到研究者算法的有效途径。如文献[9—1哳提出的基于Hadoop的广域测量系们的关注,例如文献[2]中的多属性全局聚类离散化方法,根据统数据处理方法和基于云计算技术的属性约简方法,这些并行处理Ameva统计量来判断全局属性中最佳断点的位置并以此来划分离方法都有效提高了数据处理效率。散区间。文献【3】以属性重要度为聚类判断依据,将数据值域划分为本文通过MapReduce并行计算框架改进了一种基于似然比假多个离散区间,然后根据信息熵优化合并相邻区间以保证离散化结设检验的属性离散化方法,并利用搭

4、建的Hadoop云平台验证了该果的精度。文献[4】中结合粗糙集和信息熵理论来离散化连续型数方法。实验结果表明,该改进方法在保证离散效果的同时,有效提高据,取得了比较好的离散化效果。文献[5-61基于粒计算理论提出区6OOO崞日时oo迥誊Oo00\4oo0毫逮2∞o0毽:~2000looOOOo,I一⋯一⋯8l64嚣l6节点敲节点数可扩展性实验图2加速比实验表1初始区间列联表dtTotall1n12nil1I2n21n22n2l2.Imnm1n,2nm,Totaln1nN..2.收稿日期:2015—01—20作者简介:王璐鑫(1987一),男,福建宁德人,硕士研究生,学生,现就读于东北电力大

5、学,研究电力大数据处理。l【孛技术__十f丽应用研究了处理大数据的效率。2基于MapReduce改进的连续属性离散化方法1基于似然比假设检验的属性离散化方法分析MapReduce并行计算框架作为Hadoop云计算平台的两大核心内容之一,其核心思想是利用集群的优势,由集群节点上运行的文献【8]圭黾出的基于似然比假设检验的屙眭离散化方法,它吸取若干map和reduce任务来同时并行访问和处理各数据分片,因此可ChiMerge~法的优点同时克服其独立性假设检验条件不可靠的问以高效地完成任务。基于MapReduce的并行化思路是通过增加并行题。算法基本思想是将待合并的相邻离散区间和区间内的类别属性

6、的map和reduce~务而不是通过增~Imap和reduce函数的复杂性来统计值看作两个离散型随机变量,求这两个随机变量的互信息,若解决问题[91。本研究设计了5个map函数、6+reduce函数和一个主函互信息满足阈值条件则说明这两个随机变量独立,合并这两个相邻数,并对各个函数进行了编号。下面描述并行化改进算法:区间不会影响区间内目标类的概率分布,也即不会影响原决策表的Step1:构建初始列联表。分类效果。(1)集群中各节点从HDFS(Hadoop云平台的分布式文件系统)算法具体步骤分析:上读取数据集的一个数据分片,节点上mapl函数按行读取记录,提Step1:构造初始列联表。设数据集

7、共有N条记录,类别属性取及其对应的dl,d,⋯,,分别作为key和value,映射得到=<,dl,d.d>,再经EhMapReduce的shufle机制对映射录按值从小到大排序,合并值相同的记录并对各类别属性值分结果按值从小到大排序得到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。