用于电力大数据快速组合查询的动态索引技术.pdf

用于电力大数据快速组合查询的动态索引技术.pdf

ID:52492347

大小:378.76 KB

页数:5页

时间:2020-03-28

用于电力大数据快速组合查询的动态索引技术.pdf_第1页
用于电力大数据快速组合查询的动态索引技术.pdf_第2页
用于电力大数据快速组合查询的动态索引技术.pdf_第3页
用于电力大数据快速组合查询的动态索引技术.pdf_第4页
用于电力大数据快速组合查询的动态索引技术.pdf_第5页
资源描述:

《用于电力大数据快速组合查询的动态索引技术.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、产品与解决方案用于电力大数据快速组合查询的动态索引技术栾开宁郑海雁2丁陈。李昆明2(1.江苏省电力公司,南京210024;2.江苏方天电力技术有限公司,南京211102;3.上海晟淘大数据科技有限公司,上海200433)摘要随着采集系统的建成与完善,电力系统积累了大量的电力数据,电力大数据时代也随之到来。虽然Hadoop可以通过普通计算机的横向扩展把处理压力分摊给每台计算机从而获得高效的处理性能,但是当每台计算机存储的数据量都非常大时,简单的逐行扫描已经无法满足性能需求,建立高效的索弓f机制和快速的组合查询功能就变得非常重要。因此本文结合Jimo大数据的动态可删节索引技

2、术,提出一种适用于电力大数据的索弓I机制与查询方法,并构建了电力大数据高效索引与快速组合查询的一体化解决方案。实际的计算分析表明,本文算法极大地提升了电力大数据的组合查询效率,很好地满足了系统的性能需求。关键词:电力大数据;高效索引;快速组合查询;动态可删节索引随着电力系统数字化进程的推进,电力系统积和速度快(Velocity),3“E”代表数据即能量(Energy)、累了大量的发、输、用电数据。目前仅江苏省用电数据即交互(Exchange)、数据即共情(Empathy)。信息系统历年保存下来的全省用电信息数据已达到在用电大数据中,这样的概括同样适用。几十TB,如何利用

3、现有的大数据分析技术,挖掘电体量大。目前为止江苏省用电采集系统投入运力大数据的潜在价值,使电力企业为客户提供更好行140余万台采集终端,120余万集抄终端,覆盖的服务,是一个值得研究的课题。而2013年《中国3400余万用户。仅上采集一项日产生数据量达30电力大数据发展白皮书》⋯的发布,将中国的电力多GB,白2006年以来,积累下来的数据已达40TB大数据研究推向了一个新的起点,对中国电力大数之多。在构建基于气象因素的用电影响因素模型时,据的研究与应用有着划时代的意义。经多轮次数据验证、调整、重算,生成江苏省13个目前比较常见的大数据解决方案为Hadoop+地市8000

4、多类,300多万条模型数据,预计未来各HBase[,该解决方案通过搭建分布式处理软件框架模型反映的总电量影响关系将超过2亿条。和分布式存储系统【,实现大数据的分布式存储和类型多。从数据本身结构来看,用电数据类型包查询。HBase是按Rowkey进行排序和存储的,在括结构化数据、半结构化数据和非结构化数据。从业进行数据查询时需要对数据块按行检索,查询速度务角度来看,用电数据涉及不同用户群体、不同行业远无法满足实时的需求。领域、不同电气指标等。未来,当所有的大中型家用本文提出采用动态索引图(DnamicIndexGraph,电器都装有电量传感器之后,用电数据类型将得到极DI

5、G)技术建立电力大数据的索引,实现多条件列大地扩展,也更加便于电力企业分析和研究用户的用索引的建立和快速组合查询,它通过建立索引图为电结构,为用户提出更加合理的用电建议。每个查询专门创建复合索引,避免了全表逐行扫描,速度快。在采集端,目前3400余万居民用户每大大提升了查询的速度。日取一次电量数据、20余万企业用户每15min取一次电量数据,在未来将要求所有用户15min、1min,1用电大数据的特征甚至ls取一次电量数据,这无疑对现有的通信系统文献【l】指出电力大数据其特征可概括为3“V”传输速度、采集终端处理能力发起了极大地挑战。3“E”,3“V”代表体量大(Vol

6、ume),类型多(Variety)在客户端,电力公司要求实时处理大量产生的用电2015年第1期嘲I—I纛承l113产品与解决方案数据,实时优化控制用电设备的启停;居民用户要(续)求实时查询用电量情况和家用电器用电比例,企业产品类型供应商用户要求实时查询用电量情况和生产设备的运行情Aster简单匹配Teradata况。Hive简单匹配Facebook2大数据创建索引和快速查询面临的挑战Presto简单匹配FacebookCassandra简单匹配Facebook2.1大数据快速查询存在的问题HBase唯一主键Apache一直以来,快速查询是数据库最核心的技术之一HBase

7、。数据库一般存放的数据比较复杂,一个查询往=级索引华为往需要将多个数据表相关联,甚至需要跨库数据的二级索引关联,导致查询性能急剧下降,即使在一个不是非不难看出,绝大部分大数据快速查询产品都放常大的数据库(千万级)执行一次查询可能需要几弃使用索引,HBase也仅仅是一张表支持一个索引。个小时,乃至几天。华为在HBTC2012上公布了其二级索引方案,在业大数据带来了诸多数据库核心技术的突破。大界引起了强烈的反响,它通过二级索引采用B树和数据的核心理念是“分布处理”,通过普通计算机横R树互相补充的方式,可以通过维度信息范围快速向扩展,多台设备协

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。