欢迎来到天天文库
浏览记录
ID:57924235
大小:1.73 MB
页数:11页
时间:2020-04-14
《基于Hadoop的OSS域数据建模与采集方法研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、运营技术广角基于Hadoop的OSS域数据建模与采集方法研究雷蕾’,李景文’,宫大鹏’,王睿’,苏雷,陈宁江。(1.中国移动通信集团广西有限公司南宁530022;2.亿阳信通股份有限公司南宁530022;3.广西大学计算机与电子信息学院南宁530004)摘要:针对电信运营商在构建大数据中心中所面临的数据采集、建模问题,分析了OSS域的数据现状和特点,给出了一种基于层次分类梳理的建模方法论和数据模型管理思路,可实现对OSS域数据的统一采集、集中建模和数据共享,通过移动互联网端到端分析专题的应用案例进行验证,可对电信行业建设大数据中心提供借鉴。关键词:企业数据中心;ETL
2、;运营支撑系统;数据采集;Hadoopdoi:10.11959/j.issn.1000—0801.2015021StudyonDataModelingandCollectioninOSSBasedonHadoopLeiLei,LiJingwen,GongDapeng,WangRui,SuLei,ChenNingjiang(1.ChinaMobileGroupGuangxiCo.,Ltd.,Nanning530022,China;2.BOCOInter-TelecomInC.,Nanning530022,China;3.CoHegeofComputerandElectr
3、onicInformation,GuangxiUniversity,Nanning530004,China)Abstract:AccordingtothedataacquisitionandthemodelingproblemoftelecomoperatorsfacingintheconstructionofEDC,thedatastatusanddatacharacteristicsintheOSSwasanalyzed,amodelingmethodofhierarchicalclassificationofcombingtheoryanddatamodelma
4、nagementideawereproposed,theunificationofOSSdatacollection,sharingthemodelinganddataconcentrationwererealized.Throughtheapplicationofendtoendanalysisonmobileinternetterminalascasesubject,itprovidesreferencefortheconstructionontelecomindustryEDC.Keywords:EDC,ETL,OSS,dataacquisition,Hadoo
5、p合工作中,主要采用Hadoop架构搭建大数据中心,数据来1引言源主要包括电信行业通常所划分的0SS(operationsuppo~随着“大数据时代”的来临,电信运营商已意识到自system,运营支撑系统)、BSS(businesssuppoasystem,业务己手中“数据金库”的价值,正在积极推动传统的分析支支撑系统)、MSS(managementsuppo~system.管理支撑系撑体系向分布式大数据架构进行演进,以构建集中化的统)3个领域的数据,3个域数据的采集处理复杂度不同.企业级大数据中心.实现整个企业的数据融合.提供开服务于不同的场景。其中,0SS域数据种
6、类繁多,数据量放的数据能力,逐步满足全网、全渠道、全业务一体化营大,采集过程复杂,同时包含结构化及非结构化数据,是三销服务的要求。域数据中最复杂的一类,也是建设大数据中心的重点及关在广西移动的企业级大数据中心建设及企业数据融键工作之一。本文结合业务实际需求,介绍基于Hadoop平收稿日期:2014—10—23:修回日期:2014—12—132o’5o201i遮赣捷零广溺⋯‘。一一卜’‘:。:。:‘:‘:‘:‘=一=一=一=一=’:’:’:。=。=。=‘=‘=‘=一=一=一=’=一:’=。=。=‘‘。‘一一。=。=。=‘=‘=一=一=一=一=一=。:。:。:。:‘:‘:
7、一:一:一:’:’:。:。:。:‘:‘:一:一:一。。。—‘耐=’。—‘。。‘一一一i卜DW&~M:j——实时数据查询(Impala)查询优化器:ODs::⋯询):~~TEID,数据提取-亿级数据,支持秒级查询(HBase(Hive)·支持SQL方式提取数据并行查询高度使~CoprocessorMR程序-支持数据汇总,数据提取·支持SQL方式提取·满足临时性分析的快速开发数据·支持关联性查询列式存储·通过MR开发,满足绝大部分数据处理需求·对内存有效利用运算与处理·支持十亿级,百亿级的数据分析与开发·对网络带宽有依赖HRegion—(MapReduc
此文档下载收益归作者所有