通信网管数据分析与应用.doc

通信网管数据分析与应用.doc

ID:55697378

大小:53.00 KB

页数:8页

时间:2020-05-25

通信网管数据分析与应用.doc_第1页
通信网管数据分析与应用.doc_第2页
通信网管数据分析与应用.doc_第3页
通信网管数据分析与应用.doc_第4页
通信网管数据分析与应用.doc_第5页
资源描述:

《通信网管数据分析与应用.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、通信网管数据分析与应用摘要:随着我国移动通信的迅猛发展,设备品种逐步增多,容量迅速增大,网管信息化的应用,积累了海量数据,本文结合自己在实际网管数据分析与应用中的经验,针对数据采集与整理、数据存储与查询、数据挖据三个过程积累的经验与大家分享。关键词:网管数据;数据挖掘;物化视图1引言随着我国移动通信的迅猛发展,设备品种逐步增多,容量迅速增大,网管信息化的应用,移动通信行业信息化进程得到巨大发展和广泛应用,运营网络系统、综合业务系统大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者的。因此如何应用这量信息,给

2、信息化工作者提出了挑战,我作为一名移动行业信息化工作者,结合自己在实际网管数据分析与应用中的经验,主要在数据采集与整理、数据存储与查询、数据挖掘三方面与大家探讨一下。2数据采集与整理2.1文本格式FTP传输网管系统在每天定时将前一天的数据文件上传到指定的FTP服务器。数据文件为后缀TXT的文本文件,指标之间的间隔符为“

3、”,指标按照第三节模板中定义的顺序排列,一条记录为一行。因为网管数据往往较大,为了提高传输速率及节省空间,建议将数据进行压缩处理。2.2数据按接口规范导入数据库应用程序定时将网管数据解压缩,通过XML配置文件制定数据导入的规范,如下:配置文件中规定了读取字段位置

4、及存入数据库的字段名称,同时check中制定了数据的验证规则。如rangmin="0”max二“22”表示取值范围为0—22,如果超出该范

5、韦I的数据则直接丢弃。2.3数据处理采用存储过程存储过程(StoredProcedure)是在大型数据库系统中,一组为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户通过指定存储过程的名字并给出参数来执行它。他有如下优点:⑴提高数据库执行效率。使用SQL接曰更新数据库,如果更新复杂而频繁,则需要频繁得连接数据库。⑵提高安全性。存储过程作为对象存储在数据库中,可以对其分配权限。(3)可复用性。3数据存储与查询网管数据往往是海量的,每

6、一统计数据的一天数据都能轻易达到千万级,因此在存储过程中要重复利用数据的技术性能。在我们的实践过程中主要应用了oracle数据库。下面简单介绍我们主要采用的技术手段。区致力于解决支持极大表和索引的关键问题。它采用他们分解成较小和易于管理的称为分区的片(piece)的方法。一旦分区被定义,SQL语句就可以访问的操作某一个分区而不是整个表,因而提高管理的效率。分区对于数据仓库应用程序非常有效,因为他们常常存储和分析巨量的历史数据。⑴增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用;⑵维护方便:如果表的某个分区出现故障,需要修复数据,只修复该分区即可;⑶均衡I/O:可

7、以把不同的分区映射到磁盘以平衡I/O,改善整个系统性能;⑷改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度。如我们可以按时间字段对导入数据进行分区,网管数据较大,一般一个月就需要一个分区。3.2索引技术在关系数据库中,索引是一种与表有关的数据库结构,它可以使对应于表的SQL语句执行得更快。但对于现在的各种大型数据库来说,索引可以大大提高数据库的性能。有两种类型的分区索引,全局索引和本地索引,使用本地索引,不需要指定分区范围因为索引对于表而言是本地的,当本地索引创建时,Oracle会自动为表中的每个分区创建独立的索引分区。物化视图是包括一个查询结果的数据库对像

8、,它是远程数据的的本地副本,或者用来生成基于数据表求和的汇总表。物化视图存储基于远程表的数据,也可以称为快照。使用物化视图可以实现视图的所有功能,而物化视图确不是在使用时才读取,大大提高了读取速度,特别适用抽取大数据量表某些信息以及数据链连接表使用。4数据挖掘4.1利用最小二乘法实现数据的一元线性回归最小二乘法可以用来处理一组数据,可以从一组测定的数据中寻求变量之间的依赖关系,这种函数关系称为经验公式。能够寻求x与y之间近似成线性关系时的经验公式。假定实验测得变量之间的n个数据(xl,yl),(x2,y2),・・・,(xn,yn),则在xOy平面上,可以得到n个点Pi(xi,y

9、i)(i二1,2,・・・n),考虑函数y二ax+b,其中a和b是待定常数。如果Pi(i=l,2,-n)在一直线上,可以认为变量之间的关系为y二ax+b。但一般说来,这些点不可能在同一直线上。记Ei=yi-(axi+b),它反映了用直线y二ax+b来描述x二xi,y二yi时,计算值y与实际值yi产生的偏差。当然要求偏差越小越好,但由于Ei可正可负,因此不能认为总偏差时,函数就很好地反映了变量之间的关系,因为此时每个偏差的绝对值可能很大。为了改进这一缺陷,就考虑用来代替。但是由于绝对值不易作解析

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。