数据挖掘技术在移动通信网络告警管理中的研究与应用

数据挖掘技术在移动通信网络告警管理中的研究与应用

ID:12804416

大小:11.47 MB

页数:54页

时间:2018-07-19

上传者:xinshengwencai
数据挖掘技术在移动通信网络告警管理中的研究与应用_第1页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第2页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第3页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第4页
数据挖掘技术在移动通信网络告警管理中的研究与应用_第5页
资源描述:

《数据挖掘技术在移动通信网络告警管理中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

湖南大学硕士学位论文数据挖掘技术在移动通信网络告警管理中的研究与应用姓名:马东洋申请学位级别:硕士专业:软件工程指导教师:林亚平;袁志刚20111118 数据挖掘技术在移动通信网络告警管理中的研究与应用挖掘的告警事务。第二,分析了告警信息各个属性对挖掘效率的影响,分析了常息进行加权工作,形成带权值的告警事务数据库。第三,在带权值告警事务数据���算法。论文最后对全文做出了总结,并对未来研究方向进行了展望。关键词:告警信息;相关性分析:加权关联规则:数据挖掘 �������������������������.�����������琀���������������������瑃����琣����������������琭�������.����琭��,��猘��������琣�������,������甀�������������������������������������.���瑃�������������������—��������琄�������������������������,���������������������������������� 数据挖掘技术在移动通信网络告警管理中的研究与应用������籧���������;������� 表��数据集描述表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一�表��聚类实验结果表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯��� ��本文研究背景及意义。微的故障,也可能给用户造成巨大的经济和时间上的损失。其次,网络中各种技基于这种情况,网络管理开始向着自动化、智能化以及综合化方向靠拢。而在实际的网络运营管理和维护过程中,当网络出现故障时,通常需要在最短时间内,准确找出故障发生位置、故障类型以及可能联动造成的其他故障。由于现代网络过于复杂,拓扑结构多种多样,不同网络之间差异也非常大,故障产生后,由此产生的告警类型和数量也极为丰富。告警产生的突然性、不可预测性、联动性等特点,使得准确、及时地分离和定位产生告警的根源很重要也非常困难。为了找出这些有用信息,往往需要对大量告警数据进行相关性分析,即,通过过滤掉不必要或不相关告警,通过压缩、合并、泛化、分类以及模式匹配等方式,减少告警种类,以达到快速准确进行网络故障定位和诊断的目的。这些对数据的处理方法,往往凭借网管人员长期的经验积累和相关知识来解决。但是,网络中网元设备、网络业务、网络结构等都在不断变化,告警模式以及告警数据之间的关联性也会产生相应的变化。而这些变化,使得建立告警相关性模型非常困难。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的��国内外研究现状���输入、输出、过滤、延迟、技术、组合、更改等功能,能实现告警相关性的分析 快速、高效的挖掘算法,无疑是关联规则挖掘的核心,关联规则挖掘算法最 数据挖掘技术在移动通信网络告警管理中的研究与应用本文以移动公司中网络告警数据库为基础,运用关联规则数据挖掘技术,对告警相关性进行规则挖掘,利用聚类的方法,对告警信息的时序性进行聚类分析,然后利用加权规则,对告警信息进行相关性分析,最终达到简化告警数据、过滤告警信息及寻找告警根信息的目的。行挖掘工作,开展相关性分析,验证了本文提出的算法的合理性和有效性。��本文结构算法,实现了该算法,并用湖南移动的告警数据库进行了实验,对算法进行了评估与评价。第五章,对本文的工作进行总结,并对本研究课题未来的发展趋势和可能的发展方向做进一步展望。 通常对告警相关性分析是通过人工统计分析出相关规则,然后再将这些规则应用到相关性分析系统中。其缺陷是,当网络越来越大时,仅仅通过专家获得告信息抽取的主要对象有结构化文本、半结构化文本、自由文本三类。电信网络主要有两种:固定网络、移动网络。两种网络类型,均由一系列互联的交换与传输网元组成。实际上,日常生活中的网络,主要由无线接入网和骨干网组成,无线接入网通过基站与骨干网相连。故障检测的主要内容包括维护和监测差错日志,检测该事件是偶然还是必然�⑸�食��欢ǖ你兄担�钩晒收�以及接收故障报告。查找故障原因,根据告警信息以及知识库进行故障的分析与诊断则属于故障诊断的范畴。故障恢复则主要是根据相关规则,恢复到故障前的状态,保持网络的畅通性和可用性。在故障管理中,诸如子系统、设备或软件模块等各个网元,都有可能产生告 在实际的大型通信网络中,网络是分层的,当低层的网元产生异常发出告警信息时,这些告警信息需要经过大量的传递并最终送到网管中心。每一层的设备会根据告警信息得出部分自己的故障理解。这就导致了故障原因的多样性和复杂图��思科告警信息图��告警相关性分析关于网络告警的相关性分析,可以给出如下定义:两个定义从不同角度阐述了告警相关性,目前还没有统一的结论。�#琣:,⋯,仇�喙赜辛街智榭觥��:���莞婢�录��蟨。,�海����,可以得出 ���琣:,⋯,吼���根据告警事件集合其形式化表示为:�冢��口�鞨�菸��绻�婢疧�闹挡辉诤戏ㄖ涤騂中,则 数据挖掘技术在移动通信网络告警管理中的研究与应用解决问题的策略有很多,基于事例推理是其中之一。基于事例推理的系统与 的推理角度分别是告警信息的结构以及功能行为。在通信网络的实时故障管理中,基于模型的系统运用较为广泛,诸如网络拓扑、网元类型以及其中的关系限制等网络结构、告警的动态相关性等行为均被建模。■—.一太尚。在大型复杂通信网络中,告警事件大量产生,很可能发生部分丢失,一旦通信线路发生波动,网管中心收集到的相关性告警事件就可能不完全,也就无法建立确定性。而且,激发该组相关性告警的故障也无法确定。通过贝叶斯网络分析告警相关性,则能克服这种不确定性。 数据挖掘技术在移动通信网络告警管理中的研究与应用基于规则的相关性分析���瓸��一组规则集,与特定情况相关的知识则被封装成事实。规则的具体形式与人类思维相似:�该方法的工作原理很容易理解,利用规则分析系统,将网络实时告警信息与规则库中的规则进行匹配,匹配建立,则可以较为准确的判定故障原因。该系统将监控网络的拓扑结构以及其他实时告警信息存储在工作存储区,从而达到实时监控的目的。而已知的告警规则则存储在相关性规则区。对实时告警信息进行分析则由推理引擎完成。该方法最大的优点便是其工作过程符合人的思维方式,便于理解,但缺点也很明显,该系统需要存储大量的规则,如果规则数量达到一定规模,规则库的维护将付出巨大的代价。而且,规则的定义需要专家参与,这样就限制了知识的获取过程,很容易形成瓶颈。过去的经验也被该系统抛弃,演绎推理完全从头开始,过于浪费。现实大型网络,拓扑结构复杂,很难建立精确模型,但通过模糊逻辑������方法能用来处理一些具体问题。而且,电信领域发展速度飞快,网络设备、配置变更时间非常短,网络模型越详细,模型就越脆弱,过时的时间也就越短。故障和告警信息,通常不具备完全因果关系,通过模糊逻辑,可以描述出不精确的网络模型,对不完全的告警相关性分析是一大助力。但是,模糊逻辑分析不具备通用性,系统过于复杂,其逻辑规则可能非常复杂。 数据挖掘是近年兴起的新兴领域,一经推出,便迅速在多个领域得到应用。基于历史告警数据,总结告警相关性规则是数据挖掘在通信领域中最典型的应用之一。将发现的规则归纳成规则库,利用这些规则对网元可能出现的故障进行分析和预测,极大的减轻了网管的工作强度,大大提高其工作效率。网络故障的定位检测、严重故障的预测等都能用上这些有价值的规则。��数据挖掘概念与技术 据集进行分类产生。目前国际上最有影响力的决策树方法主流为��惴ā��,以种。该方法描述简单,构造出来的决策树具备很强的自我学习能力,对于大规模的数据处理比较适合。但是,该方法也存在一定问题,对噪声数据过于敏感、不能增量接受训练样本、不能处理连续值属性等等。�.�惴ǜ慕�薎�算法的某些缺点,如可以对连续属性进行离散化操作、可以对未知属性进行处理并由此产生规则。��亓9嬖蚬槟煞椒āT诠嬖蚩庵校琲���规则是最有价值的,而关联规则相同。��琒��惴ā��。 模糊和不精确性问题的新型数学工具【�】;重要的分类问题、属性的约简、属性的最小子集、去掉冗余对象等都是粗糙集方法能解决的问题。该方法能够合理的近似分类,得到质量在阈值范围内的分类。而且,用决策规则几何的形式,粗糙集方法还可以表示最重要属性和特定分类之间的所有重要关系。向数据挖掘的基本过程如图��所示: 数据挖掘技术在移动通信网络告警管理中的研究与应用���萃诰颍焊�菔导实耐诰蛉挝瘢�≡袷屎系耐诰蚣际�一种或多种技术在��节中,我们知道,电信告警数据结构复杂,数据间具备很强的关联性,历史数据能为现在的告警提供诸多的借鉴作用,综合几点,我们发现,数据挖掘技术非常适合告警数据。数据挖掘中的聚类分析技术、关联规则过滤技术等,能成功的消除大部分的冗余告警、挖掘出告警数据之间的相关性,提高故障分析和处理速度与效率。��本章小节本章主要从告警相关性分析的有关理论知识出发,研究了告警相关性分析的 数据挖掘技术在移动通信网络告警管理中的研究与应用��时序相关性概念介绍时序相关性之前,给出如下几个概念【�】:��婢�蛄校篠���#��,其中兀表示起始时间,�硎局罩故奔洌瑂表示告均按照≤顺序出现,这类似于现实世界中的时间轴。告警情景中包含告警事件的个数定义为情景长度,记为�。�罡婢�榫凹次3ざ任狵的告警情景。如果告�£�����,≤�时,必有��婢�钠�蚬叵担����泄叵担捍嬖卺埽�⒛耍瑊彳,,�蔆�彳,≠�,如 的窗口中出现的比率定义为口的支持度,口的支持度表示为:∞枷叫一班策器��主要聚类算法分类����。 划分方法有两个必要条件:�.分组不能空,每个分组至少包含一个元组;�.�∑∑���谎紎��.�其中�J�荻韵笫噶浚�ケ硎敬谻�闹市氖噶浚琹�忠凰���为误差矢量的模但�甅��算法缺点也较为明显:计算平方差时采用的是类中对象的均值, 定的,无法动态添加。在�甅��算法和�狹���算法之前,围绕中心点划分算法�����������������彩荎中心算法之一。��拇�砉�涛!��浚菏紫龋�婊�≡馣个中心点,然后,随机匹配对象对,以其中一个为中心点,另一个为候选点,计�狹���算法。根据随机性抽样理论,当样本抽取方式非常随机时,部分可以取代整体。���惴ǘ允�菁�槿《喔鲅�荆�缓蟮ザ赖脑擞肒.����甈� 数据挖掘技术在移动通信网络告警管理中的研究与应用针对���惴ê蚄.����惴ǖ娜钡悖珻���算法【�】提出了新的采样技术,它将之与�甅���算法结合起来,搜索过程中,每一个子过程都抽取一个随机样本,不局限于单一样本。因此,����惴ū菴��和�甅���更有效。凝聚的层次聚类算法与之正好相反,算法首先将所有对象封装成一个个单独不能合并停止。行调整和优化。���惴ㄒ�肓肆礁鲋匾8拍睿壕劾嗵卣���途劾嗵卣魇�� 两个参数决定。��算法的基本思想是:首先划分样本数据,然后分别进行局部聚类,处理孤立点,对聚类完成的簇进行二次聚类,直至达到终止条件。��算法的代价函数中,距离的计算方法舍弃了质心方式,而是采用一组点,利用多个对象取代一个对象,这样就很大程度上减少了由于质心选取不当带来的偏差问题。同样的,针对大数据集,��算法也采用随机抽样,为提升效率,加速簇的收敛速度,又对随机性进行了一定的限制,属于伪随机策略。但是,随机抽样方式对枚举型数据处理能力比较差,��算法同样如此。于是,适用于枚举型数据聚类的自底向上聚类算法��应运而生。该算法的代价函数同样计算簇间相似度,但该相似度舍弃了节点间距离计算方法,而用不同簇间共同邻居数取而代之。算法不需要用户参与提供静态模型,能动态的进行聚类。无论是���惴ā���惴ā���惴ā�����算法还是其他层次算法,都有一个共同的缺陷,在局部贪婪策略的基础上没有全局最优化目标函数,无法保证最后的聚类结果为全局最优。 ����惴╗�】。�����算法很�������������������������算法声和密度阈值设置失当,聚类质量将大为降低。基于网格的聚类算法,将整个对象空间切割为多个单元。基于网格的聚类算法比较有代表性的有:���算法、���������������������惴ā�����������例,前者超过后者,则为密集的,后者超过前者,则为稀疏的。 维度扩展性和规模伸缩性,但由于算法过于简单,聚类精确性无法得到保证。该算法利用了数据处理中常用的小波变换。对数据空间的形状没有任何要求。基于模型的聚类算法有一大前提,数据必须符合潜在的概率分布。该类算法事先建立一系列的数学模型,然后用给定数据与这些模型进行匹配,不断的优化匹配结果,最终达到拟合度超过阈值停止。神经网络算法以距离为度量,对每个聚类进行原型性描述,估算相似度后,将对象分配到与之相似度最高的聚类中,而且,由于原型带有属性,可以对新对象与原型属性进行相关性计算,提供预测依据。神经网络聚类利用了生物学特性,在生物学中,不同生物的大脑功能是有较大差距的,随着处理时间的延长、数据复杂度的增加,该聚类算法是否适合大型数据库还有待进一步的研究。��告警时序聚类算法�.����� 数据挖掘技术在移动通信网络告警管理中的研究与应用给定聚类数目��攵允�菁�韵骕做时间聚类,设计其代价函数为:,�。琙,形�∑∑∑����琙�琗�类的可能性。而且满足:公式��中,模糊指数用�代替,该值可以指定,��意味着精确聚类,与本实验中,只考虑数值属性,不考虑分类属性,所以,差异度�兀,�,�只 �‰���’于一个组,肌�具有以下性质:∑嘞�,以阈值为半径的球体包含的粒子数除以球体体积为质心球的密集度,与以该粒子为核心,以阈值为半径的球体与质心球体相交包含的粒子数除以相交部分体积为�.比较每个粒子的适应度与初始适应度的值,如果适应度更高,则更新,否�.将找到的最优解作为�.�����算法的初始输入值,再重复一次算法过程,求解全局最优解,如果得到最优解,则算法结束,否则转到步骤�。��实验结果实验以中国移动湖南分公司�龈婢��菁�描述见表��,这三个数据集位于表��数据集描述表.�. 其中,�硎敬砦缶劾嗍�浚琋表示总对象数。将�炙惴ǚ直鸬��诵��次,分别对代价函数的最大值、最小值、平均值表��聚类实验结果表��劾嘀副闑代表算法的性能,指标越小,聚类的正确性就越高,从表��我们可以看出,针对三个数据集而言,��菿�惴ǖ腅值要小,证明其在正确性方面有多提升。的数据集。��本章小节本章对聚类算法进行了理论研究,分析了影响聚类算法的质量和效率的因素, ��告警数据库预处理一般的,原始告警数据存在以下几个问题:�.噪声告警:对于加权关联规则挖掘来说,只有规则和故障诊断才是有用的信息,其他的数据全是噪声数据,其对相关性分析具有很大的干扰作用,预处理阶段应该尽量排除噪声。�.告警信息中各属性等重:站在不同的挖掘角度,关注的告警信息的属性会有很大的差异。而且,不少属性是分等级的,如告警的严重程度,普通告警,一般告警、重大告警、严重告警,本身应引起的关注就不能等同,如果一味的平均,则意味着理想化状况。我们的挖掘目的就是尽可能的排除人工思维,挖掘出真正有用的模式和相关性。本实验通过中国移动湖南分公司内部的告警预处理专家系统对告警原始数据 表��聚类后的告警信息表数据格式归一化是告警信息抽取与整理的第一步,正如秦始皇提出“书同文、根据网络故障的确立原则,我们知道,知道告警序号、告警类型、告警级别、务项。然后对该告警事务项进行噪声和孤立点处理,去掉空白事务项等操作。表 《�����.���甤�工�ぁ叮疉�蕆或��翟�閏��二�托。二皇亭�琖����/���嚎梗和醵就ね�《/��倍���二�:�誄二.壹�����/�ぐ唬痕模憾��碥训��芒��罙矗�篹���.�/����甔���宥��世督锰�海篶���叮疉王&�:..������二�:��醵緎����/������瓹王基苎�《����景����/�堋叮疍��甤���《�皇::���������蓖鮝::嚣�醵��《��濉@蟡�矗:�亭��.�/��������疉��工��《五二�夯⊿������叮疉�#和蠸��嚣�》《����杀越意����曩《/��簅鬯�鑕疍�疉££���图��告警事务图由于网络分层,故障间往往具有联动性,一个设备故障被其他故障探测到后很可能引发多个冗余故障,而且,在故障被解决之前,这些设备会在时间周期内,不间歇的向网管中心发送告警,这导致告警数据库中存在大量除告警序号有差差别,其他内容大致相同或相近的告警,对这些告警进行压缩和删减工作,无疑能提升挖掘效率。.�. 《�跷罚喝糴������疉���.�管����二.�縠�������宥�基������《/�阥置��《/��咄粒�《��二.�:孑����/��疍�二�:�蒲鞘����鮟�瓵穗曩�墨�����疍�二�五匹���《图��压缩和删减后的告警事务图如果仅凭经验和主观思想简单的为各字段赋权重影响权重的因素过多时,经验很可能出错,而且,不具备灵活性,无法自由组当钒后逐层分解,形成树的枝叶,对因素的相对重要性的考虑则采用因素间两两比较值计算的规律,这样可以最大程度的避免人的主观预测造成的偏差。.� 数据挖掘技术在移动通信网络告警管理中的研究与应用通过文献��浚�颐堑弥#珹�方法属于多准则决策方法的一种,是典型的�.我们将子树的高度定义为��ǜ婢�难现爻潭榷ㄒ逦狟,构建分析矩阵:�������.结合��,计算相对权值,然后进行归一化处理。��告警加权关联规则挖掘算法据集中的数据是经过处理后的事务项。结合网络告警的特点,我们将告警信息各务项/�����峙湟桓鋈ㄖ祄�,∈�,�歹∈�,刀�。 表��告警事务数据库表的��猚��.�≥��,�������.�瑊�,�,��腟��������.�瑊�,�,��腟������≥��,������的�����≥��,��������的�����≥��。频繁项集表如表��所示:表��频繁项集表 数据挖掘技术在移动通信网络告警管理中的研究与应用��.�酚善捣蹦J剿惴≧�第一个基于加权的关联规则算法为�����惴ā��,该算法实现了非加��畇�������;��甃�;��甪���甼�;��畐�����萜����.�����—�;��.������;��.����,�������热嘶�谄捣蹦J绞魈岢隽似捣蹦J焦亓M诰蛩惴‵�瓽����】,该算法包含两大部分,频繁模式树�.��的构造,基于该树进行频繁模式的挖 项按照�承蚺判颍��行蚱捣毕畋砑俏!緋�】,��淼谝桓鲈K兀琍代表剩余输出:频繁模式完全集算法过程:���乖臁翁跫�J交��乖臁蔚奶跫﨔�����∥;��甶���巍�由于����算法是基于频繁模式树而不是基于事务的,�.��的大小远远小于原始事务数据库,所以,�算法。但是,����算法依然需要多次扫描数据库,需要自底向上扫描频繁模式,一旦事务数据库成倍增长,这很容易成为性能瓶颈。实际上,����算法的工作过程主要是构建一个���,然后在该��上进行挖掘,我们可以不采用自底向上,逐层扫描的方式,而是比较两颗子树的不用物理距离和网络拓扑结构来衡量,而采用一种异或编码方式,引入一个“路由表’’概念,该“路由表”中保存部分邻居节点的信息。当挖掘频繁模式的时候,不用自底向上,而是通过查找“路由表”,直接获取最可能拥有频繁模式的频繁项,�����������珼��冢琒�������,口� 个告警事务。两种算法的运行时间和平均访问数据库的次数如图��和��所示:�������疦�� ∞�粆∞图��两种算法平均访问数据库次数��网络告警相关性分析系统实现平台进行开发,开发工具使用��������,开发语言使用�;后端系统采用��开发,基于���低吃诵校�褂肙����数据库。本文用到的告警数数据记录。后的可视化的告警信息。该模块主要目的:一是选择有特征性的告警属性来表示告警信息,对原始告 ���������:�:�.�图��告警信息示例我们定义相关的数据类,如图��所示: ~�����》图��核心类图星进行数据预处理:选择挖掘数据的时间段汪塑塑型�����:�:�:�图��规则发现 数据挖掘技术在移动通信网络告警管理中的研究与应用我们例举几条挖掘出来的规则如下所示:�挖掘规则�簕���—����端口�珹��—����ㄐ鸥婢�,����普通告警�珹�����丝诖�渲卸��憾杂Φ淖钚≈眯哦任�.�。 �粆回�孺援则置信度。。。。。�琽;�阂冶裭蕊�����讲���篒��∞∞札虬虬一瓜姗枷燃一忡弛Ⅶ之卫曙���一�一����������—�—���—�—�£����渊虬��工� 数据挖掘技术在移动通信网络告警管理中的研究与应用 结论数据库。第三,在带权值告警事务数据库的基础上,利用基于����算法和算法在告警相关性分析领域要优于����算法。当然,本文还存在一些不足之处,第一:文中的实验属于小规模的测试,原 数据挖掘技术在移动通信网络告警管理中的研究与应用版.��.�������琀���������������������������琣�����������吴萍,朱东来.网络告警关联规则挖掘系统的研究与设计.计算机应用与软件,�����孟歆,孟洛明.基于贝叶斯网络的通信网络告警相关性分析和故障诊断模型.电�.�����������������������.�:���������徐前方,肖波,郭军.挖掘电信告警关联模式方法.北京邮电大学学报.��,�����������������������������������������’�������������������.������������琇.��������������������瓵������,�������琄��【�】��������������������.������������甊��������.“. ���甀���琘����琑�������.������������,�����.����������������垦钬��鸥樟值龋�恢终攵訮�网络优化的����路由算法.微电子学与计算用,������縂.�����������琋������������【�������甀������縌����瓹��:��������甅�������������瓼����甌������縂�����������.�:����������.���客趵颍�跽�罚甌��:种用于数据聚类的动态自组织映射神经网络.电子【��厝ū��墒踊�际醯姆⒄辜坝τ茫�泄�鞑靠萍迹�������� ���������:���������縃����獂�.��������������.�������:���������甋�������������縃��������������.����������,��������:�������������瓵����【�】�瓽��琑.����琄.��.��:����������������������������.�:�������������������������:�����.��【�】�瓻��,�甈.����琂.���,�甔�瓵����痩��.� 【�】�瓵���,�瓸����琀.�甂���,��.���:�����������������������緼.�����珼.��.�����������������������������琋�������【�】���.�甂�������������,��,�����.�. 致马东洋

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭