《基于聚类的故障诊断技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
西安电子科技大学硕士学位论文基于聚类的故障诊断技术研究姓名:段霞霞申请学位级别:硕士专业:通信与信息系统指导教师:刘彦明20080101 摘要20世纪80年代以后,以微电子和计算机为代表的自动化大型设备得到了广泛的应用,同时这些设备的故障诊断变得越来越困难,因此各国都很重视故障诊断技术的研究。本文针对故障诊断技术的特点,采用聚类和神经网络相结合的方法,在一定程度上提高了故障诊断系统的智能化程度。通过对K-均值,DBSCAN、CURE、STING、ART(自适应谐振理论)等聚类算法的研究,并对各种算法的性能进行了分析,得出神经网络中的ART算法更适用于故障诊断。因为ART不但继承了神经网络快速的处理速度、学习能力、联想能力,还兼顾了聚类算法的无监督性能,这就一定程度上提高了故障诊断系统的智能化程度。本文针对ART算法中的ARTl和ART2做了重点研究。由于ARTl只能处理二值数据,因此本文首先采用基于阈值的数据转化方法将数据转化成ARTl可以处理的数据形式,然后用基于广义矩阵的O.1特征选择方法,缩减输入ARTl网络的数据的维数。针对ART2可以处理模拟数据的特点,本文首先采用基于最大.最小规范化的数据转化方法对数据进行归一化处理,然后使用基于一致性的特征选择方法降低输入ART2网络的数据维数。针对ART2在处理低维数据时出现的聚类不准确现象,提出了用改变初始权值大小的方法提高聚类的准确性。另外,由于ART2算法出现的聚类中心随着输入模式偏移的现象,严重影响诊断结果正确性,本文采用ART2算法与K一均值算法相结合的方法,有效的抑制聚类中心漂移。由于基于一致性的特征选择方法存在数值特征取值范围难以确定的缺点,本文采用灰色理论建立预测模型的方法,有效的克服了这一问题。最后,通过VisualC++6.0和SQLServer2000两种软件相结合验证了以上方法的可行性。关键词:故障诊断数据挖掘神经网络聚类ART AbstractAfter1980s,thelarge—scaleautomaticequipmentinwhichembedmicro—electronicsandcomputerhasbeenwidelyapplied,meanwhilethefaultdiagnosisoflarge-scaleautomaticisbecomingmoreandmorecomplex,sotheresearchoffaultdiagnosisisveryimportant.Inthisthesisthemethodofcombiningclusteringwimneuralnetworkisusedtoimprovethefaultdiagnosissystem’sintelligentdegree.Clusteringalgorithms,forexampleK—MEANS、DBSCAN、CURE、STING、ART(adaptiveresonancetheory),havebeenresearchedinthisthesis,aconclusionthatARTismoresuitableforfaultdiagnosiswasgot.BecauseARTnotonlyinheritsthefastprocessingspeed、stronglearningability、associationabilityofneuralnetwork,butalsohastheunsupervisedfeatureofclustering,ARTcouldimprovethefaultdiagnosissystem’Sintelligentdegreeinsomeextent.ARTlandART2,whicharetwoalgorithmsofART,willbestudiedinthisthesismainly.BecauseARTlonlycouldprocessbinarydata,thedataconversionalgorithmbasedonthresholdWasselectedtoconvertthedataintotheformthatATRlcouldprocess,thentheO-1featureselectionalgorithmbasedongeneralizedmarxwasusedtoreducethedimensionsoftheinputdataofARTl.SinceART2couldprocessanalogdata,theMin—maxnormalizationalgorithmWasusedtotransformthedataintotheformthatART2couldprocess;thefeatureselectionalgorithmbasedonconsistencywasusedtoreducethedimensionsoftheinputdataofART2.ThisthesisdevelopsamethodwhichthroughchangestheweightsofART2networktoimprovetheinaccurateclusterphenomenonoccurringwhenART2rapidlyself-organizepattemrecognitioncategoriesinresponsetolow-dimensioninputpatterns.AnART2progressedalgorithmwhichiscomposedofART2algorithmandK—Meansalgorithmisdevelopedinthisthesis,anditcanrestrainthedriftingofclustercentersefficiently.Usinggraytheory,theforecasingmodelWasbuilttoavoidtheproblemthatthefeatureselectionalgorithmbasedonconsistencyisdifficulttodeterminethevaluerangeofnumericalfeature.Attheendofthethesis.throughtheprogramofVisualC++andSQLSenrerpmvedthefeasibilityofabovealgorithms.Keyword:FaultdiagnosisDataminingNeuralnetworkClusteringART 西安电子科技大学学位论文独创性(或创新性)声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:聋:枣鏖关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文和使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复印手段保存论文(保密的论文在解密后遵守此规定)。本学位论文属于保密,在一年解密后适用本授权书。本人签名:导师签名:日期:≯口g.弓./0 第一章绪论智能故障诊断是近几十年发展起来的一个新的研究课题,它是适应工程实际需要而产生的。20世纪以后,很多设备都是高度集成的,由很多不同功能的模块组成,由于我们所使用的设备的复杂度不断提高,很多设备出现故障时,采用传统的维修方法对设备进行维修的难度越来越大,所以很多发生故障的设备,由于人们无法对其维修,就被废弃掉。根据美国海军有关部门的研究表明,从武器系统拆下的可更换单元中大约70%是没有故障的,经常造成误拆好设备,在资源日益紧缺的今天无疑是对资源的极大浪费。另外,为了防止设备突然发生故障而产生重大灾难性事故,很多单位或企业都采取主动维修的方式即定期维修,减少设备的故障发生率。据美国军方统计,飞机航电系统“无故障”维修竞占总维修工作量的50%。由此可以看出,在大多数时间设备都是运行正常,只有在极少数情况下才出现故障,这就导致很多的主动维修都是多余的,从而浪费了大量的人力和财力。因此,提高设备故障定位的精度,降低设备的维修费用,避免资源的浪费和过剩维修,就成了设备故障诊断需要迫切解决的一个难题。1.1故障诊断的研究现状及发展1.1.1研究背景在60年代,美国军方意识到定期维修的一系列弊病,开始变定期维修为预知维修,也就是在设备正常运行过程中开始监护,以发现潜在的故障因素,及早采取措施,防止突发性故障的产生【”。军方的这种主动维修方式,不仅大大避免了灾害性的设备故障,而且避免了失修和过剩维修,经济效益显著。这种维修方式很快被其它企业采用【l】,故障诊断技术就很快的发展起来了。故障诊断技术具有很强的工程应用背景,实用价值,同时它是以广泛,深厚的理论作为基础的。故障诊断技术涉及概率论,信号处理,计算机科学、控制论等,所以只有很好的开展对理论方面的研究,才能对实际诊断工作提供有力的技术支持。目前现有的故障诊断系统多数是以专家系统为基础建立的。尽管基于规则的诊断专家系统获得了一定的成功,但由于该方法属于反演推理,因而不是一种确保唯一性的推理形式,存在着知识获取困难、知识台阶窄以及控制策略不灵活等缺点。对大型规则库来说,容易产生规则匹配冲突、组合爆炸等问题,而且系统缺乏自学习能力,不适用于复杂系统或经验不足系统的故障诊断。对于大型的诊断对象,其求解过程搜索空间大,速度慢,难以实现实时在线诊断要求。1。本文研究的目的就是寻找一种在没有专家的情况下,可以预测设备故障以及判断出设备故障类型的方法,这种方法不但可以在保证故障诊断系统诊断的正确 2基于聚类的故障诊断技术研究性的条件下,还可以提高故障诊断系统的智能性和处理速度。聚类算法是一种将关系比较密切的样本聚成一类,将关系疏远的样本剔除出去的一种方法,这就非常适合在没有专家的情况下对故障类型进行分类。另外聚类算法还有一个很大的灵活性,那就是可以根据故障样本的实际情况对最后的聚类所得的类簇的数量进行调整。因此,把聚类分析的方法运用到故障诊断中不但可以在没有专家的情况下诊断出设备的故障类型,还增强了故障诊断系统的智能化程度。同时神经网络具有超强的并行运算能力,以及学习能力和联系能力,很适合做故障分类和模式识别。本文采用了一种神经网络聚类算法ART(自适应谐振理论),该算法将聚类算法和神经网络的优势结合起来,提高了诊断系统的实时诊断能力,同时还使系统的智能化程度向前迈进了一大步。1.1.2研究现状美国军方对智能故障诊断的研究已经取得了很大的进展,并且通过将智能故障诊断投入实际应用已经取得了很大的经济效益。为进一步推进武器装备综合诊断能力的建设,美国国防部于1999年制定了为期8年的开放系统和综合诊断研究计划OSAIDR(OpenSystemAndIntegratedDiagnosisResearch)。该项计划按照以下三个阶段组织实施一,。第一阶段(1999年至2000年)进一步完善基于信息的综合诊断系统结构和综合诊断信息模型;探索协调一致的嵌入式诊断(含BIT)信息交互及使用方法;建立指导和协调综合诊断能力建设的专门机构(如测试与诊断执行局);提出测试需求分析和测试资源共享等技术标准;编制《美国国防部诊断能力采办指南》等技术手册。第二阶段(2001年至2003年)提交工程化的工具和技术、诊断费效比评估模型:对先进数据处理和诊断技术进行评估;研究可互换的诊断模型、算法和诊断传感器结构;建立测试与诊断管理中心;进一步推动武器装备诊断能力采办计划、全寿命管理及阶段审定程序的执行。第三阶段(2004年至2006年)提出可对系统级综合诊断进行描述的工程化方法组织对先进诊断技术的演示和验证。由于美国军方在智能故障诊断的应用中得到了相当理想的经济效益,因此很多企业纷纷效仿。使智能故障诊断技术在全世界范围内快速的发展起来。很多国家的高校和企业也设立了诊断技术研究中心。很多国际知名的电子公司已经在智能故障诊断研究方面取得了重大进展,并且形成了具有自己特色的故障诊断产品,在宇航、军事、化工等方面得到了广泛的应用。根据故障诊断系统的应用环境和功能,可分为以下四类:便携式检测仪表和 第一章绪论3分析仪器、在线监测仪表系统、计算机监测分析与诊断系统、智能诊断系统。其中,便携式检测仪表和分析仪器、在线监测仪表系统和计算机监测分析与诊断系统统称为常规故障诊断系统,这三类故障诊断装置或诊断系统从出现至今,经过不断的改进,已经发展成为成熟的商品,在故障诊断领域发挥了巨大的作用。便携式检测仪表和分析仪器是最早出现的故障检测装置,其主要功能是对检测对象的一些重要运行参数进行测量,分析人员根据测量得到的数据判断检测对象的运行状态。如:振动测量仪、温度测量仪、轴承检测仪等,生产厂家有丹麦的B&K公司、瑞典的SPM公司等【4】。在线监测仪表系统是继便携式检测仪表和分析仪器之后出现的针对某一具体对象的专用故障监测系统,适用于需要实时监测运行状态的工业生产系统。比较成熟的产品有:德I虱Philips公司的1lMS700系列以及申克公司的VIBROCON--TROL2000系列;瑞士Vibro--MetCr公司的MMS系统等【4】。计算机监测分析与诊断系统的相继出现,是由于便携式检测仪表和分析仪器和一般的在线监测仪表系统无法满足大型系统故障诊断的要求。计算机监测分析与诊断系统不但可以在线实时监测大型系统的运行状态,还可以根据现场的检测数据,实现预测报警、实时故障分析与诊断等功能。典型的产品有:美国Bently公司的Trendmaster2000系统;日本三菱公司的HMH系统;瑞士Ⅵbro—Me—ter公司的Vibro--Turbo系统;加拿大CSl3loo系统;中国清华大学的QH—l系统,华中理工大学的Hz—l系统,哈尔滨工业大学的MMMD--3系统等等【41。国内在故障的智能诊断技术方面的研究起步较晚,但发展较快,并取得了不少成果,如华中理工大学研制成功汽车发动机故障诊断专家系统KB—SED和汽轮机组监测与诊断专家系统;哈尔滨工业大学研制成功大型旋转机械故障诊断专家系统MMMDES;清华大学、四川大学、四川建筑研究院等单位合作,研制了单层厂房破损评估的专家系统raise.1,araise.1等系统;冶金部建筑研究总院研制了混凝土结构裂缝诊断对策专家系统、单层R.c.厂房综合可靠性评定专家系统。另外,如西安交通大学、东北大学等在大型旋转机械故障诊断中,都成功的应用了神经网络技术“1。1.1.3系统模型自动故障诊断软件系统的设计需要考虑数据采集技术,数字信号处理、数据库技术、软件工程技术、数据挖掘技术等。因此,设计故障诊断软件时不但要考虑到它能否正确检测故障的同时,还要考虑到软件的实用性、软件的各个功能块连接的紧密性、以及软件的可扩展性等。与其它的故障诊断系统相比,本文的故障诊断系统具有更多的智能和自学习 4基于聚类的故障诊断技术研究能力。它不但可以辨别出已知的故障类型,还可以对未知的故障类型进行学习,从而辨别出未知的故障类型。一个合格的故障诊断系统不仅可以进行简单的故障分类,而且应该具有一定的自学习能力、故障预测能力,这样就可以大量简化系统管理员的工作,保证系统的安全运行。具体说,一个故障诊断系统应该具有以下功能:(1)随时监测设备的运行情况。(2)具有对设备故障的预测能力。(3)识别已知的故障类型并对未知故障进行学习。(4)可扩展性,即有加入新的诊断方法的能力。(5)用户可以很容易的操作故障诊断软件。图1.1故障诊断系统实现图图1.1所示的故障诊断系统既包括软件部分又包括硬件部分,本文主要针对软件部分进行介绍。首先该故障诊断系统主要由数据采集、数据预处理、数据挖掘算法和人机交互界面组成。(1)数据采集:数据采集的目的就是从设备的各个部位中采集到真实可用的数据。这些数据主要是数据采集卡通过从与设备各个关键部位相连的传感器以及一些仪器仪表中采集到的。所以首先要确定的就是设备的哪些部位对设备的正常运行起作用。本文采用Labview软件采集传感器产生的数据,并将采集到的数据存储到数据库中,便于后面的算法调用。(2)数据预处理:从图1.1可以看出数据预处理部分有三个模块组成:数据清洗、数据转换和维数规约。其中数据清洗是数据预处理的第一步,在这一步中需要对数据的不完整性,不一致性以及数据中的噪声进行处理。数据转换的目的是将数据的形式变成数据挖掘算法可以处理的形式。维数归约主要是将数据中对故障分类不起作用的数据维去掉,这也就可以减小数据挖掘算法处理的数据量,并且提高数据挖掘的效率以及准确率。本文根据数据挖掘算法对数据形式的具体要求以及数据的特点对数据进行相应的预处理,如阈值预处理方法、区间映射预处 第一章绪论5理方法、以及聚类预处理方法等。(3)数据挖掘算法:数据挖掘算法是整个故障诊断系统的核心部分,因为不同的数据就决定了使用什么样的数据挖掘算法。当选择的数据挖掘算法适当时,得到的数据挖掘结果就更准确。对数据挖掘算法的选择一定要慎重,一是要从数据的属性出发,二是要从数据挖掘算法处理的数据类型以及其算法的功能出发。本文采取神经网络中的聚类算法正是从这两个方面考虑的,同时也考虑到了实时数据处理的因素。(4)故障规则:故障规则是通过数据挖掘算法对预处理后的数据进行挖掘后得到的。它反映的是故障数据中隐藏的一种规律,也就是设备故障发生的规律,它是最终我们需要得到的最有价值的部分。(5)故障决策:故障决策的目的就是让实时采集到的数据通过预处理后和故障规则匹配,当数据与那一个规则匹配时就说明设备有没有故障,如果有故障则判断该故障属于哪一类故障,并提供一个故障解释的功能。(6)人机交互界面:人机交互界面的目的就是建立一个用户与故障诊断系统相互联系的接口。这里计算机用人们能看懂的语言显示故障信息,以便用户对系统的操作。本文采用VisualC++6.0作为软件开发平台,因为它不但提供了友好的软件界面,而且提供了良好的接口和稳定性。1.1.4关键技术故障诊断中的关键技术主要有:数据采集,故障数据预处理和故障诊断方法。数据采集是故障诊断技术的第一步,因为设备诊断技术从设备的症状入手进行分析研究。设备症状指机器运行时产生的代表其状态的各种信号。只有采集到的信号真实的反映了设备的实际状态,诊断的后续工作才有意义。这就好像如果向系统输入的数据是失真的,那检测到的结果就是不准确的。数据采集技术包括数据的采集、放大、缩小、取整等,其中对传感器的研究是数据采集中的研究热点。故障数据预处理是故障诊断中不可缺少的一个步骤,它的主要目的有四个:第一,使存储在数据库中的大量庞杂数据变得即有条理又统一;第二,防止数据受噪声,空缺数据和不一致性数据的侵扰;第三,提高数据的质量,从而提高挖掘结果的质量;第四,使挖掘过程更有效,更容易。数据预处理方法主要包括:数据清洗、数据集成和变换、数据规约。诊断方法的研究是设备诊断技术的核心。故障诊断的实质就是判断设备工作是否正常,如果不正常判断出故障原因。原始的诊断方法是“手摸,耳听,眼看”,然后凭经验做出故障原因分析。这种用原始的方法判断设备的故障类型变的越来 6基于聚类的故障诊断技术研究越困难,并且不能预测故障的发生,这就使重大故障发生之前不能有效的防止故障的发生,从而导致重大的经济损失和资源浪费。因此现在的诊断方法就不能以人为主导因素,必须以人工智能的方法为基础实现故障诊断的自动化和智能化。在现代化的智能诊断技术中,专家系统的研究起步比较早,现在已经有了成功的应用,但是专家系统是以大量的先验知识为前提的,而现实中这些先验知识往往不容易得到,所以就需要一种具有自学习能力的方法来实现故障诊断的智能化。而神经网络恰好具有这种自学习的能力及联想能力,同时它还具有强大的并行计算的能力,所以神经网络非常适用于大型设备的故障诊断。自适应谐振理论(ART)是神经网络中的一种由人类的视觉系统得到启发建立起来的一种无监督的聚类方法。ART(自适应谐振理论)神经网络可以在非平稳的,有干扰的情况下进行无教师无监督的自学习,学习过程是实时性的,并且能够迅速识别己学习过的样本,同时又能够迅速适应未学习过的新样本。所以ART神经网络非常适合智能故障诊断的要求。1.2.1简介1.2聚类算法的研究现状聚类算法只分析数据对象,而不考虑己知的类标记(决策属性)。一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类,可以用于产生这种类标记。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。这种方法已经广泛的用于许多领域中,包括模式识别、数据分析、图像处理、以及市场研究等”1。通过聚类,可以识别密集的和稀疏的领域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。因此聚类分析为数据挖掘提供了一组非常有用的分析方法。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。基于聚类分析方法的空间数据挖掘算法包括均值近似法、CLARANS、BIRCH、DBSCAN等算法。1.2.2主要问题聚类算法在故障诊断中有着非常广泛的应用。但是目前的应用还存在着很多问题,虽然聚类算法在故障诊断系统中的应用提高了故障诊断的智能化程度,但是对聚类结果的解释还需要人工的参与。另外,由于故障诊断领域中故障数据本身所具有的高维性、复杂性、动态性以及规模大的特点,使聚类结果存在精度不高的问题。针对聚类结果解释难的问题,可以尝试将专家系统或其它方法与聚类算法相 第一章绪论7结合的方法来克服这一缺点。针对故障诊断中聚类算法的聚类结果精度不高的问题啪,可以采用以下方法来提高聚类结果的精度o’:(1)融合不同的聚类思想形成新的聚类算法,从而综合利用不同聚类算法的优点。(2)处理大规模数据和高维数据的能力,这是故障诊断中聚类算法必须解决的关键问题。(3)对聚类的结果进行准确评价,以判断是否达到最优解,这也自然要求聚类结果具有可解释性。(4)对数据进行合理的预处理,以便获得更准确的聚类结果。(5)在聚类过程中使用合适的相似计算公式及评价准则。合理的相似性评判准则对聚类结果的准确性起着不容忽视的作用。(6)将领域知识引入聚类过程。领域知识的引入不仅有助于选择合适的模式表达机制、选择合适的聚类算法,还能使以上很多方面的问题都能得到合理的解决,从而相应的提高聚类算法的性能。1.3本文研究内容本文研究的主要内容就是故障诊断算法的软件实现及算法改进,同时还研究了数据预处理对故障诊断方法的影响,另外针对整个故障诊断系统的实现提出了一个总体的框架。首先,本文一方面充分研究数据采集技术,数字信号处理、数据库技术、软件工程技术、数据挖掘技术,同时考虑到智能故障诊断软件的实用性、软件的各个功能块连接的紧密性、以及软件的可扩展性,设计出了一个切实可行的故障诊断系统实现框架。其次,考虑到数据的预处理部分对故障诊断结果的影响,本文也对数据预处理部分做了深入的研究。从传感器采集到的原始信号入手,采用数字滤波的方法将原始信号中的噪声滤除,然后使用特征选择的方法把对故障的判断影响不大的属性去除,最后根据所采用的故障诊断方法对数据的具体要求,将数据的表现形式转化成故障诊断方法可以处理的数据形式。最后,对故障诊断方法中的聚类算法进行了重点研究,包括经典的K.均值,DBSCAN,ART等算法,并对各种算法的性能进行了分析得出神经网络中的ART算法更适合用于故障诊断。研究了ARTl和ART2的适用情况,以及其各自的预处理方法。由于ARTl只能处理二值数据,因此特别适用于处理具有阈值特性的数据。ART2(自适应谐振理论2)可对模拟的故障数据进行分析,既可以避免预处理对数据进行离散化带来的数据失真,从而提高故障聚类的准确率,同时又提高 8基于聚类的故障诊断技术研究了数据挖掘的速度。针对ART2在处理低维数据时出现的聚类不准确的现象提出了用改变初始权值大小的方法来提高聚类的准确性。同时针对ART2算法中出现的聚类中心随着输入模式而发生偏移的现象,本文采用ART2算法与K一均值算法相结合的方法有效抑制了ART2聚类中心的漂移。并且通过VisualC++6.0和SQLServer2000两种软件相结合验证了以上方法的可行性。 第二章故障诊断中的预处理方法9在现实生活中数据采集极易受一些突发因素的影响,比如设备某个部位的传感器出现周期性的异常,这就导致采集到数据的某个属性出现周期性的异常现象。另外,用于存储数据的数据库也极易收到噪声数据,空缺数据和不一致数据的侵扰,由于数据库存储的数据量相当庞大,因此就需要用适当的预处理方法对这些数据进行统一的处理。数据预处理技术可以提高数据的质量,从而有助于提高其后的故障诊断的精度和性能。由于高质量的决策必然依赖于高质量的数据,所以数据预处理是故障诊断中非常关键的一步,它直接影响到故障诊断结果的准确性。数据预处理的目的就是把从传感器,仪表采集到的数据中包含的噪音,空值以及与故障类型无关的属性去掉。所以数据预处理就是一个数据的存精华去糟粕的过程。2.1故障诊断中的数据预处理故障诊断中的预处理部分由信号的预处理,数据变换和维数约简三个主要部分组成。在故障诊断中,传感器采集的信号,称为原始信号,其中一部分是可以直接利用的,如温度,位移等,但是大部分是很难直接利用,如振动信号,由于其含有噪声,所以从时域波形上很难反映问题。所以必须使用信号分析与处理的方法去除噪声并把信号转化在不同的域内进行分析,才能得到更能敏感反映机器状态的属性“1。根据故障诊断系统所使用的数据挖掘算法的不同,对数据形式的要求也会相应的不同,所以采用的预处理的方法也会相应的不同。因为本文中使用的是基于神经网络的聚类方法,众所周知,这是一种基于距离的挖掘算法,所以数据必须按比例映射到一个特定的区间,这样才能的到较好的结果。维数约简的目的是将故障诊断中对故障的决策影响不大或没有影响的属性去掉,以缩减数据集,提高故障诊断算法的效率。数据预处理的优点主要有以下几个方面:(1)确保数据的完整性。(2)确保数据的准确性。(3)确保数据的一致性。(4)减小数据的冗余度。(5)为数据挖掘算法提供高质量的数据。 10基于聚类的故障诊断技术研究2.2信号的预处理方法故障诊断中一般采用信号的预处理方法对数据进行清洗,从而达到平滑噪声数据,识别、删除孤立点的作用。传感器输出的信号是模拟信号,所以必须经过采样和A/D才能转换成计算机可以处理的数字信号。采样和A/D转换一般可以通过数据采集卡以及配套的软件如Labview,就可以完成。3。但是我们所得到的这些信号往往含有混杂在有用信号中的噪声,所以必须通过信号处理的方式将信号中的噪声过滤掉,得到信息量高的信号,这就是数据预处理中的数据清洗。为了降低成本,提高系统的可靠性,一般采用软件的方式来实现信号的预处理。信号预处理的算法来源于数字滤波中所采用的方法,所以编写信号预处理程序时采用的算法依据是数字滤波的算法。数字滤波方法与模拟RC滤波方法相比具有以下优点“1:(1)数字滤波方法不需要硬件设备,所以不存在阻抗匹配问题,并且可以对很高的频率和很低的频率进行滤波,这是Rc模拟滤波方法难以实现的。(2)多个通道可以共用一套数字滤波程序,从而降低仪器的硬件成本。(3)数字滤波具有RC没有的灵活性,就是可以通过改变参数来处理不同传感器输出的信号。不同的数字滤波方法适用于不同的信号类型及环境,可以用于故障诊断的数字滤波方法有:1.限幅滤波法限幅滤波法主要用于抑制缓慢变化信号中的尖脉冲干扰。虽然限幅滤波法能有效克服因偶然因素引起的脉冲干扰,但是它无法抑制那种周期性的干扰,平滑度比较差。当然有人就会产生疑问设备产生故障时,传感器输出的信号中就有可能出现突变,这样如果使用限幅滤法波对信号进行处理,则故障信号就会被滤除掉。其实,并不是这样的,因为设备产生故障时,传感器输出的故障信号并不是一个尖脉冲,而是出现一个阶跃波形,因此使用限幅滤波法对传感器输出的信号进行滤波并不会把故障信号率除掉,而是把信号中的噪声干扰率除掉。限幅滤波算法:初始化:本次预采样值y。,口两次预采样值只差的最大可能值(a的设置取决于采样周期T及Y值的变化动态向应,常取经验值)输入:本次采样值y。方法:(1)如果ly。一y。1≤口,则y。的值不变(2)如果ly。-y¨I>口,则把Y。的值赋给Y。q 第二章故障诊断中的预处理方法2.中值滤波法中值滤波法对缓慢变化的信号中由于偶然因素引起的脉冲干扰有良好的滤波效果,对温度、液位等变化缓慢的被测参数有良好的滤波效果,但是对流量、速度等快速变化的参数不宜。方法:(1)连续采样n次(n取奇数.一般大于3)(2)把n次采样值按大小排列(3)取中间值为本次有效值3.算术平均滤波法算术平均滤波法适用于对具有随机干扰的信号进行滤波,这样信号的特点是有一个平均值,信号在某一数值范围附近上下波动,所以该算法适用于对压力、流量等周期脉冲的采样值进行平滑加工。但是对于测量速度较慢或要求数据计算速度较快的实时控制不适用,比较浪费RAM。方法:连续取n个采样值只进行算术平均运算歹=圭∑只。n值较大时,信号平滑度较高,但灵敏度较低;n值较小时,信号平滑度较11德t-,但灵敏度较高。n值的选取:一般流量,n=12;压力,n=4。4.递推平均滤波法递推平均滤波法(又称滑动平均滤波法)对周期性干扰有良好的抑制作用,平滑度高,适用于高频振荡的系统;但是灵敏度低,对偶然出现的脉冲性干扰的抑制作用较差,易消除由于脉冲干扰所引起的采样值偏差,不适用于脉冲干扰比较严重的场合,比较浪费RAM。方法:连续取n个采样值作为一个队列,队列的长度固定为n,每次采样到一个新数据放入队尾,并扔掉原来队首的一个数据。把队列中的r1个数据进行算术1n-I平均运算y。=去∑y。,就可获得新的滤波结果。n值的选取:流量,n=12;压’‘i=O力:n=4;液面,n=4~12;温度,n=1~4。5.一阶滞后滤波法一阶滞后滤波法对周期性干扰具有良好的抑制作用,适用于波动频率较高的场合;但是相位滞后,灵敏度低(滞后程度取决于a值大小),不能消除滤波频率高于采样频率的l/2的干扰信号。方法:取口=—毛,其中f为滤波环节的时间常数,T为采样周期;计算本次 12基于聚类的故障诊断技术研究滤波结果Y。=(1一口)%+掣。,其中儿为本次采样值,以为上次滤波结果。6.加权递推平均滤波法加权递推平均滤波法适用于有较大纯滞后时间常数的对象和采样周期较短的系统;但是对于纯滞后时间常数较小,采样周期较长,变化缓慢的信号不能迅速反应系统当前所受干扰的严重程度,滤波效果差。方法:是对递推平均滤波法的改进,即不同时刻的数据加以不同的权值c,,y。=圭∑c—Y,,其中∑q=1。通常是,越接近当前时刻的数据,权取得越大。,‘I=0f=0给予新采样值的权系数越大,则灵敏度越高,但信号平滑度越低“”。以上所介绍的是一些常用的软件实现的数字滤波方法,从每个数字滤波方法所适用的环境可以看出,不同的传感器输出的信号,需要不同的滤波方法去处理因此如果想得到真实的,纯净信号就必须对传感器输出的信号进行滤波处理。2.3数据转化所谓数据转化就是将存储在数据库中的数据转化成数据挖掘算法可以处理的数据形式。根据使用的数据挖掘算法对数据形式的要求以及数据本身的特点,选择适当的数据转化方法可以提高故障诊断的效率。2.3.1基于阈值的数据转化方法阈值的概念:将故障定义中的“可以接受的范围”定义为一个实数值序列,其中每一个分量作为故障特征与正常特征偏差对应分量的阂值,偏差超过了阈值被认为是超出了可接受的范围,因而此分量定义为故障分量;偏差在阈值以内则认为没有超出可接受的范围,定义为正常分量。基于阈值的数据转化方法可以将那些具有阈值特征的数据转化成二值数据““。表2.1显示某一液压系统的故障机理,从该表中可以看出,故障样本的属性值有些是分类型的,有些是数值型的,不管是分类型还是数值型,都有~定的范围。表2.1中的有些样本的属性可以直接转换成二值数据,如液位监测报警和高压油滤报警,正常时用“0”表示,异常时用“1”表示。而象其它的属性,如供油量,供油油温等所采集到的数据都是实数,但是这些数据都有一个阈值,因此可以通过阈值将这些数据转换成二值数据。设属性液位监测报警,高压油滤报警、供油流量、供油油温、供油压力、冷却器水温、油泵转速、发动机转速度分别为A1,A2、A3、A4、A5、A6、A7、A8。例如属性A3必须大于60L/min。由于样本1,3,4,5的 第二章故障诊断中的预处理方法13A3属性值都大于60L/min,这时样本1,3,4,5的A3属性的取值就可以取为“0”,而样本2的A3属性的值小于60L/rain,所以样本2的A3属性的值可以取“l”。依次类推,属性A4、A5、A6、A7、A8都可以按照样本2的数值转换方法进行二值转换。表2.1某液压系统的原始标准故障样本集及故障机理属性样本1样本2样本3样本4样本5液位监测报警A1异常正常高压油滤报警A2正常异常供油流量(>-60L/min)804080A3供油油温(≤40℃)A435383539供油压力(18Mpa)A518.213.218.2冷却器水温(≤80℃)A660856082油泵转速(2000—19002500025004000r/min)A7发动机转速度(1500—13021502O15021800i‘/min)A8故障类型驱动响应迟启动难或系统过热不能启燃料过滤缓和怠速不者不稳定,突停,烟雾动器堵塞稳发动机乏过多(Fault(FaultNu(FaultNuml)力(FaultNumNum4)m5)(FaultNum3)2)注:故障类型的机理分析FaultNuml:由液位异常和转速偏低,可以判断出可能存在燃油泄漏、燃油供油不足、载荷过大、以及缺乏润滑等因素。FaultNum2:供油油量偏低、供油压力偏小,由此可能判断可能由燃油泄漏、喷油正时不对、喷油泵供油不足、燃料过低等原因造成。FaultNum3:油温和冷却器的水温都大大超过了额定值,可能由燃料过滤器堵塞、油液被污染、冷却装置异常、过滤器太脏等原因引起。FaultNum4:油泵转速、发动机转速度都为零,具体原因可能由燃料没有了、插件松动、缺乏润滑、载荷过大、喷油泵供油不足、燃料过滤器堵塞等原因引起FaultNum5:燃料过滤器长时间没有清洗或油中的杂质过多。表2.1中的数据经过阈值方法处理以后,可以得到表2.2所示的一个二值故障样本集: 14基于聚类的故障诊断技术研究表2.2某液压系统的二值故障样本集A1A2A3A4A5A6A7A8样本1lO01l样本2O10l0O样本3O0O0lO样本4O01样本5O10O10O2.3.2基于最大一最小规范化的数据转化方法聚类算法要求所处理数据的取值必须在[0,1]之间,因此就需要使用一些方法将数据库中采集到的数据映射到区间[0,1]。本文采用聚类算法中最常用的相似度计算的方法来映射。一般情况下数字型属性使用欧几里德距离进行处理,而分类型的属性则通过汉明距离进行处理。表2.3某数据集属性1属性2属性3属性4样本11.02100018.5120样本22.03150018.5130样本3O.99130016.5190样本32.03150017.9150样本50.0985013.4160样本6O.0465016.8160如表2.3所示的某一数据集,其每个属性的数量级都不同,属性1与属性2的数量集相差很大,因此在相似度计算过程中很容易将属性1忽略掉。下面将使用最简单的映射方法,对表2.3中的数据集进行预处理:x’.兰二兰婴lxM一工mm根据公式(2—1)可得到预处理后的数据集如表2.4所示: 第二章故障诊断中的预处理方法15表2.4某数据集的聚类预处理结果属性1属性2属性3属性4样本10.4925O.411810样本21l10.1429样本30.4774O.76470.60781样本31l0.88240.4286样本50.02510.2352O0.5714样本600.6666O.5714从表2.4中可以看出,表2.3中的数据经过预处理以后所有属性的值都介于[O,1]之间,此时我们可以看到属性1和属性2属于同一个数量级。这样故障样本集中的每个属性的数量级都一样,在聚类的相似度计算时对故障类别的影响大的属性就不会被忽略掉。2.4特征选择特征提取与选择的基本任务就是研究如何从众多特征中求出那些对分类识别最有效的特征,从而实现特征空间维数的压缩。特征选择的问题在数据挖掘,机器学习、统计学、模式识别等领域中已经研究了很多年。经过多年的研究,人们发现了很多特征选择的方法“”。特征选择方法都有四个主要的步骤:(1)用一个生成程序来生成下一个候选子集。(2)一个评估函数来评估来检测子集。(3)一个终止条件来决定什么时候停止。(4)一个确认程序检查子集是否有效。在特征选择的方法中,评价函数起到一个关键的作用。评价函数可以分为五类:类散度,信息理论、集群成本、一致性和分类错误率。2.4.1基于一致性的特征选择方法一致性评价函数在降低计算复杂度方面是非常有效的。如果特征选择后的子集和原始集的个体识别率是相同的,则说明子集和原始集是一致的。第一个将一致性作为评价函数的是由Skowron等人于1992年提出的““,之后Dash等人对该方法做了进一步的研究。但是使用一致性作为评价函数的一个缺点就是它不能区分大的和小的分辨率。这样,特征选择就会遭受低分辨率属性的影响,比如噪声。另一方面,相似性测量是聚类中非常关键的部分。传统的相似性测量只用于样本和类簇。它们被用于计算样本间,类簇间、样本和类簇间的距离。这里我们 16基于聚类的故障诊断技术研究将介绍一致性作为评价函数时的特征选择方法。分辨矩阵:聚类中距离可以定义成一个函数:d:XXX斗R一般情况下聚类距离满足下面的条件:Vx∈X,d(x,x)=0Vx,Y∈肖,d(x,),)=d(y,功Vx,Y,z∈X,d(x,z)≤d(x,y)+d(y,z)欧几里德距离一般用来计算数值属性(如实数或整数向量)的相似程度,而汉明距离一般用来计算符号属性的相似程度。很多其它的相似性计算方法被用来处理不同的属性:数字的,分类的以及集合与属性(点到点,点到集合)。这里还要引入一个概念,那就是分辨率。它是一个数据集一致性特性的基础。一个样本集A中的样本X和Y的分辨率的定义如下:至少存在一个属性a∈A,使x(口)≠y(口)。分辨率这一概念作为一个基本概念已经被用于粗糙集理论以及其它领域中。不同的分辨率之间并没有什么差别,也就是差别大的和差别小的是同等对待的。但是通过仔细的观察发现不同的分辨率有更深一层的意义,例如,如果某个特征值由于噪声引起了与原始值的偏差,这个小的偏差就可以被忽略掉。一般情况下,具有小的差别的特征选择子集将不会被选择,只有具有大的差别的特征选择子集才会被选择。这里有几种方法可以确定每个特征的分辨率能力。第一种方法来自于特征的归一化距离,在实际的数据挖掘应用中,特征具有不同的表现形式以及取值范围,因此使用不同的相似度测量方法或距离计算方法进行计算。为了比较的方便,距离需要归一化到区间[0,1],0代表最小距离,1代表最大距离“”。在归一化后,就可以建立一个分辨矩阵。在这个矩阵中,每一行代表具有不同类指数的样本对,每一类代表特征集。该矩阵中的每一个元素表示两个来自不同类的相应实例的距离。例如,假设一个数据集如表2.5所示,这里特征l和特征3都是数字型的特征,特征2和特征4都是分类型的特征。 第二章故障诊断中的预处理方法17表2.5某个数据集N0FeaturelFeature2Feature3Feature411.262.79BrightHj曲22.003.69DarkLow31.501.80GrayHi曲4O.680.98GrayHi曲5O.962.30DarkLow62.601.68BrightMedium假设每一对样本都是唯一的,数字型的特征用欧几里德距离进行测量并且归一化,方法为d(_,x:)=i‰。分类型的特征用汉明距离进行测量。则表2.5中的数据集的分辨矩阵将由表2.6给出:表2.6分辨矩阵No.InstancePairFeaturelFeature2Feature3Feature41(1,2)0.3850.33212(1,3)0.1250.365l03(1,4)0.3020.668104(1.5)0.1560.1811l5(1,6)0.6980.410016(2,3)0.2600.697l7(2,4)0.68818(2,5)0.542O.513O09(2,6)0.3130.742l10(3,4)0.4270.303011(3,5)0.2810.185112(3,6)0.5730.044l113“,5)0.1460.103l114(4。6)10.258115(5,6)0.8540.2291分辨矩阵中与特征相对应的样本对为每个特征提供了一个分辨能力计量。使用这个分辨矩阵进行特征选择的方法有很多种,例如在粗糙集中使用该方式达到特征的约简。另一种方式就是将分辨率作为一个评价函数进行特征选择,这种方法首先使用分辨矩阵为特征选择生成一个索引,这个索引代表哪一个特征将被优先 18基于聚类的故障诊断技术研究选择。下面所示的算法就是一个将分辨率作为评价函数的特征选择算法。在这个算法中每一个特征将根据索引被分类,每循环一次,就有一个特征被添加到被选的子集中。这个过程一直持续到一致性的条件被达到,举个例子,也就是说,矩阵中每一行的样本对所对应的被选择的特征至少有一个非零值。分辨率作为评价函数的特征选择算法:(1)归一化特征值。(2)为每一个样本对应的特征建立一个分辨矩阵。(3)计算每一特征的索引值。(4)根据分辨率对特征进行分类。(5)从分辨率最大的特征开始,将特征添加到特征选择子集中。(6)检查分辨矩阵的每一行的样本对所对应的特征是否有一个非零值,如果有,则停止,否则返回(4)。该算法中索引值的选择是非常重要的一个问题,它直接影响到特征选择的结果。例如,如果选平均相似度为索引值,表2.6中的索引值分别为:Featurel=0.45Feature2=0.402Feature3=0.8Feature4=0.73从分辨率作为评价函数的特征选择算法中可以看出,特征Feature3被第一个选出,从表2.6中可以看出Feature3覆盖了样本{l,2,3,4,6,7,9,11,12,13,14,15),它不包含样本{5,8,10)。接着被选出的特征为Feature4,它包含样本{5)。最后,Featurel被选出,它包含样本{8,10)。因此,最后得到的特征选择子集中的特征为Featurel,Feature3和Feature4。2.4.2基于一致性的特征选择方法改进从2.4.1中基于一致性的特征选择算法可以看出这种算法需要知道数值特征的取值范围,才能计算出分辨矩阵。但是在现实中,由于环境以及设备运行中出现的一些不确定因素,要获取特征的取值范围并不是很容易。因此为了使该算法更加适用于故障诊断,还需要在算法的实现上做出以下的改进:(1)尽量获得足够多的数据。(2)实现算法时,要将算法设计成一个开放的算法。(3)数值特征的最大值和最小值应该随采集到的数据而变化。本文采用灰色理论预测数值特征取值范围的方法来克服基于一致性的特征选择方法的缺点。灰色理论是一种通过建模来预测事物的发展和变化的方法。 第二章故障诊断中的预处理方法19基于灰色系统动态模型GM的灰色系统动态模型的构造方法【11:GM(1,1)模型为型攀+甜㈣(r):Ⅳ式(2-2)盈~因而有或x(1’(r)=h‘1’(0)一-U]e一“+兰式(2.3)口ax(1’(|j}+1)=[x【1’(O)一兰k一础+兰口其中数据个数k=1,2,⋯⋯,刀,待识别的参数口和变量U由下式决定a=陋,“】7=(B7B)+B7E其中B=一抄1】(1)叫2)】一扣1)(2)州3)】:一三[x(1’("一1)+x(疗)】式(2.4)式(2.6)E=【Xo(2),xo(3),⋯⋯,Xo(以)】7式(2.7)叠‘o’(七)=章‘1’(七)一曼‘1’(七一1)式(2.8)根据灰色理论可以为一个数值特征建立一个短期的预测模型,来预测该特征的短期的取值范围,这样不但节省了预处理的时间,同时又解决了数值特征取值范围获取难的问题。算法改进:(1)获得数据。(2)通过灰色理论为每一个数值特征建立GM(1,1)模型,预测该特征的取值范围。(3)通过基于一致性的特征选择算法进行特征提取。(4)定期执行步骤(2)。2.4.3基于广义差异矩阵的0-1特征选择方法基于广义差异矩阵的0一l特征选择方法是专门针对二值数据的样本集进行特 基于聚类的故障诊断技术研究征选择的。因此这个方法可以对阈值转换后的数据进行特征选择。基于广义差异矩阵的0-1特征选择算法““:(1)构造信息集U的差异矩阵Y,Y的元素Y。(f,J)表示U中任意两个样本U,和“,在特征G上的差异性。若U,和U,在特征G上的取值相同,矩阵中的元素Yt(f,J)=0,否则Yt(f,J)=1。(2)令索引值为R=①,将广义差异矩阵中的行中只有一个值为1所在的列对应的特征C.(为核特征)加入到R,即R=RuC.,(可能有多个核特征)。(3)去掉特征c.所在列中值为1的所有行,计算其余特征所对应列的值的和k=∑Y。(f,,)k=1,2⋯··式(2—9)(4)取满足下列式子的厶。’k=哪x∑儿(f,_,)k=1,2⋯一式(2一lo)说明特征c。能区分的样本对(“,,“.)最多,它的区分能力最强,最重要,首先加入的特征选择集R中,即R=RuC。。(5)删除特征C。列中值为l所对应的行的其它特征,从而得到新的差异矩阵I,。,返回到(3)。(6)直到l,’为零矩阵为止,得到特征选择集R。以表2.2这中的数据集为例,经过基于广义差异矩阵的0.1特征选择方法处理后可得到差异矩阵如表2.7所示:表2.7根据表2.2样本集得到的差异矩阵YNoA1A2A3A4A5A6A7A81(1,2)lO1O1012(1,3)1O0O13(1,4)1O0O04(1,5)l1O0O1l15(2,3)O101O06(2,4)O1O0l7(2,5)01O0lO8(3,4)0O01I9(3,5)0lO0OlO(4,5)0l0O01l1根据该算法的步骤(3)可得出:Al=4,A2=4,A3=3,A4=0,A5=2,A6=6,A7=6,A8=6;因此特征{A6,A7,A8}被选入特征选择集R。根据算法的步骤(4)得出差异矩阵】,’,如表2.8所示: 第二章故障诊断中的预处理方法21表2.8差异矩阵l,『A1A2A3A4A5IO0O010O可以看出当去掉特征A1和A2后得到的差异矩阵为全零矩阵,因此最终被选入特征选择集R中的特征为(A1,A2,A6,A7,A8}。2.5本章小结由于本文选择的是ART神经网络聚类算法进行故障诊断,因此在选择数据转换方法时针对ART算法对数据形式的要求,选择了基于阈值的数据转换方法和基于最大一最小规范化的数据转换方法分别对不同类型的数据进行转换,以适应不同的情况。特征选择方法可以去掉那些对聚类结果影响不大的特征,减少了特征集的规模,提高了数据挖掘算法的效率。另外本文对通过向基于一致性的特征选择算法引入灰色理论方法,在一定程度上解决了数值属性取值范围难确定的缺点。 第三章聚类算法在故障诊断中的应用3.1聚类概述聚类算法是数据挖掘算法中的一大类算法,该类算法的基本思想是将关系紧密的样本划分到一个类簇中。很多聚类算法经过多年的研究已经变得很成熟。3.1.1相似性测量聚类算法中几乎所有的地方都要用到样本间的距离以及类簇间的距离。相似性测量的本质就是准确的反映两个样本的相似程度或距离。由于属性的表现形式不同,类簇形状的不同、以及聚类原理的不同就决定了所采用的相似性测量方法的不同。因此相似性测量是聚类算法中非常重要的一个部分。一个典型数据库中一般存在两种属性类型:数值型和符号型。数值型的属性一般有一定的顺序而符号型的属性则是无序的。数值型的属性可以是逻辑值,整数值和实数值。符号型的特征一般为序数或非序数。不同类型的属性需要不同的相似性测量方法。一般来讲,相似性测量的取值范围为区间[0,1],“1”代表相似程度最大,而“0”代表的相似程度最低。相似性测量必须满足自反性和对称性。sim(x,Y)代表样本X和样本Y的相似度。自反性:Vx,sim(x,x)=1对称性;Vx,YMm(x,y)=sim(y,x)自反性表示每个样本和它本身的相似度最大。而对称性则确保了两个样本间的相似度的对比方向的单一。在许多数据挖掘的实际应用中,一般用距离代替相似性测量。两个样本间的距离是非负的,“0”代表距离最短。距离也必须满足自反性和对称性,除此之外还要满足三角不等式。d(x,y)代表样本X和样本Y之间的距离。自反性:Vx,d(x。x)=0对称性:Vx,Yd(x,y)=d(y,工)三角不等式:Vx,Y,zd(x,Y)≤d(x,z)+d(y,z)相似性和距离间的转换方法有很多种,例如,sim(x,Y)=d一一d(x,y)⋯a一一d№3.1.2数值属性的相似性测量方法对于数值属性,距离测量是非常好的一种测量方法。很多满足上述距离测量条件的距离测量方法都被用与数据挖掘领域中。其中Minkowski(闵可夫斯基)距离 基于聚类的故障诊断技术研究测量方法是被应用最广泛的一个。d(五力2√喜k—yr(Millk。wsl【i距离)式(3—1)在Minkowski距离中有3个特例,是大家非常熟悉的:p=l:汉明距离d(x,y)=ZLx,-y,Ip=2:欧几里德距离m棚=√私叫12p=oO:Tschebyshev距离(00一范数)d(x,y)=maxⅢ.2’..,。k-y,I式(3-2)这三种特殊形式的Minkowski距离在数据挖掘中的用途非常广泛。另外一种用于聚类的非常有用的距离计算方法就是Mahalanobis距离(马氏距离),它的定义为d(x,Y)=@一y)7M-1@一y),M是一个正定矩阵称为权值矩阵它是马氏距离最吸引人的地方。马氏距离不但可以归一化距离反映不同属性的重要程度,而且还可反映出属性间的相互关系。很多这方面的研究者提出使用统计的方法,数学编程、遗传算法、模拟退火方法等寻找最佳权值矩阵。此外,权值矩阵必须可以在数据挖掘的不同层面上被修改。其它的在数据挖掘中使用的距离方法有:Camberra距离:J(w)=钝[x,+-只Y,fIDice距离:Jaccard距离:H2∑t只d(x,),)=了』。L了一式(3—6)∑x?+∑Y?,=1t=l∑一Yld(x,),)=i——专L—_『_一∑x?+Zy?一∑一Yf=I,-1,=l 第三章聚类算法在故障诊断中的应用Cosine距离:Overlap距离Correlation距离:d(x,y)=∑x,y,。lmin(Ex-∑J,?)∑(x,一i)(),,一万)f=11/酚一功2酗一乃2I”H式(3-8)式(3-9)式(3-10)(其中i和万表示训练样本集的第i个事件的属性值的均值)Chi—square距离:m棚=善击(土sizex一老](其中sum。表示训练样本集的第i个事件的属性的所有值的和,size,是向量X的所有属性值之和)3.1.3符号属性的相似性测量符号属性的相似性测量与数字属性的相似性测量有很大的不同。符号属性不像数值属性那样有自然的量化顺序特性。大多数数值属性的距离计算方法不能直接运用到符号属性中。例如,在上述所介绍的所有距离计算方法中,只有汉明距离可以用于符号属性。汉明距离用于符号属性时,如果两个样本所对应的属性的取值都相同则距离为“0”,否则距离为“1”。找到一种适用于符号特征的距离计算方法是非常困难的,因为很多距离计算方法用于符号特征的距离计算时,其本身的很多优点都消失了。例如,对符号属性进行标准化是很困难的,可以代表不同符号属性相互关系的权值矩阵的定义目‰薜=),X(J 基于聚类的故障诊断技术研究前还没有人能很明确的给出。尽管如此,很多有效的符号属性的距离方法还是被发现了。值差分方法(VDM)是专门用来计算符号属性之问距离的距离计算方法“。。值差分方法还有几种变形,如异构值差分方法(HVDM)““、内插值差分方法(IVDM)、视窗值差分方法等等。一个简化的VDM(无权值)距离定义如下,属性a中值x和值y的距离如下定义:州w,=砉悟一瓦Na,y,c卜乳厂叫4扪也,其中N。表示训练集T中属性a的值为x的样本个数。Na。。表示训练集T中属性a的值为x的样本属于类c的个数。C表示问题域中样本的种类个数。q是一个常数,通常取1或2。只。,是类c中属性a的值为x的概率,即只。=等(其中Ⅳ。=∑N⋯)。使用vdm。(x,y)计算距离时,当两个值的的分类相似点越多,则两个值的相似度越大同时属性值是否有序是不需要考虑的。Cost等人于1993年提出了另一种基于某个值在该类中发生概率的比率的距离计算方法“”:讹咖爱。l眢一矧扪郴,其中U和v是一个属性里的两个值,C是训练集总的类的个数,e表示第i个类,s。表示该属性的值为U的样本集,,(e,瓯)表示样本集瓯中属于类e的样本数,慨I表示样本集s。的样本总数。很多新的测量分类属性相似度的计算法方法相继被提出,这些方法当然也继承了传统距离计算方法的优点。例如Ganti等人提出的综合测量方法““。综合测量方法的基本思想是通过集合构造出间隔域,相当于通过间隔构造间隔域。设4,⋯,爿。是一个具有D1,⋯见个独立域的分类属性的样本集。数据集D是由元组组成的,每一个元组t:t∈D1×⋯×或。当所有的i∈{1,...,厅},S,∈D,则 第三章聚类算法在故障诊断中的应用S∈S×⋯×S。是一个间隔域。设口,∈Dj,i≠J,则属性值对(口,,a,)在域D中的支持度仃D(口,,口,)的定义如下:盯。(%q)=彬怿∈D:t:r.4=q并且f.4=口,j式(3—14)当所有i∈{1,...,胛),t.A,∈S时,元组t=
此文档下载收益归作者所有