基于聚类的故障诊断技术研究

ID：33175301

大小：1.85 MB

页数：64页

时间：2019-02-21

上传者：U-22107

资源描述：

《基于聚类的故障诊断技术研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

西安电子科技大学硕士学位论文基于聚类的故障诊断技术研究姓名：段霞霞申请学位级别：硕士专业：通信与信息系统指导教师：刘彦明20080101 摘要20世纪80年代以后，以微电子和计算机为代表的自动化大型设备得到了广泛的应用，同时这些设备的故障诊断变得越来越困难，因此各国都很重视故障诊断技术的研究。本文针对故障诊断技术的特点，采用聚类和神经网络相结合的方法，在一定程度上提高了故障诊断系统的智能化程度。通过对K-均值，DBSCAN、CURE、STING、ART(自适应谐振理论)等聚类算法的研究，并对各种算法的性能进行了分析，得出神经网络中的ART算法更适用于故障诊断。因为ART不但继承了神经网络快速的处理速度、学习能力、联想能力，还兼顾了聚类算法的无监督性能，这就一定程度上提高了故障诊断系统的智能化程度。本文针对ART算法中的ARTl和ART2做了重点研究。由于ARTl只能处理二值数据，因此本文首先采用基于阈值的数据转化方法将数据转化成ARTl可以处理的数据形式，然后用基于广义矩阵的O．1特征选择方法，缩减输入ARTl网络的数据的维数。针对ART2可以处理模拟数据的特点，本文首先采用基于最大．最小规范化的数据转化方法对数据进行归一化处理，然后使用基于一致性的特征选择方法降低输入ART2网络的数据维数。针对ART2在处理低维数据时出现的聚类不准确现象，提出了用改变初始权值大小的方法提高聚类的准确性。另外，由于ART2算法出现的聚类中心随着输入模式偏移的现象，严重影响诊断结果正确性，本文采用ART2算法与K一均值算法相结合的方法，有效的抑制聚类中心漂移。由于基于一致性的特征选择方法存在数值特征取值范围难以确定的缺点，本文采用灰色理论建立预测模型的方法，有效的克服了这一问题。最后，通过VisualC++6．0和SQLServer2000两种软件相结合验证了以上方法的可行性。关键词：故障诊断数据挖掘神经网络聚类ART AbstractAfter1980s，thelarge—scaleautomaticequipmentinwhichembedmicro—electronicsandcomputerhasbeenwidelyapplied，meanwhilethefaultdiagnosisoflarge-scaleautomaticisbecomingmoreandmorecomplex,sotheresearchoffaultdiagnosisisveryimportant．Inthisthesisthemethodofcombiningclusteringwimneuralnetworkisusedtoimprovethefaultdiagnosissystem’sintelligentdegree．Clusteringalgorithms，forexampleK—MEANS、DBSCAN、CURE、STING、ART(adaptiveresonancetheory)，havebeenresearchedinthisthesis，aconclusionthatARTismoresuitableforfaultdiagnosiswasgot．BecauseARTnotonlyinheritsthefastprocessingspeed、stronglearningability、associationabilityofneuralnetwork,butalsohastheunsupervisedfeatureofclustering，ARTcouldimprovethefaultdiagnosissystem’Sintelligentdegreeinsomeextent．ARTlandART2，whicharetwoalgorithmsofART,willbestudiedinthisthesismainly．BecauseARTlonlycouldprocessbinarydata,thedataconversionalgorithmbasedonthresholdWasselectedtoconvertthedataintotheformthatATRlcouldprocess，thentheO-1featureselectionalgorithmbasedongeneralizedmarxwasusedtoreducethedimensionsoftheinputdataofARTl．SinceART2couldprocessanalogdata,theMin—maxnormalizationalgorithmWasusedtotransformthedataintotheformthatART2couldprocess；thefeatureselectionalgorithmbasedonconsistencywasusedtoreducethedimensionsoftheinputdataofART2．ThisthesisdevelopsamethodwhichthroughchangestheweightsofART2networktoimprovetheinaccurateclusterphenomenonoccurringwhenART2rapidlyself-organizepattemrecognitioncategoriesinresponsetolow-dimensioninputpatterns．AnART2progressedalgorithmwhichiscomposedofART2algorithmandK—Meansalgorithmisdevelopedinthisthesis，anditcanrestrainthedriftingofclustercentersefficiently．Usinggraytheory,theforecasingmodelWasbuilttoavoidtheproblemthatthefeatureselectionalgorithmbasedonconsistencyisdifficulttodeterminethevaluerangeofnumericalfeature．Attheendofthethesis．throughtheprogramofVisualC++andSQLSenrerpmvedthefeasibilityofabovealgorithms．Keyword：FaultdiagnosisDataminingNeuralnetworkClusteringART 西安电子科技大学学位论文独创性(或创新性)声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：聋：枣鏖关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文和使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复印手段保存论文(保密的论文在解密后遵守此规定)。本学位论文属于保密，在一年解密后适用本授权书。本人签名：导师签名：日期：≯口g．弓．／0 第一章绪论智能故障诊断是近几十年发展起来的一个新的研究课题，它是适应工程实际需要而产生的。20世纪以后，很多设备都是高度集成的，由很多不同功能的模块组成，由于我们所使用的设备的复杂度不断提高，很多设备出现故障时，采用传统的维修方法对设备进行维修的难度越来越大，所以很多发生故障的设备，由于人们无法对其维修，就被废弃掉。根据美国海军有关部门的研究表明，从武器系统拆下的可更换单元中大约70％是没有故障的，经常造成误拆好设备，在资源日益紧缺的今天无疑是对资源的极大浪费。另外，为了防止设备突然发生故障而产生重大灾难性事故，很多单位或企业都采取主动维修的方式即定期维修，减少设备的故障发生率。据美国军方统计，飞机航电系统“无故障”维修竞占总维修工作量的50％。由此可以看出，在大多数时间设备都是运行正常，只有在极少数情况下才出现故障，这就导致很多的主动维修都是多余的，从而浪费了大量的人力和财力。因此，提高设备故障定位的精度，降低设备的维修费用，避免资源的浪费和过剩维修，就成了设备故障诊断需要迫切解决的一个难题。1．1故障诊断的研究现状及发展1．1．1研究背景在60年代，美国军方意识到定期维修的一系列弊病，开始变定期维修为预知维修，也就是在设备正常运行过程中开始监护，以发现潜在的故障因素，及早采取措施，防止突发性故障的产生【”。军方的这种主动维修方式，不仅大大避免了灾害性的设备故障，而且避免了失修和过剩维修，经济效益显著。这种维修方式很快被其它企业采用【l】，故障诊断技术就很快的发展起来了。故障诊断技术具有很强的工程应用背景，实用价值，同时它是以广泛，深厚的理论作为基础的。故障诊断技术涉及概率论，信号处理，计算机科学、控制论等，所以只有很好的开展对理论方面的研究，才能对实际诊断工作提供有力的技术支持。目前现有的故障诊断系统多数是以专家系统为基础建立的。尽管基于规则的诊断专家系统获得了一定的成功，但由于该方法属于反演推理，因而不是一种确保唯一性的推理形式，存在着知识获取困难、知识台阶窄以及控制策略不灵活等缺点。对大型规则库来说，容易产生规则匹配冲突、组合爆炸等问题，而且系统缺乏自学习能力，不适用于复杂系统或经验不足系统的故障诊断。对于大型的诊断对象，其求解过程搜索空间大，速度慢，难以实现实时在线诊断要求。1。本文研究的目的就是寻找一种在没有专家的情况下，可以预测设备故障以及判断出设备故障类型的方法，这种方法不但可以在保证故障诊断系统诊断的正确 2基于聚类的故障诊断技术研究性的条件下，还可以提高故障诊断系统的智能性和处理速度。聚类算法是一种将关系比较密切的样本聚成一类，将关系疏远的样本剔除出去的一种方法，这就非常适合在没有专家的情况下对故障类型进行分类。另外聚类算法还有一个很大的灵活性，那就是可以根据故障样本的实际情况对最后的聚类所得的类簇的数量进行调整。因此，把聚类分析的方法运用到故障诊断中不但可以在没有专家的情况下诊断出设备的故障类型，还增强了故障诊断系统的智能化程度。同时神经网络具有超强的并行运算能力，以及学习能力和联系能力，很适合做故障分类和模式识别。本文采用了一种神经网络聚类算法ART(自适应谐振理论)，该算法将聚类算法和神经网络的优势结合起来，提高了诊断系统的实时诊断能力，同时还使系统的智能化程度向前迈进了一大步。1．1．2研究现状美国军方对智能故障诊断的研究已经取得了很大的进展，并且通过将智能故障诊断投入实际应用已经取得了很大的经济效益。为进一步推进武器装备综合诊断能力的建设，美国国防部于1999年制定了为期8年的开放系统和综合诊断研究计划OSAIDR(OpenSystemAndIntegratedDiagnosisResearch)。该项计划按照以下三个阶段组织实施一，。第一阶段(1999年至2000年)进一步完善基于信息的综合诊断系统结构和综合诊断信息模型；探索协调一致的嵌入式诊断(含BIT)信息交互及使用方法；建立指导和协调综合诊断能力建设的专门机构(如测试与诊断执行局)；提出测试需求分析和测试资源共享等技术标准；编制《美国国防部诊断能力采办指南》等技术手册。第二阶段(2001年至2003年)提交工程化的工具和技术、诊断费效比评估模型：对先进数据处理和诊断技术进行评估；研究可互换的诊断模型、算法和诊断传感器结构；建立测试与诊断管理中心；进一步推动武器装备诊断能力采办计划、全寿命管理及阶段审定程序的执行。第三阶段(2004年至2006年)提出可对系统级综合诊断进行描述的工程化方法组织对先进诊断技术的演示和验证。由于美国军方在智能故障诊断的应用中得到了相当理想的经济效益，因此很多企业纷纷效仿。使智能故障诊断技术在全世界范围内快速的发展起来。很多国家的高校和企业也设立了诊断技术研究中心。很多国际知名的电子公司已经在智能故障诊断研究方面取得了重大进展，并且形成了具有自己特色的故障诊断产品，在宇航、军事、化工等方面得到了广泛的应用。根据故障诊断系统的应用环境和功能，可分为以下四类：便携式检测仪表和第一章绪论3分析仪器、在线监测仪表系统、计算机监测分析与诊断系统、智能诊断系统。其中，便携式检测仪表和分析仪器、在线监测仪表系统和计算机监测分析与诊断系统统称为常规故障诊断系统，这三类故障诊断装置或诊断系统从出现至今，经过不断的改进，已经发展成为成熟的商品，在故障诊断领域发挥了巨大的作用。便携式检测仪表和分析仪器是最早出现的故障检测装置，其主要功能是对检测对象的一些重要运行参数进行测量，分析人员根据测量得到的数据判断检测对象的运行状态。如：振动测量仪、温度测量仪、轴承检测仪等，生产厂家有丹麦的B＆K公司、瑞典的SPM公司等【4】。在线监测仪表系统是继便携式检测仪表和分析仪器之后出现的针对某一具体对象的专用故障监测系统，适用于需要实时监测运行状态的工业生产系统。比较成熟的产品有：德I虱Philips公司的1lMS700系列以及申克公司的VIBROCON--TROL2000系列；瑞士Vibro--MetCr公司的MMS系统等【4】。计算机监测分析与诊断系统的相继出现，是由于便携式检测仪表和分析仪器和一般的在线监测仪表系统无法满足大型系统故障诊断的要求。计算机监测分析与诊断系统不但可以在线实时监测大型系统的运行状态，还可以根据现场的检测数据，实现预测报警、实时故障分析与诊断等功能。典型的产品有：美国Bently公司的Trendmaster2000系统；日本三菱公司的HMH系统；瑞士Ⅵbro—Me—ter公司的Vibro--Turbo系统；加拿大CSl3loo系统；中国清华大学的QH—l系统，华中理工大学的Hz—l系统，哈尔滨工业大学的MMMD--3系统等等【41。国内在故障的智能诊断技术方面的研究起步较晚，但发展较快，并取得了不少成果，如华中理工大学研制成功汽车发动机故障诊断专家系统KB—SED和汽轮机组监测与诊断专家系统；哈尔滨工业大学研制成功大型旋转机械故障诊断专家系统MMMDES；清华大学、四川大学、四川建筑研究院等单位合作，研制了单层厂房破损评估的专家系统raise．1，araise．1等系统；冶金部建筑研究总院研制了混凝土结构裂缝诊断对策专家系统、单层R．c．厂房综合可靠性评定专家系统。另外，如西安交通大学、东北大学等在大型旋转机械故障诊断中，都成功的应用了神经网络技术“1。1．1．3系统模型自动故障诊断软件系统的设计需要考虑数据采集技术，数字信号处理、数据库技术、软件工程技术、数据挖掘技术等。因此，设计故障诊断软件时不但要考虑到它能否正确检测故障的同时，还要考虑到软件的实用性、软件的各个功能块连接的紧密性、以及软件的可扩展性等。与其它的故障诊断系统相比，本文的故障诊断系统具有更多的智能和自学习 4基于聚类的故障诊断技术研究能力。它不但可以辨别出已知的故障类型，还可以对未知的故障类型进行学习，从而辨别出未知的故障类型。一个合格的故障诊断系统不仅可以进行简单的故障分类，而且应该具有一定的自学习能力、故障预测能力，这样就可以大量简化系统管理员的工作，保证系统的安全运行。具体说，一个故障诊断系统应该具有以下功能：(1)随时监测设备的运行情况。(2)具有对设备故障的预测能力。(3)识别已知的故障类型并对未知故障进行学习。(4)可扩展性，即有加入新的诊断方法的能力。(5)用户可以很容易的操作故障诊断软件。图1．1故障诊断系统实现图图1．1所示的故障诊断系统既包括软件部分又包括硬件部分，本文主要针对软件部分进行介绍。首先该故障诊断系统主要由数据采集、数据预处理、数据挖掘算法和人机交互界面组成。(1)数据采集：数据采集的目的就是从设备的各个部位中采集到真实可用的数据。这些数据主要是数据采集卡通过从与设备各个关键部位相连的传感器以及一些仪器仪表中采集到的。所以首先要确定的就是设备的哪些部位对设备的正常运行起作用。本文采用Labview软件采集传感器产生的数据，并将采集到的数据存储到数据库中，便于后面的算法调用。(2)数据预处理：从图1．1可以看出数据预处理部分有三个模块组成：数据清洗、数据转换和维数规约。其中数据清洗是数据预处理的第一步，在这一步中需要对数据的不完整性，不一致性以及数据中的噪声进行处理。数据转换的目的是将数据的形式变成数据挖掘算法可以处理的形式。维数归约主要是将数据中对故障分类不起作用的数据维去掉，这也就可以减小数据挖掘算法处理的数据量，并且提高数据挖掘的效率以及准确率。本文根据数据挖掘算法对数据形式的具体要求以及数据的特点对数据进行相应的预处理，如阈值预处理方法、区间映射预处第一章绪论5理方法、以及聚类预处理方法等。(3)数据挖掘算法：数据挖掘算法是整个故障诊断系统的核心部分，因为不同的数据就决定了使用什么样的数据挖掘算法。当选择的数据挖掘算法适当时，得到的数据挖掘结果就更准确。对数据挖掘算法的选择一定要慎重，一是要从数据的属性出发，二是要从数据挖掘算法处理的数据类型以及其算法的功能出发。本文采取神经网络中的聚类算法正是从这两个方面考虑的，同时也考虑到了实时数据处理的因素。(4)故障规则：故障规则是通过数据挖掘算法对预处理后的数据进行挖掘后得到的。它反映的是故障数据中隐藏的一种规律，也就是设备故障发生的规律，它是最终我们需要得到的最有价值的部分。(5)故障决策：故障决策的目的就是让实时采集到的数据通过预处理后和故障规则匹配，当数据与那一个规则匹配时就说明设备有没有故障，如果有故障则判断该故障属于哪一类故障，并提供一个故障解释的功能。(6)人机交互界面：人机交互界面的目的就是建立一个用户与故障诊断系统相互联系的接口。这里计算机用人们能看懂的语言显示故障信息，以便用户对系统的操作。本文采用VisualC++6．0作为软件开发平台，因为它不但提供了友好的软件界面，而且提供了良好的接口和稳定性。1．1．4关键技术故障诊断中的关键技术主要有：数据采集，故障数据预处理和故障诊断方法。数据采集是故障诊断技术的第一步，因为设备诊断技术从设备的症状入手进行分析研究。设备症状指机器运行时产生的代表其状态的各种信号。只有采集到的信号真实的反映了设备的实际状态，诊断的后续工作才有意义。这就好像如果向系统输入的数据是失真的，那检测到的结果就是不准确的。数据采集技术包括数据的采集、放大、缩小、取整等，其中对传感器的研究是数据采集中的研究热点。故障数据预处理是故障诊断中不可缺少的一个步骤，它的主要目的有四个：第一，使存储在数据库中的大量庞杂数据变得即有条理又统一；第二，防止数据受噪声，空缺数据和不一致性数据的侵扰；第三，提高数据的质量，从而提高挖掘结果的质量；第四，使挖掘过程更有效，更容易。数据预处理方法主要包括：数据清洗、数据集成和变换、数据规约。诊断方法的研究是设备诊断技术的核心。故障诊断的实质就是判断设备工作是否正常，如果不正常判断出故障原因。原始的诊断方法是“手摸，耳听，眼看”，然后凭经验做出故障原因分析。这种用原始的方法判断设备的故障类型变的越来 6基于聚类的故障诊断技术研究越困难，并且不能预测故障的发生，这就使重大故障发生之前不能有效的防止故障的发生，从而导致重大的经济损失和资源浪费。因此现在的诊断方法就不能以人为主导因素，必须以人工智能的方法为基础实现故障诊断的自动化和智能化。在现代化的智能诊断技术中，专家系统的研究起步比较早，现在已经有了成功的应用，但是专家系统是以大量的先验知识为前提的，而现实中这些先验知识往往不容易得到，所以就需要一种具有自学习能力的方法来实现故障诊断的智能化。而神经网络恰好具有这种自学习的能力及联想能力，同时它还具有强大的并行计算的能力，所以神经网络非常适用于大型设备的故障诊断。自适应谐振理论(ART)是神经网络中的一种由人类的视觉系统得到启发建立起来的一种无监督的聚类方法。ART(自适应谐振理论)神经网络可以在非平稳的，有干扰的情况下进行无教师无监督的自学习，学习过程是实时性的，并且能够迅速识别己学习过的样本，同时又能够迅速适应未学习过的新样本。所以ART神经网络非常适合智能故障诊断的要求。1．2．1简介1．2聚类算法的研究现状聚类算法只分析数据对象，而不考虑己知的类标记(决策属性)。一般情况下，训练数据中不提供类标记，因为不知道从何开始。聚类，可以用于产生这种类标记。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。这种方法已经广泛的用于许多领域中，包括模式识别、数据分析、图像处理、以及市场研究等”1。通过聚类，可以识别密集的和稀疏的领域，因而发现全局的分布模式，以及数据属性之间的有趣的相互关系。因此聚类分析为数据挖掘提供了一组非常有用的分析方法。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。基于聚类分析方法的空间数据挖掘算法包括均值近似法、CLARANS、BIRCH、DBSCAN等算法。1．2．2主要问题聚类算法在故障诊断中有着非常广泛的应用。但是目前的应用还存在着很多问题，虽然聚类算法在故障诊断系统中的应用提高了故障诊断的智能化程度，但是对聚类结果的解释还需要人工的参与。另外，由于故障诊断领域中故障数据本身所具有的高维性、复杂性、动态性以及规模大的特点，使聚类结果存在精度不高的问题。针对聚类结果解释难的问题，可以尝试将专家系统或其它方法与聚类算法相第一章绪论7结合的方法来克服这一缺点。针对故障诊断中聚类算法的聚类结果精度不高的问题啪，可以采用以下方法来提高聚类结果的精度o’：(1)融合不同的聚类思想形成新的聚类算法，从而综合利用不同聚类算法的优点。(2)处理大规模数据和高维数据的能力，这是故障诊断中聚类算法必须解决的关键问题。(3)对聚类的结果进行准确评价，以判断是否达到最优解，这也自然要求聚类结果具有可解释性。(4)对数据进行合理的预处理，以便获得更准确的聚类结果。(5)在聚类过程中使用合适的相似计算公式及评价准则。合理的相似性评判准则对聚类结果的准确性起着不容忽视的作用。(6)将领域知识引入聚类过程。领域知识的引入不仅有助于选择合适的模式表达机制、选择合适的聚类算法，还能使以上很多方面的问题都能得到合理的解决，从而相应的提高聚类算法的性能。1．3本文研究内容本文研究的主要内容就是故障诊断算法的软件实现及算法改进，同时还研究了数据预处理对故障诊断方法的影响，另外针对整个故障诊断系统的实现提出了一个总体的框架。首先，本文一方面充分研究数据采集技术，数字信号处理、数据库技术、软件工程技术、数据挖掘技术，同时考虑到智能故障诊断软件的实用性、软件的各个功能块连接的紧密性、以及软件的可扩展性，设计出了一个切实可行的故障诊断系统实现框架。其次，考虑到数据的预处理部分对故障诊断结果的影响，本文也对数据预处理部分做了深入的研究。从传感器采集到的原始信号入手，采用数字滤波的方法将原始信号中的噪声滤除，然后使用特征选择的方法把对故障的判断影响不大的属性去除，最后根据所采用的故障诊断方法对数据的具体要求，将数据的表现形式转化成故障诊断方法可以处理的数据形式。最后，对故障诊断方法中的聚类算法进行了重点研究，包括经典的K．均值，DBSCAN，ART等算法，并对各种算法的性能进行了分析得出神经网络中的ART算法更适合用于故障诊断。研究了ARTl和ART2的适用情况，以及其各自的预处理方法。由于ARTl只能处理二值数据，因此特别适用于处理具有阈值特性的数据。ART2(自适应谐振理论2)可对模拟的故障数据进行分析，既可以避免预处理对数据进行离散化带来的数据失真，从而提高故障聚类的准确率，同时又提高 8基于聚类的故障诊断技术研究了数据挖掘的速度。针对ART2在处理低维数据时出现的聚类不准确的现象提出了用改变初始权值大小的方法来提高聚类的准确性。同时针对ART2算法中出现的聚类中心随着输入模式而发生偏移的现象，本文采用ART2算法与K一均值算法相结合的方法有效抑制了ART2聚类中心的漂移。并且通过VisualC++6．0和SQLServer2000两种软件相结合验证了以上方法的可行性。第二章故障诊断中的预处理方法9在现实生活中数据采集极易受一些突发因素的影响，比如设备某个部位的传感器出现周期性的异常，这就导致采集到数据的某个属性出现周期性的异常现象。另外，用于存储数据的数据库也极易收到噪声数据，空缺数据和不一致数据的侵扰，由于数据库存储的数据量相当庞大，因此就需要用适当的预处理方法对这些数据进行统一的处理。数据预处理技术可以提高数据的质量，从而有助于提高其后的故障诊断的精度和性能。由于高质量的决策必然依赖于高质量的数据，所以数据预处理是故障诊断中非常关键的一步，它直接影响到故障诊断结果的准确性。数据预处理的目的就是把从传感器，仪表采集到的数据中包含的噪音，空值以及与故障类型无关的属性去掉。所以数据预处理就是一个数据的存精华去糟粕的过程。2．1故障诊断中的数据预处理故障诊断中的预处理部分由信号的预处理，数据变换和维数约简三个主要部分组成。在故障诊断中，传感器采集的信号，称为原始信号，其中一部分是可以直接利用的，如温度，位移等，但是大部分是很难直接利用，如振动信号，由于其含有噪声，所以从时域波形上很难反映问题。所以必须使用信号分析与处理的方法去除噪声并把信号转化在不同的域内进行分析，才能得到更能敏感反映机器状态的属性“1。根据故障诊断系统所使用的数据挖掘算法的不同，对数据形式的要求也会相应的不同，所以采用的预处理的方法也会相应的不同。因为本文中使用的是基于神经网络的聚类方法，众所周知，这是一种基于距离的挖掘算法，所以数据必须按比例映射到一个特定的区间，这样才能的到较好的结果。维数约简的目的是将故障诊断中对故障的决策影响不大或没有影响的属性去掉，以缩减数据集，提高故障诊断算法的效率。数据预处理的优点主要有以下几个方面：(1)确保数据的完整性。(2)确保数据的准确性。(3)确保数据的一致性。(4)减小数据的冗余度。(5)为数据挖掘算法提供高质量的数据。 10基于聚类的故障诊断技术研究2．2信号的预处理方法故障诊断中一般采用信号的预处理方法对数据进行清洗，从而达到平滑噪声数据，识别、删除孤立点的作用。传感器输出的信号是模拟信号，所以必须经过采样和A／D才能转换成计算机可以处理的数字信号。采样和A／D转换一般可以通过数据采集卡以及配套的软件如Labview，就可以完成。3。但是我们所得到的这些信号往往含有混杂在有用信号中的噪声，所以必须通过信号处理的方式将信号中的噪声过滤掉，得到信息量高的信号，这就是数据预处理中的数据清洗。为了降低成本，提高系统的可靠性，一般采用软件的方式来实现信号的预处理。信号预处理的算法来源于数字滤波中所采用的方法，所以编写信号预处理程序时采用的算法依据是数字滤波的算法。数字滤波方法与模拟RC滤波方法相比具有以下优点“1：(1)数字滤波方法不需要硬件设备，所以不存在阻抗匹配问题，并且可以对很高的频率和很低的频率进行滤波，这是Rc模拟滤波方法难以实现的。(2)多个通道可以共用一套数字滤波程序，从而降低仪器的硬件成本。(3)数字滤波具有RC没有的灵活性，就是可以通过改变参数来处理不同传感器输出的信号。不同的数字滤波方法适用于不同的信号类型及环境，可以用于故障诊断的数字滤波方法有：1．限幅滤波法限幅滤波法主要用于抑制缓慢变化信号中的尖脉冲干扰。虽然限幅滤波法能有效克服因偶然因素引起的脉冲干扰，但是它无法抑制那种周期性的干扰，平滑度比较差。当然有人就会产生疑问设备产生故障时，传感器输出的信号中就有可能出现突变，这样如果使用限幅滤法波对信号进行处理，则故障信号就会被滤除掉。其实，并不是这样的，因为设备产生故障时，传感器输出的故障信号并不是一个尖脉冲，而是出现一个阶跃波形，因此使用限幅滤波法对传感器输出的信号进行滤波并不会把故障信号率除掉，而是把信号中的噪声干扰率除掉。限幅滤波算法：初始化：本次预采样值y。，口两次预采样值只差的最大可能值(a的设置取决于采样周期T及Y值的变化动态向应，常取经验值)输入：本次采样值y。方法：(1)如果ly。一y。1≤口，则y。的值不变(2)如果ly。-y¨I>口，则把Y。的值赋给Y。q 第二章故障诊断中的预处理方法2．中值滤波法中值滤波法对缓慢变化的信号中由于偶然因素引起的脉冲干扰有良好的滤波效果，对温度、液位等变化缓慢的被测参数有良好的滤波效果，但是对流量、速度等快速变化的参数不宜。方法：(1)连续采样n次(n取奇数．一般大于3)(2)把n次采样值按大小排列(3)取中间值为本次有效值3．算术平均滤波法算术平均滤波法适用于对具有随机干扰的信号进行滤波，这样信号的特点是有一个平均值，信号在某一数值范围附近上下波动，所以该算法适用于对压力、流量等周期脉冲的采样值进行平滑加工。但是对于测量速度较慢或要求数据计算速度较快的实时控制不适用，比较浪费RAM。方法：连续取n个采样值只进行算术平均运算歹=圭∑只。n值较大时，信号平滑度较高，但灵敏度较低；n值较小时，信号平滑度较11德t-，但灵敏度较高。n值的选取：一般流量，n=12；压力，n=4。4．递推平均滤波法递推平均滤波法(又称滑动平均滤波法)对周期性干扰有良好的抑制作用，平滑度高，适用于高频振荡的系统；但是灵敏度低，对偶然出现的脉冲性干扰的抑制作用较差，易消除由于脉冲干扰所引起的采样值偏差，不适用于脉冲干扰比较严重的场合，比较浪费RAM。方法：连续取n个采样值作为一个队列，队列的长度固定为n，每次采样到一个新数据放入队尾，并扔掉原来队首的一个数据。把队列中的r1个数据进行算术1n-I平均运算y。=去∑y。，就可获得新的滤波结果。n值的选取：流量，n=12；压’‘i=O力：n=4；液面，n=4～12；温度，n=1～4。5．一阶滞后滤波法一阶滞后滤波法对周期性干扰具有良好的抑制作用，适用于波动频率较高的场合；但是相位滞后，灵敏度低(滞后程度取决于a值大小)，不能消除滤波频率高于采样频率的l／2的干扰信号。方法：取口=—毛，其中f为滤波环节的时间常数，T为采样周期；计算本次 12基于聚类的故障诊断技术研究滤波结果Y。=(1一口)％+掣。，其中儿为本次采样值，以为上次滤波结果。6．加权递推平均滤波法加权递推平均滤波法适用于有较大纯滞后时间常数的对象和采样周期较短的系统；但是对于纯滞后时间常数较小，采样周期较长，变化缓慢的信号不能迅速反应系统当前所受干扰的严重程度，滤波效果差。方法：是对递推平均滤波法的改进，即不同时刻的数据加以不同的权值c，，y。=圭∑c—Y，，其中∑q=1。通常是，越接近当前时刻的数据，权取得越大。，‘I=0f=0给予新采样值的权系数越大，则灵敏度越高，但信号平滑度越低“”。以上所介绍的是一些常用的软件实现的数字滤波方法，从每个数字滤波方法所适用的环境可以看出，不同的传感器输出的信号，需要不同的滤波方法去处理因此如果想得到真实的，纯净信号就必须对传感器输出的信号进行滤波处理。2．3数据转化所谓数据转化就是将存储在数据库中的数据转化成数据挖掘算法可以处理的数据形式。根据使用的数据挖掘算法对数据形式的要求以及数据本身的特点，选择适当的数据转化方法可以提高故障诊断的效率。2．3．1基于阈值的数据转化方法阈值的概念：将故障定义中的“可以接受的范围”定义为一个实数值序列，其中每一个分量作为故障特征与正常特征偏差对应分量的阂值，偏差超过了阈值被认为是超出了可接受的范围，因而此分量定义为故障分量；偏差在阈值以内则认为没有超出可接受的范围，定义为正常分量。基于阈值的数据转化方法可以将那些具有阈值特征的数据转化成二值数据““。表2．1显示某一液压系统的故障机理，从该表中可以看出，故障样本的属性值有些是分类型的，有些是数值型的，不管是分类型还是数值型，都有～定的范围。表2．1中的有些样本的属性可以直接转换成二值数据，如液位监测报警和高压油滤报警，正常时用“0”表示，异常时用“1”表示。而象其它的属性，如供油量，供油油温等所采集到的数据都是实数，但是这些数据都有一个阈值，因此可以通过阈值将这些数据转换成二值数据。设属性液位监测报警，高压油滤报警、供油流量、供油油温、供油压力、冷却器水温、油泵转速、发动机转速度分别为A1，A2、A3、A4、A5、A6、A7、A8。例如属性A3必须大于60L／min。由于样本1，3，4，5的第二章故障诊断中的预处理方法13A3属性值都大于60L／min，这时样本1，3，4，5的A3属性的取值就可以取为“0”，而样本2的A3属性的值小于60L／rain，所以样本2的A3属性的值可以取“l”。依次类推，属性A4、A5、A6、A7、A8都可以按照样本2的数值转换方法进行二值转换。表2．1某液压系统的原始标准故障样本集及故障机理属性样本1样本2样本3样本4样本5液位监测报警A1异常正常高压油滤报警A2正常异常供油流量(>-60L／min)804080A3供油油温(≤40℃)A435383539供油压力(18Mpa)A518．213．218．2冷却器水温(≤80℃)A660856082油泵转速(2000—19002500025004000r／min)A7发动机转速度(1500—13021502O15021800i‘／min)A8故障类型驱动响应迟启动难或系统过热不能启燃料过滤缓和怠速不者不稳定，突停，烟雾动器堵塞稳发动机乏过多(Fault(FaultNu(FaultNuml)力(FaultNumNum4)m5)(FaultNum3)2)注：故障类型的机理分析FaultNuml：由液位异常和转速偏低，可以判断出可能存在燃油泄漏、燃油供油不足、载荷过大、以及缺乏润滑等因素。FaultNum2：供油油量偏低、供油压力偏小，由此可能判断可能由燃油泄漏、喷油正时不对、喷油泵供油不足、燃料过低等原因造成。FaultNum3：油温和冷却器的水温都大大超过了额定值，可能由燃料过滤器堵塞、油液被污染、冷却装置异常、过滤器太脏等原因引起。FaultNum4：油泵转速、发动机转速度都为零，具体原因可能由燃料没有了、插件松动、缺乏润滑、载荷过大、喷油泵供油不足、燃料过滤器堵塞等原因引起FaultNum5：燃料过滤器长时间没有清洗或油中的杂质过多。表2．1中的数据经过阈值方法处理以后，可以得到表2．2所示的一个二值故障样本集： 14基于聚类的故障诊断技术研究表2．2某液压系统的二值故障样本集A1A2A3A4A5A6A7A8样本1lO01l样本2O10l0O样本3O0O0lO样本4O01样本5O10O10O2．3．2基于最大一最小规范化的数据转化方法聚类算法要求所处理数据的取值必须在[0，1]之间，因此就需要使用一些方法将数据库中采集到的数据映射到区间[0，1]。本文采用聚类算法中最常用的相似度计算的方法来映射。一般情况下数字型属性使用欧几里德距离进行处理，而分类型的属性则通过汉明距离进行处理。表2．3某数据集属性1属性2属性3属性4样本11．02100018．5120样本22．03150018．5130样本3O．99130016．5190样本32．03150017．9150样本50．0985013．4160样本6O．0465016．8160如表2．3所示的某一数据集，其每个属性的数量级都不同，属性1与属性2的数量集相差很大，因此在相似度计算过程中很容易将属性1忽略掉。下面将使用最简单的映射方法，对表2．3中的数据集进行预处理：x’．兰二兰婴lxM一工mm根据公式(2—1)可得到预处理后的数据集如表2．4所示：第二章故障诊断中的预处理方法15表2．4某数据集的聚类预处理结果属性1属性2属性3属性4样本10．4925O．411810样本21l10．1429样本30．4774O．76470．60781样本31l0．88240．4286样本50．02510．2352O0．5714样本600．6666O．5714从表2．4中可以看出，表2．3中的数据经过预处理以后所有属性的值都介于[O，1]之间，此时我们可以看到属性1和属性2属于同一个数量级。这样故障样本集中的每个属性的数量级都一样，在聚类的相似度计算时对故障类别的影响大的属性就不会被忽略掉。2．4特征选择特征提取与选择的基本任务就是研究如何从众多特征中求出那些对分类识别最有效的特征，从而实现特征空间维数的压缩。特征选择的问题在数据挖掘，机器学习、统计学、模式识别等领域中已经研究了很多年。经过多年的研究，人们发现了很多特征选择的方法“”。特征选择方法都有四个主要的步骤：(1)用一个生成程序来生成下一个候选子集。(2)一个评估函数来评估来检测子集。(3)一个终止条件来决定什么时候停止。(4)一个确认程序检查子集是否有效。在特征选择的方法中，评价函数起到一个关键的作用。评价函数可以分为五类：类散度，信息理论、集群成本、一致性和分类错误率。2．4．1基于一致性的特征选择方法一致性评价函数在降低计算复杂度方面是非常有效的。如果特征选择后的子集和原始集的个体识别率是相同的，则说明子集和原始集是一致的。第一个将一致性作为评价函数的是由Skowron等人于1992年提出的““，之后Dash等人对该方法做了进一步的研究。但是使用一致性作为评价函数的一个缺点就是它不能区分大的和小的分辨率。这样，特征选择就会遭受低分辨率属性的影响，比如噪声。另一方面，相似性测量是聚类中非常关键的部分。传统的相似性测量只用于样本和类簇。它们被用于计算样本间，类簇间、样本和类簇间的距离。这里我们 16基于聚类的故障诊断技术研究将介绍一致性作为评价函数时的特征选择方法。分辨矩阵：聚类中距离可以定义成一个函数：d：XXX斗R一般情况下聚类距离满足下面的条件：Vx∈X，d(x，x)=0Vx，Y∈肖，d(x，)，)=d(y，功Vx，Y，z∈X，d(x，z)≤d(x，y)+d(y，z)欧几里德距离一般用来计算数值属性(如实数或整数向量)的相似程度，而汉明距离一般用来计算符号属性的相似程度。很多其它的相似性计算方法被用来处理不同的属性：数字的，分类的以及集合与属性(点到点，点到集合)。这里还要引入一个概念，那就是分辨率。它是一个数据集一致性特性的基础。一个样本集A中的样本X和Y的分辨率的定义如下：至少存在一个属性a∈A，使x(口)≠y(口)。分辨率这一概念作为一个基本概念已经被用于粗糙集理论以及其它领域中。不同的分辨率之间并没有什么差别，也就是差别大的和差别小的是同等对待的。但是通过仔细的观察发现不同的分辨率有更深一层的意义，例如，如果某个特征值由于噪声引起了与原始值的偏差，这个小的偏差就可以被忽略掉。一般情况下，具有小的差别的特征选择子集将不会被选择，只有具有大的差别的特征选择子集才会被选择。这里有几种方法可以确定每个特征的分辨率能力。第一种方法来自于特征的归一化距离，在实际的数据挖掘应用中，特征具有不同的表现形式以及取值范围，因此使用不同的相似度测量方法或距离计算方法进行计算。为了比较的方便，距离需要归一化到区间[0，1]，0代表最小距离，1代表最大距离“”。在归一化后，就可以建立一个分辨矩阵。在这个矩阵中，每一行代表具有不同类指数的样本对，每一类代表特征集。该矩阵中的每一个元素表示两个来自不同类的相应实例的距离。例如，假设一个数据集如表2．5所示，这里特征l和特征3都是数字型的特征，特征2和特征4都是分类型的特征。第二章故障诊断中的预处理方法17表2．5某个数据集N0FeaturelFeature2Feature3Feature411．262．79BrightHj曲22．003．69DarkLow31．501．80GrayHi曲4O．680．98GrayHi曲5O．962．30DarkLow62．601．68BrightMedium假设每一对样本都是唯一的，数字型的特征用欧几里德距离进行测量并且归一化，方法为d(_，x：)=i‰。分类型的特征用汉明距离进行测量。则表2．5中的数据集的分辨矩阵将由表2．6给出：表2．6分辨矩阵No．InstancePairFeaturelFeature2Feature3Feature41(1，2)0．3850．33212(1，3)0．1250．365l03(1，4)0．3020．668104(1．5)0．1560．1811l5(1，6)0．6980．410016(2，3)0．2600．697l7(2，4)0．68818(2，5)0．542O．513O09(2，6)0．3130．742l10(3，4)0．4270．303011(3，5)0．2810．185112(3，6)0．5730．044l113“，5)0．1460．103l114(4。6)10．258115(5，6)0．8540．2291分辨矩阵中与特征相对应的样本对为每个特征提供了一个分辨能力计量。使用这个分辨矩阵进行特征选择的方法有很多种，例如在粗糙集中使用该方式达到特征的约简。另一种方式就是将分辨率作为一个评价函数进行特征选择，这种方法首先使用分辨矩阵为特征选择生成一个索引，这个索引代表哪一个特征将被优先 18基于聚类的故障诊断技术研究选择。下面所示的算法就是一个将分辨率作为评价函数的特征选择算法。在这个算法中每一个特征将根据索引被分类，每循环一次，就有一个特征被添加到被选的子集中。这个过程一直持续到一致性的条件被达到，举个例子，也就是说，矩阵中每一行的样本对所对应的被选择的特征至少有一个非零值。分辨率作为评价函数的特征选择算法：(1)归一化特征值。(2)为每一个样本对应的特征建立一个分辨矩阵。(3)计算每一特征的索引值。(4)根据分辨率对特征进行分类。(5)从分辨率最大的特征开始，将特征添加到特征选择子集中。(6)检查分辨矩阵的每一行的样本对所对应的特征是否有一个非零值，如果有，则停止，否则返回(4)。该算法中索引值的选择是非常重要的一个问题，它直接影响到特征选择的结果。例如，如果选平均相似度为索引值，表2．6中的索引值分别为：Featurel=0．45Feature2=0．402Feature3=0．8Feature4=0．73从分辨率作为评价函数的特征选择算法中可以看出，特征Feature3被第一个选出，从表2．6中可以看出Feature3覆盖了样本{l，2，3，4，6，7，9，11，12，13，14，15)，它不包含样本{5，8，10)。接着被选出的特征为Feature4，它包含样本{5)。最后，Featurel被选出，它包含样本{8，10)。因此，最后得到的特征选择子集中的特征为Featurel，Feature3和Feature4。2．4．2基于一致性的特征选择方法改进从2．4．1中基于一致性的特征选择算法可以看出这种算法需要知道数值特征的取值范围，才能计算出分辨矩阵。但是在现实中，由于环境以及设备运行中出现的一些不确定因素，要获取特征的取值范围并不是很容易。因此为了使该算法更加适用于故障诊断，还需要在算法的实现上做出以下的改进：(1)尽量获得足够多的数据。(2)实现算法时，要将算法设计成一个开放的算法。(3)数值特征的最大值和最小值应该随采集到的数据而变化。本文采用灰色理论预测数值特征取值范围的方法来克服基于一致性的特征选择方法的缺点。灰色理论是一种通过建模来预测事物的发展和变化的方法。第二章故障诊断中的预处理方法19基于灰色系统动态模型GM的灰色系统动态模型的构造方法【11：GM(1，1)模型为型攀+甜㈣(r)：Ⅳ式(2-2)盈～因而有或x(1’(r)=h‘1’(0)一-U]e一“+兰式(2．3)口ax(1’(|j}+1)=[x【1’(O)一兰k一础+兰口其中数据个数k=1,2，⋯⋯，刀，待识别的参数口和变量U由下式决定a=陋，“】7=(B7B)+B7E其中B=一抄1】(1)叫2)】一扣1)(2)州3)】：一三[x(1’("一1)+x(疗)】式(2．4)式(2．6)E=【Xo(2)，xo(3)，⋯⋯，Xo(以)】7式(2．7)叠‘o’(七)=章‘1’(七)一曼‘1’(七一1)式(2．8)根据灰色理论可以为一个数值特征建立一个短期的预测模型，来预测该特征的短期的取值范围，这样不但节省了预处理的时间，同时又解决了数值特征取值范围获取难的问题。算法改进：(1)获得数据。(2)通过灰色理论为每一个数值特征建立GM(1，1)模型，预测该特征的取值范围。(3)通过基于一致性的特征选择算法进行特征提取。(4)定期执行步骤(2)。2．4．3基于广义差异矩阵的0-1特征选择方法基于广义差异矩阵的0一l特征选择方法是专门针对二值数据的样本集进行特基于聚类的故障诊断技术研究征选择的。因此这个方法可以对阈值转换后的数据进行特征选择。基于广义差异矩阵的0-1特征选择算法““：(1)构造信息集U的差异矩阵Y，Y的元素Y。(f，J)表示U中任意两个样本U，和“，在特征G上的差异性。若U，和U，在特征G上的取值相同，矩阵中的元素Yt(f，J)=0，否则Yt(f，J)=1。(2)令索引值为R=①，将广义差异矩阵中的行中只有一个值为1所在的列对应的特征C．(为核特征)加入到R，即R=RuC．，(可能有多个核特征)。(3)去掉特征c．所在列中值为1的所有行，计算其余特征所对应列的值的和k=∑Y。(f，，)k=1,2⋯··式(2—9)(4)取满足下列式子的厶。’k=哪x∑儿(f，_，)k=1,2⋯一式(2一lo)说明特征c。能区分的样本对(“，，“．)最多，它的区分能力最强，最重要，首先加入的特征选择集R中，即R=RuC。。(5)删除特征C。列中值为l所对应的行的其它特征，从而得到新的差异矩阵I，。，返回到(3)。(6)直到l，’为零矩阵为止，得到特征选择集R。以表2．2这中的数据集为例，经过基于广义差异矩阵的0．1特征选择方法处理后可得到差异矩阵如表2．7所示：表2．7根据表2．2样本集得到的差异矩阵YNoA1A2A3A4A5A6A7A81(1，2)lO1O1012(1，3)1O0O13(1，4)1O0O04(1，5)l1O0O1l15(2，3)O101O06(2，4)O1O0l7(2，5)01O0lO8(3，4)0O01I9(3，5)0lO0OlO(4，5)0l0O01l1根据该算法的步骤(3)可得出：Al=4，A2=4，A3=3，A4=0，A5=2，A6=6，A7=6，A8=6；因此特征{A6，A7，A8}被选入特征选择集R。根据算法的步骤(4)得出差异矩阵】，’，如表2．8所示：第二章故障诊断中的预处理方法21表2．8差异矩阵l，『A1A2A3A4A5IO0O010O可以看出当去掉特征A1和A2后得到的差异矩阵为全零矩阵，因此最终被选入特征选择集R中的特征为(A1，A2，A6，A7，A8}。2．5本章小结由于本文选择的是ART神经网络聚类算法进行故障诊断，因此在选择数据转换方法时针对ART算法对数据形式的要求，选择了基于阈值的数据转换方法和基于最大一最小规范化的数据转换方法分别对不同类型的数据进行转换，以适应不同的情况。特征选择方法可以去掉那些对聚类结果影响不大的特征，减少了特征集的规模，提高了数据挖掘算法的效率。另外本文对通过向基于一致性的特征选择算法引入灰色理论方法，在一定程度上解决了数值属性取值范围难确定的缺点。第三章聚类算法在故障诊断中的应用3．1聚类概述聚类算法是数据挖掘算法中的一大类算法，该类算法的基本思想是将关系紧密的样本划分到一个类簇中。很多聚类算法经过多年的研究已经变得很成熟。3．1．1相似性测量聚类算法中几乎所有的地方都要用到样本间的距离以及类簇间的距离。相似性测量的本质就是准确的反映两个样本的相似程度或距离。由于属性的表现形式不同，类簇形状的不同、以及聚类原理的不同就决定了所采用的相似性测量方法的不同。因此相似性测量是聚类算法中非常重要的一个部分。一个典型数据库中一般存在两种属性类型：数值型和符号型。数值型的属性一般有一定的顺序而符号型的属性则是无序的。数值型的属性可以是逻辑值，整数值和实数值。符号型的特征一般为序数或非序数。不同类型的属性需要不同的相似性测量方法。一般来讲，相似性测量的取值范围为区间[0，1]，“1”代表相似程度最大，而“0”代表的相似程度最低。相似性测量必须满足自反性和对称性。sim(x，Y)代表样本X和样本Y的相似度。自反性：Vx，sim(x，x)=1对称性；Vx，YMm(x，y)=sim(y，x)自反性表示每个样本和它本身的相似度最大。而对称性则确保了两个样本间的相似度的对比方向的单一。在许多数据挖掘的实际应用中，一般用距离代替相似性测量。两个样本间的距离是非负的，“0”代表距离最短。距离也必须满足自反性和对称性，除此之外还要满足三角不等式。d(x，y)代表样本X和样本Y之间的距离。自反性：Vx，d(x。x)=0对称性：Vx，Yd(x，y)=d(y，工)三角不等式：Vx，Y，zd(x，Y)≤d(x，z)+d(y，z)相似性和距离间的转换方法有很多种，例如，sim(x，Y)=d一一d(x，y)⋯a一一d№3．1．2数值属性的相似性测量方法对于数值属性，距离测量是非常好的一种测量方法。很多满足上述距离测量条件的距离测量方法都被用与数据挖掘领域中。其中Minkowski(闵可夫斯基)距离基于聚类的故障诊断技术研究测量方法是被应用最广泛的一个。d(五力2√喜k—yr(Millk。wsl【i距离)式(3—1)在Minkowski距离中有3个特例，是大家非常熟悉的：p=l：汉明距离d(x，y)=ZLx，-y，Ip=2：欧几里德距离m棚=√私叫12p=oO：Tschebyshev距离(00一范数)d(x，y)=maxⅢ．2’．．，。k-y，I式(3-2)这三种特殊形式的Minkowski距离在数据挖掘中的用途非常广泛。另外一种用于聚类的非常有用的距离计算方法就是Mahalanobis距离(马氏距离)，它的定义为d(x，Y)=@一y)7M-1@一y)，M是一个正定矩阵称为权值矩阵它是马氏距离最吸引人的地方。马氏距离不但可以归一化距离反映不同属性的重要程度，而且还可反映出属性间的相互关系。很多这方面的研究者提出使用统计的方法，数学编程、遗传算法、模拟退火方法等寻找最佳权值矩阵。此外，权值矩阵必须可以在数据挖掘的不同层面上被修改。其它的在数据挖掘中使用的距离方法有：Camberra距离：J(w)=钝[x,+-只Y,fIDice距离：Jaccard距离：H2∑t只d(x，)，)=了』。L了一式(3—6)∑x?+∑Y?，=1t=l∑一Yld(x，)，)=i——专L—_『_一∑x?+Zy?一∑一Yf=I，-1，=l 第三章聚类算法在故障诊断中的应用Cosine距离：Overlap距离Correlation距离：d(x，y)=∑x,y，。lmin(Ex-∑J，?)∑(x，一i)()，，一万)f=11／酚一功2酗一乃2I”H式(3-8)式(3-9)式(3-10)(其中i和万表示训练样本集的第i个事件的属性值的均值)Chi—square距离：m棚=善击(土sizex一老](其中sum。表示训练样本集的第i个事件的属性的所有值的和，size，是向量X的所有属性值之和)3．1．3符号属性的相似性测量符号属性的相似性测量与数字属性的相似性测量有很大的不同。符号属性不像数值属性那样有自然的量化顺序特性。大多数数值属性的距离计算方法不能直接运用到符号属性中。例如，在上述所介绍的所有距离计算方法中，只有汉明距离可以用于符号属性。汉明距离用于符号属性时，如果两个样本所对应的属性的取值都相同则距离为“0”，否则距离为“1”。找到一种适用于符号特征的距离计算方法是非常困难的，因为很多距离计算方法用于符号特征的距离计算时，其本身的很多优点都消失了。例如，对符号属性进行标准化是很困难的，可以代表不同符号属性相互关系的权值矩阵的定义目‰薜=)，X(J 基于聚类的故障诊断技术研究前还没有人能很明确的给出。尽管如此，很多有效的符号属性的距离方法还是被发现了。值差分方法(VDM)是专门用来计算符号属性之问距离的距离计算方法“。。值差分方法还有几种变形，如异构值差分方法(HVDM)““、内插值差分方法(IVDM)、视窗值差分方法等等。一个简化的VDM(无权值)距离定义如下，属性a中值x和值y的距离如下定义：州w，=砉悟一瓦Na,y,c卜乳厂叫4扪也，其中N。表示训练集T中属性a的值为x的样本个数。Na。。表示训练集T中属性a的值为x的样本属于类c的个数。C表示问题域中样本的种类个数。q是一个常数，通常取1或2。只。，是类c中属性a的值为x的概率，即只。=等(其中Ⅳ。=∑N⋯)。使用vdm。(x，y)计算距离时，当两个值的的分类相似点越多，则两个值的相似度越大同时属性值是否有序是不需要考虑的。Cost等人于1993年提出了另一种基于某个值在该类中发生概率的比率的距离计算方法“”：讹咖爱。l眢一矧扪郴，其中U和v是一个属性里的两个值，C是训练集总的类的个数，e表示第i个类，s。表示该属性的值为U的样本集，，(e，瓯)表示样本集瓯中属于类e的样本数，慨I表示样本集s。的样本总数。很多新的测量分类属性相似度的计算法方法相继被提出，这些方法当然也继承了传统距离计算方法的优点。例如Ganti等人提出的综合测量方法““。综合测量方法的基本思想是通过集合构造出间隔域，相当于通过间隔构造间隔域。设4，⋯，爿。是一个具有D1，⋯见个独立域的分类属性的样本集。数据集D是由元组组成的，每一个元组t：t∈D1×⋯×或。当所有的i∈{1，．．．，厅}，S，∈D，则第三章聚类算法在故障诊断中的应用S∈S×⋯×S。是一个间隔域。设口，∈Dj，i≠J，则属性值对(口，，a，)在域D中的支持度仃D(口，，口，)的定义如下：盯。(％q)=彬怿∈D：t：r．4=q并且f．4=口，j式(3—14)当所有i∈{1，．．．，胛)，t．A，∈S时，元组t=∈D属于域S。S的支持度盯。(S)表示在D中属于S的元组数。如果所有的属性A1⋯．，A。是相互独立的并且每个属性中的每个取值是等可能的，则一个域S=S。×⋯xS。支持度的期望值Ep(s)】2IDI·渊。属性独立性可以做适当的修改后作为先决条件进行考虑，例如属性值的边缘概率。直观的说，盯。(口。，口，)表示属性值a，和a，共生性。如果值口，和a，的共生度盯。(d，，a，)大于属性独立情况下的期望值则说明疗，和a，是强关联的。两个符号属性的强关联定义如下：设口，∈口，a，∈Dj，并且口>1：在数据集D倾釉加∥∥小揣删q秕，翩糕眠谢联剃肭馓计算仃。(口，，a，)可以被用于分类或聚类中。3．1．4样本集与相似度测量在聚类中，样本集是必须用到的。例如，在层次聚类法(hierarchicalclustering)中，处于中间层的类簇都是用样本集表示的。表示中间层类簇的方法就是为其找一个代理。如果只用一个代理表示样本集，例如中值或均值点，当涉及到样本集的相似度计算时就得从点之间的相似度计算说起。在大多数情况下，当涉及到样本集相似度计算时需要不同情况不同对待。有几种情况如下所述：1．点和集合间的相似度计算在聚类算法中点和集合间的相似度计算是非常普遍的，比如在层次聚类法。即使样本已经被划分到某个类簇中，但是当一个样本同时属于超过一个以上的类簇时，则需要计算点和集合间的距离。此外，当聚类算法用于分类时，就需要计算样本和类簇之间的距离来判断样本属于哪个类簇。所以研究点和集合间的相似度计算方法是非常重要的。下面介绍的几种常见的相似度计算方法：●最大距离：d(p，S)=max(d(p，g))，其中q∈S。●最小距离：d(p，S)=min(d(p，g))，其中q∈S。·平均距离：d(p，s)=∑d(p，q)／N，其中g∈S，并且Ⅳ=Isl。基于聚类的故障诊断技术研究当用超平面表示的聚类中心代替密集聚类中心，这种测量方法非常有效。2．区间数据的相似度计算很多数据集都包括区间属性。区间可能来自于数据采集时的不确定因素，或来自于属性集的转换。一个区间属性可以用下面的几种不同的方法测量：●向量变量的余弦值：咖阮加岛这是一个相似度计算的模式，两个向量之间夹角的余弦值和它们的相关性系数是一样的。区间属性是属性集中的一个特例。用于集合的相似度计算方法也可以用于区间属性。例如，Haufdorff距离是样本集与它最近的属于另一个集合的点的最大距离。●从集合A到集合B的Hausdorff距离是一个极大极小函数，定义为：h(A，B)=max(mind(a，6))式(3—16)其中a和b分别是集合A和集合B中两个相互独立的点，d(a，b)是这些点间的任何一种度量。3．集合间的常规距离计算样本集就是一个由样本组成的组，它可以来自于输入的数据或来自于数据挖掘过程产生的数据，其中一些数据集本身具有容忍区间。离散化过程可以把一些单独的属性值组成一个集合。而层次聚类法能够产生一些类簇作为中间步骤的结果。集合间的相似度计算需要将上述的方法进一步融合起来。下面是几种常见的集合间相似度的计算方法：●最大距离：d(S，T)=max(d(p，g))，其中p∈S，q∈T●最小距离：d(S，T)=min(d(p，g))，其中p∈S，q∈T·中间点的距离：d(S，T)=d(p，q)，其中p是集合S的中点，q是集合T的中点。●平均距离：d(S，T)=d(p，q)，其中P为集合S的均值点，q为集合T的均值点。·其它一些具有代理的选择模式：把代理间的距离作为集合间的距离。●各种各样的加权平均距离。除了上述的几种简单形式的相似度计算方法外，还有很多类型的集合间的相似度计算方法也相继被提出来了。Hausdorff距离：Hausdorff距离在计算集合间的相似度时是非常有用的，例如计算在度量空间中第三章聚类算法在故障诊断中的应用的两个非空紧集A和B的位置。Hausdorff距离能够计算出一个集合中的每个点相对与其他集合的距离的范围。设Xl={X11，x12，⋯，Xl。}和X2={X21X22，-．．x2。}是两个有限个点的集合，d代表这个空间的距离(d可以是任何距离)。Hausdorff距离定义如下：Vxl∈Xl，D(xl，X2)=min～工，{d(xt，X2))厅(五，x2)=max^。置{D(而，xg}日(Xl，X2)=max{h(Xl，X2)，h(X2，XI))这里，厅(墨，Ⅳ2)是从x1到x2的有向Hausdorff离。最小距离之和：d(S。S)=(∑d(P，s：)+∑d(P，S2))／2F∈SjPES2其中d(e，S)是点和集合间的距离。满射距离：式(3-18)Oddie提出可以用大一些的集合映射到一个小一点的聚合的满射的方法来定义集合间的距离。这就形成了以下的距离函数：d(S1，S：)=睁∑他，P：)式(3—19)“(el，e2)Er／其中d(e，S)是点和集合间的距离。链路距离：假设有两个集合S，，S：￡B，S1和S2间的链路就是一个关系R￡S。×S：满足以下条件：●对于所有Pl∈S1，则存在e2∈S2，使(白，e2)∈R·对于所有e2∈曼，则存在e1∈Sl，使(Pl，e2)∈R子集墨和S：间的链路距离的定义如下：d(S-，S2)=min∑哩(else2)式(3—20)(el，02批^其中d(el，e2)表示点el与点82之间的距离。3．2聚类算法的分类聚类算法作为统计学的一个分支，已经被广泛的研究了很多年，主要集中在基于距离的聚类分析的研究上。基于K-MEANS(K．均值)，K．MEDOIDS(K-中心点)和其它一些方法的聚类分析工具已经被很多统计分析软件和数据挖掘软件所采 30基于聚类的故障诊断技术研究用，例如S-Plus，SPSS，以及SAS，它们都是一些非常有名的商业分析软件。在故障诊断中，聚类算法的应用也非常广泛，一般是和其它数据挖掘算法相结合使用的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法，聚类预报法等。聚类分析计算方法主要有：分裂法，层次法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法。3．2．1分裂聚类方法给定一个有N个样本的数据集，分裂聚类法将构造K个分组，每一个分组就代表一个类簇，K尘矸竺Ⅳ∑斟 38基于聚类的故障诊断技术研究控制自下而上的自上而下权值的训练公式为：％2面面Lci式(3．24)中，of是比较层矢量的第i个分量，j是获胜识别层神经元的编号。神经网络所得到的故障规则就是它的权值矩阵，权值矩阵中的每一个向量就代表着一个故障规则。ARTl的相似度测量公式是Cosine相似度计算公式，该公式不但可以计算出两个向量的模的相似度，还可以计算出两个向量的方向的相似度，因此非常适用于向量相似度的计算。由ARTl的算法步骤可以看出ARTl网络需要设置的参数只有一个就是警戒值P，P是用来控制聚类结果中类簇的个数的。当P的取值大时聚类结果中类簇的个数会变少，但太大会造成网络的容错性下降，对相似信号无法识别；当P的取值小时聚类结果中类簇的个数会变多。因此可以看出ARTl的自动化程度很高，另外由于ARTl处理的都是二值数据，所以聚类结果的准确度也是可以满足用户要求的。3．3．3基于ARTl网络的故障诊断系统的实现ARTl网络只能处理二值数据，但是在故障诊断中大部分数据都是实数，因此如果使用ARTl网络进行故障诊断必须首先把故障数据中的实数转换成二值数据进行处理。一般具有阂值的故障样本属性被预处理后更适合ARTl网络处理。ARTl网络的数据预处理部分可以根据样本集中样本属性的不同，采用不同的方法进行处理。这些预处理方法很多如闽值方法，编码法等。为了减少ARTl网络的数据输入量，就要选择与ARTl算法相对应的特征选择方法。这里采用基于广义差异矩阵的0．1特征选择方法来处理数据转换后的二值数据。以表2．1的某液压系统的原始标准故障样本集为例，该样本集中的原始数据经过阈值方法预处理以后，变成了ARTl网络可以处理的二值数据。那么ARTl网络究竟是怎样处理这些二值数据的呢?ARTl网络的奥秘就在于它的权值矩阵。神经网络训练的目的就是获得最后的权值矩阵，权值矩阵中的每一个向量就对应着一个故障规则，如果输入的故障样本与权值矩阵中的某一向量的内积最大，则该故障样本就属于这个故障类型。ARTl除了这个与其它神经网络算法的相同之处之外，还有一个其它神经网络没有的优点，就是它的自学功能，从ARTI的算法中可以看出，当输入的故障样本不属于权值矩阵中的任何一个故障规则时，ARTl网络通过在权值矩阵中增加一个新的故障规则的方法将这种新的故障类型记录下来。另外警戒值P的可调整性使聚类结果可以按照诊断系统的实际情况对聚类结果进行调整，这一点在工程实践非常有用，可以提高故障诊断系统的灵活性。第三章聚类算法在故障诊断中的应用39基于ARTl网络的故障诊断系统对表2．1所示的某液压系统的诊断结果如图3．4所示：图3．4ARTl网络的故障诊断结果演示界面3．4ART2算法在故障诊断中的应用3．4．1ART2网络模型及算法ART2网络是自适应谐振理论中一种可以快速的识别模拟量或二值量的ART网络。为了识别任意形式的输入模式，ART2网络中包含很多的设计原理，如解决了稳定性／可塑性平衡的问题、直接搜索过程的平衡和重新匹配的平衡。ART2网络可对模拟输入模式进行有选择性的实时无监督学习，从而克服了大多数前向网络容易陷入局部极小点的缺陷，因此在语音、视觉、嗅觉识别等领域得到重视和广泛应用。如图3．5所示ART2网络模型由两个子系统构成：注意子系统和定向子系统。注意子系统对输入的模拟量预处理后，通过竞争选择选出与输入模式最匹配的存储在连接权值矢量中的模式原型(即聚类中心)。定向子系统对选出的模式原型进行相似度的警戒测试，通过测试系统进入共振状态学习并调整权矢量，基于聚类的故障诊断技术研究否则屏蔽掉当前激活节点，搜索其它的模式原型。如果所有的模式原型均不匹配，则开辟新的输出节点。其中权值的学习与调整算法直接影响模式原型与实际聚类中心的接近程度，而相似度的警戒测试是ART2网络的自学习能力和分类稳定性的保证∞3。在一个大型的设备中，许多采集到的故障数据都是模拟量，而且由于在一个系统中可以使设备产生故障的部位很多，因此故障数据的维数也是很多的，所以为了可以处理模拟量和多维数据，采用ART2网络进行故障诊断是非常合适的。ART2网络相对于ARTl网络的优点不光是它可以处理模拟量，其中一个最大的优点是它可以提高故障诊断结果的准确率。另外ART2网络的结构设计的构思也是非常有特点的，和ARTl网络相比而言，ART2网络将比较层分成了三个子层，这三个子层不但可以去除输入数据中的噪声还可以将数据规格化并且加强网络中原有模式和输入模式的对比。j芏Zf女‰图3．5ART2网络结构ART2网络的基本原理如下。1：(1)STM．F1：从图3．5可以看出ART2网络的STM．F1层由3个神经元层组成，STM．F1采用3层结构的主要原因是消除输入数据中存在的噪声和加强网络中原有的存储摸式与输入模式的对比。(2)LTM—F2：LTM—F2层的主要作用是选择一个输出神经元存储的模式原型与输入模式相似的神经元作为输出节点。并把所选择的模式原型反馈到取向子系统以备重置子系统进行警戒测试。(3)取向子系统：取向子系统的主要功能是完成模式对比和重置。如果LIM．F2输出节点所存储的模式原型与输入模式的相似度大于等于警戒值，则调整LTM．F2层的当前激活节点所对应的向上权值向量和向下权值向量。否则，程序不继续向第三章聚类算法在故障诊断中的应用4l下执行并重新设置当前的激活节点，系统在剩下的输出节点中继续寻找最匹配的模式原型。如果输出节点都没有通过警戒测试，就创建一个新的输出节点(即在输出层增加一个新的神经元)来存储一个新的模式原型。ART2网络的主要算法如下所示⋯1：假设输入向量为x=(X1．x2，⋯⋯，x。)，则依次执行式(3—25)(3—26)(3—27)(3—28)(3—29)：Zj。xj+aujg，2习zj阿vj=f(qj)+bf(sj)⋯、jo2痂式(3-26)式(3-28)式(3-29)m-IP』=o+Zg(yj)嘞式(3—30)j---O取向子系统的相似度警戒测试必须由下面的向量r处理．．Ui+cpi_2—e+H—+cllell，R=JIrrJ如果R≥P—e，调整当前激活节点的向上和向下权值向量，否则重新设置当前的激活节点，并不向下执行，系统在剩下的节点中继续寻找最佳的匹配原型模式。如果没有节点能通过警戒测试就创建一个新的节点(即在输出层增加一个新的神经元)。接下通过式(3-31)(3-32)(3—33)实现STM．F2到STM．F1间反馈信道的信息融合，输入向量中噪声的滤除：P，o2确■=f(qj)+bA5j)圹南由STM—F1到STM—F2和STM．F2到STM．F1间的权值向量学习算法分别为：wH：兰o1一d式(3-35) 42基于聚类的故障诊断技术研究w’。：旦J11一d3．4．2基于ART2网络的故障诊断系统的实现式(3-36)ART2网络对数据形式的要求并不严格，它既可以处理实数数据，还可以处理二值数据。在处理二值数据时ART2算法聚类的精度并没有ARTl算法高，因此ART2网络只有在处理实数时才能显示出其优越性。ART2网络不需要对数据离散化，在一定程度上保持了数据的原始性，在3．1节的聚类算法的介绍中，可以看出聚类算法的核心就是相似性计算，为了使样本的每一个属性在相似度计算中发挥其作用就必须让它们在同一个数量级上进行计算。因此在将采集到的原始故障数据送入ART2网络进行故障诊断之前，就需要对数据进行归一化处理，所以采用2．3．2节所介绍的基于最大一最小规范化的数据转化方法就可以解决这个问题。采用基于最大．最小规范化对进入ART2网络的数据进行处理主要有一下几个原因：(1)该方法简单，处理速度快，可以大大的节省预处理所占用的时间。(2)稳定性好，虽然特征的最大值和最小值获取困难，但是由于系统在短时间内是稳定的，在此期间获得的特征的取值范围是相对稳定的。(3)灵活性好，可以对特征的最大值和最小值随时更新。为了减少输入ART2网络的数据量，提高ART2网络的诊断效率和精度，还需要对归一化后的数据进行特征选择。这里采用基于～致性的特征选择方法，因为该方法有以下优点，使其更加适合做ART2网络的预处理：(1)在聚类中没有决策特征，因此很多使用决策特征作为算法执行条件的特征并不适合做聚类算法的预处理，而该算法满足了这一需要。(2)兼容性好，既可以处理数值数据又可以处理符号数据，因此可以为很多算法做预处理。基于ART2网络的故障诊断系统对表2．1所示的某液压系统的诊断结果如图3．6所示：第三章聚类算法在故障诊断中的应用43图3．6ART2网络的故障诊断结果演示界面第四章ART2改进算法的故障聚类研究45故障诊断系统具有一些自身特有的特点，如故障诊断系统必须实时监测设备的运行状况，数据中的属性值会随着时间的变化而变化等等。所以选择适用于故障诊断中的数据挖掘算法时必须将这些因素考虑进去。神经网络具有很好的实时监测性能，所以ART2对数据进行实时处理是一件很容易的事情。从第三章中对ART2的介绍中，可以看到ART2网络中有很多参数需要事先设置好ART2网络才可以使用。这些参数要怎样设置呢?另外，ART2网络和其它聚类算法一样有一个很大的缺点就是聚类中心会随着样本的输入而产生偏移，这个缺点在其它应用中可能不是很重要，但是在故障诊断中却是不允许的。因为在故障诊断中故障诊断系统需要随时监测设备的运行状况，也就是说设备的故障样本是实时产生的，这样ART2网络所产生的类簇中心也会随着故障样本的输入而发生实时的改变，从而对故障类型的判别产生不良影响。类簇中心的偏移是ART2网络必须要克服的，否则如果类簇中心偏移过大，可能会引起故障诊断结果的正确率的急速下降。4．1ART2处理低维数据的改进神经网络有很多优点，其中一个优点就是它可以处理高维数据，也就是说神经网络在处理数据时对维数限制不大。所以ART2网络也继承了神经网络的这一优点在处理高维数据时其聚类的准确性往往很高。但是，在处理低维数据时聚类的准确率却不是很好。在故障诊断中在对故障样本处理之前要对故障样本集进行属性约简，因为有很多故障的发生可能由样本集中的很少的一些属性决定，因此对故障样本集进行属性约简可以降低算法计算时的复杂度，提高故障诊断的效率。也就是说在故障诊断中不光需要ART2可以处理高维数据的优点，同时还需要它能够处理低维数据。所以针对于ART2在处理低维数据时其聚类的准确性较差的情况，本文通过改变反馈矩阵初始化权值提高了低维数据聚类的准确性。4．1．1对ART2算法的权值初始化的改进ART2网络需要对七个参数进行初始化，同时还要对两个权值矩阵进行初始化。这些参数的取值不同，ART2网络的聚类结果也将不同。当然这些参数的初始化是有一定规律的，这就方便我们进行网络设计。同时也可以通过调整ART2网络的参数，得到我们想要的ART2网络。ART2算法中需要设置参数的计算公式：基丁+聚类的故障诊断技术研究乃2一+auj,qj=南叩晌抄bf(sjⅢ，5南巾褊R≥p—e；(这里我们假设输入向量的维数为M，输出的神经元个数为N)ART2网络中参数的初始化：口，b>0，一般取相对较大的常数；0<-d≤1，≠冬≤1；l一口并且e<<1，阈值0≤0≤1；门限值0≤P≤1(p的大小决定了聚类类簇的多少)。ART2网络权值的初始化：t，(0)=叽w⑨≤石三面啪1。从ART2网络的权值的初始化可以看出STM．F1到STM．F2的权值w，初始化是有一定的限制的，不是可以任意设置的。因此权值的初始值对最后的聚类结果是有一定影响的。通过大量的实验得出了w．的初始值对聚类结果影响的一般规律。当我们的输入矢量的维数较小时，对w，的初始化的取值应当尽量的小。一般情况T应IiIid、于—二一。O刮M4．1．2结果验证下面本文将以一组两维输入向量Ⅲ1为例，当心⑨2石：j1丽，p2。·98时我们的得到的聚类结果为表4．1所示：表。．·w@=石高而时两维数据聚类结果顺序输入向量R值类别(1．0，0．1)(1．3。0．8)(1．4，1．8)(1．5，0．5)(O．O，1．4)(0．6，1．2)(1．5，1．9)(0．7，0．4)(1．9，1．4)(1．5，1．3)0．99999110．98357920．96049530．998967l0．9648724O．99686430．99974620．99357220．9923042O．9980645l23456789● 第四章ART2改进算法的故障聚类研究47由表4·1可以看出当％⑩2石丽1时，得到该组二维数据的聚类结果的准确度为40％，这是7-程应用中无法接受的。当ART2网络的输入与表4．1相同w@≮；矗，P=0．98时得到的聚类结果如表4．2所示：表4．2们志时两维数据聚类结果由表4．2，可以得到该组二维输入向量最后的聚类精度为100％。可以从表4．1和表4．2看出两次ART2网络的输入向量顺序是一样的，而且门限值p都为0．98，其他参数取值均相同。因此可以排除其它因素的干扰。所以只能是STM—F1到STM—F2的权值Ⅵ．的初始化值的不同对聚类结果产生了显著的影响，下面将将举例说明ART2网络中Ⅵ，初始化取值对高维数据并没有多大的影响。现在ART2网络输入一组向量维数为7的数据。“，们3石三面，p20。995时聚类结果如表4．3所示： 48基于聚类的故障诊断技术研究表4～～(。)=南时7维数据聚类结果顺序输入模式R值类别l(O．0，1．000，1．000，0．600，0．255，0．195，0．095)0．999918l2(10，O．232，0．165，0．800，0．023，0．023，0．018)O895224失败0．99991823(O0，1．000，1．000，0．700，0．350，0．252，1．000)0．980154失败0．99991834(10，0．344，0．233，0．700，0．040，0．030，0．038)0．99865925(05，0．270，O．270，0．184，0．261，0．304，0．162)O．959950失败O．936658失败0．941715失败0．99991846(05，0．270，0．271，0．178，0．261，0283，0．174)0．99987747(0．5，0．271，0．267，0．183，0．261，0．265，0．185)0．99976448(0．5，0．082，0．064，0．155，0．071，0050，0．153)0984011失败0．972685失败0．889476失败O．867989失败0．99991859(05，0．078，0，065，0．146，0074，0049，0．166)0．9995015当取w⑨击，p2o．995时，其它参数不变得到的聚类结果与表4．3完全一致。所以可以得出ART2网络的输入为高维数据时，STM．F1到STM—F2的初始化权值％只要小于或等于石高面聚类结果都是一样的。(工程中为方便取等于——二，)，最后的(1一利^f用ART2网络对低维数据进行聚类操作时，对wI『的初始化一定要越小越好，这样聚类结果才能更加准确。4．2ART2改进算法的故障聚类ART2算法由于具有聚类中心偏移的缺点，所以其聚类功能受到了很大的限制。K一均值算法的前提是表示样本空间的聚类中心的个数是预先知道的，这种假定本身限制了这一方法的利用。本文采取ART2与K一均值算法相结合的方法对ART2聚类中心偏移起到了很好的限制效果，同时又克服了K．均值算法聚类中心必须预先确定的缺点。4．2．1ART2算法聚类中心偏移产生的原因分析ART2网络的权值学习规则与重置规则：第四章ART2改进算法的故障聚类研究49(1)权值学习规则：ART2网络的向上权值学习与向下权值学习规则分别为：Ⅳi·“iw影2高’w∥。高由图3．5可以看出，甜，是随着输入z，的变化而改变的，也就是说明每个故障规则都会随着输入模式而做相应的改变。我们知道数据挖掘是从大量的数据中挖掘有用信息的过程，而故障诊断规则的确定过程也是一个从大量的故障样本中发现设备故障发生规律的一个过程。也就是说用来挖掘故障规则的训练样本集是一个很大的样本集合，由于ART2网络的权值学习规则决定了当在大量的样本中挖掘故障规则时，聚类中心可能会发生一定的偏移。”。(2)重置揪叽rf2褊如果R≥P—e调整当前激活节点的向上和向下权值向量，否则重新设置当前的激活节点，并不向下执行，系统在剩下的节点中继续寻找最佳的匹配原型模式。如果没有节点能通过警戒测试就创建一个新的节点(即在输出层增加一个新的神经元)。由此可以看出当向ART2网络输入一个样本时，网络通过比较它与网络中存储的模式原型的相似度来确定该样本属于那一类。由(1)(2)可以看出ART2网络的聚类中心会随着输入向量而产生偏移，并且本次输入的模式是在与上次输入模式比较的基础上划分类别的。当聚类中心偏移变大时，一些样本被划分到错误的类别中的可能性就变大。当聚类中心偏移到一定程度时，会出现算法不能聚类的现象。当输入ART2网络的某个故障样本与网络中存储的某个故障规则匹配时，故障规则就需要随着这输入的故障样本做相应的调整。这样随着故障规则的改变，故障聚类中心也随之发生了改变。也就是说ART2网络在对故障样本进行聚类时没有固定的聚类中心，虽然寻找一个固定的聚类中心在聚类算法中是不可能的，但是我们可以试图寻找一个相对固定的聚类中心，来使ART2网络的聚类中心不至于偏移到我们无法接收的地步。在这一思想的指导下，在通过对很多聚类算的深入研究，我们对ART2算法做出了相应的改进，改进后的算法有效的限制了ART2网络聚类中心的偏移。4．2．2ART2改进算法ART2改进算法：首先假设ART2网络每个新的类的第一个输入为每一个新类的聚类中心氍(耽S：(，)，⋯⋯，S。(，))。其中k的取值是由每次聚类结果来确定的。 50基于聚类的故障诊断技术研究ART2改进算法的基本步骤(1)(2)(3)(4)(5)(6)(7)(8)Zj2xj+nujzigJ2确vj=f(qj)+by(sj)圹南m-IP，=甜，+∑g(y，)‘，j我o2百俪舯侧=雠删=∞Yl=max{∑Pjwij}■=Hi+cpi习翮’式(4．1)式(4．2)式(4．3)式(4—4)式(4．5)式(4．6)式(4．7)式(4．8)R=⋯式(4—9’如果当R≥P—e时(P为预先设定的警戒值)，则执行步骤(9)，否则令y，=O，返回步骤(1)。(9)计算xi到聚类中心的距离：如果峙一曲u』<恢一s“小则坼∈，(10)计算新的聚类中心：蹦¨l，2古窘，式(4-10)再把sJ(，+1)作为ART2网络的新的输入执行步骤(1)(2)(3)(4)(5)(6)⋯)w巧=嵩，w_：兰与算法结束。”∥2丁=，-舁压绍束。由ART2改进算法的基本步骤可以看出该算法从步骤(8)开始就与ART2算法不同了。ART2改进算法与ART2算法的最大的不同点就在于ART2改进算法是第四章ART2改进算法的故障聚类研究51通过比较输入模式与聚类中心的相似度基础上划分输入模式的类别的，而ART2网络通过比较网络上一次的输入模式与本次输入模式的相似度的基础上划分输入模式类别的，而且聚类中心可以控制在相对比较稳定的地方，这样只要聚类中心不会发生很大的偏移，类簇也不会发生意想不到的错误聚类。所以ART2改进算法能有效的克服聚类中心偏移的缺点，使聚类结果的正确率大大提高。4．2．3ART2改进算法聚类结果比较ART2改进算法验证：某大型旋转设备常出现转子不平衡，转子不对中、油膜振荡、喘振和碰摩等故障。该设备的一个的故障样本集⋯3的标准聚类中心如表4．4所示：表4．4标准聚类中心C1C2C3C4C5C6C7聚类00772005990102508114004570151200270不平衡01153004040101603764041620071l00960不对中024460298l007260，2622007620091000836油膜振荡0】429028200050703528009850101502313喘振0116l008320076605480007660225401037碰摩将表4．4中的设备标准故障样本集输入到参数a=10，b=10，c=0．2，d=0．83，e=0，0=o．1，P=o．986的ART2网络，通过仿真得到的聚类中心如表4．5所示：表4．5标准故障样本集经ART2网络聚类得到的聚类中心ClO0908013830241501142Oll56C2c3C4C5C6C7聚类～io；矗一一百1丽⋯⋯0．70i—面216⋯⋯0．1163⋯～006’03一永平菇～0060001089O2462O．4900O075801015不对中O3126O081502249009300，110501761油膜振荡02526O028604452007770072401215喘振01127010590414101009O354401336碰摩通过ART2网络对标准故障样本集进行聚类，结果样本6，8，12，14，16，17，18没有被聚类到正确的类别中，所以当ART2网络对该标准故障样本集的聚类的正确率为65％，这样的聚类结果在故障诊断中是不符合要求的。可以看出与表4．4相比表4．5中不平衡故障的聚类中心发生了严重的偏差，这是导致样本6，8，17，18被聚到错误的类别(不平衡)的最基本的原因。该标准故障样本集的样本1，2，3，4，6，8，的相似程度是逐渐逼近样本17的，因为ART2网络中本次输入的模式是以上次输入模式的比较的基础上划分类别的，所以聚类中心也是一步一步向样本17逼近的。由此可以得出ART2网络聚类中心偏移的缺点导致样本17 52基于聚类的故障诊断技术研究被错误的划分类别。通过ART2改进算法处理与表4．4相同的一组标准故障样本集，参数a=10，b=10，c=0．2，d=0．83，e=0，0=O．1，P=o．98，通过仿真可得到如表4．6所示的聚类中心：表4．6标准故障样本集经ART2改进算法聚类得到的聚类中心二一a二)r二，i二：：!t4～二～ii：二|Ij二互二。聚荑00898004880095207648010170122800505不平衡0124502446014290107400844不对中O0836油膜振荡02313喘振01l7l碰摩由表4．6可以得出当通过ART2改进算法处理表4．4中的标准故障样本集得到的聚类结果的正确率为90％，优于单独使用ART2算法进行聚类。所以通过对表4．5与表4．6的聚类结果的对比可以发现，表4．6中每一类的聚类中心都没有表4．5中的偏移大，这就说明ART2改进算法可以有效的抑制ART2网络中的聚类中心偏移现象。ART2作为是神经网络中的一种聚类算法，它除了具有神经网络的并行处理，实时运行，可处理高维数据等优点外，还具有处理模拟数据的优点。所以ART2能降低故障诊断中的模拟数据处理的复杂度。由上文可以看出ART2改进算法有效的克服了ATR2网络的聚类中心偏移的缺点，因此有很好的实用性。舛虬毗妊咖¨¨¨一器篡一0OmO一裂霉拍拍们n一们引加“一帖舶勰的，第五章故障诊断系统的软件实现53要实现一个完整的、界面友好的、功能完善的故障诊断系统不光需要数据挖掘算法的支持，还需要数据库，软件开发平台等等的支持。这里我们将介绍故障诊断软件系统的实现。5．1开发环境任何一个软件的实现都需要硬件和软件开发平台的支持因此，在充分考虑故障诊断系统特点的基础上，本文采用的开发环境为：硬件环境：PC机—CPU：IntelPentium42．8GHz内存：256MB硬盘：40G网卡：100．0Mbps软件环境：操作系统——MicrosoRWindowsXPProfessional2002ServicePack2开发软件——VisualCH6．O；SQLServer20005．2关键技术在故障诊断中第一个需要考虑的就是数据，数据是故障诊断的基础，没有数据故障诊断就无从谈起。现在很多大型设备本身在设计时都会把对设备有影响的部位的状态通过传感器，仪表等表现出来。但是要将这些状态信息变成故障诊断软件系统能够处理的数据，就必须将其存入数据库中，使软件系统可以随时，灵活的调用。VisualCH6．0可以通过ODBCAPI或ADO来实现数据调用，达到处理数据库中数据的目的。”。5．2．1ODBC建立数据源ODBC即开放数据互连(OpenDatabaseConnectivity)是一种访问数据库的程序设计接口，通过使用ODBC时，编程人员就不需要考虑数据库的存储结构，可以方便的访问和存储数据，大大提高了程序设计效率。随着越来越多的数据库厂商对ODBC的支持，利用ODBC访问数据库变的越来越广泛，同时，使程序具有较好的移植性⋯1。著名的数据挖掘软件SPSS就是用ODBC作为软件访问数据库的接口。(1)打开控制面板，然后找到管理工具选项。基于聚类的故障诊断技术研究(2)打开管理工具选项，找到数据源选项。(3)打开数据源，选择用户DSN项，点击按钮添加。图5．1ODBC数据源管理器(5)在创建新数据源对话框中选择SQLServer项，点击按钮完成。图5．2创建新数据源在创建到SQLServer的新数据源的对话框中填写要创建数据源的名称，并且选择数据库所使用的服务器，然后点击按钮下一步。选择使用用户输入登陆ID和密码的SQLServer验证，并输入登陆ID和密码，然后点击按钮下一步，在新的对话选择要连接和使用的数据库，然后点下一步。在打开的新窗口ODBCMicrosoftSQLServer安装的窗口中点击测试数据源按钮，在SQLServerODBC数据源测试窗口中如果测试成功则点击确定按钮。在就表明一个新的ODBC数据源创建成功了。5．2．2VisualC++6．0连接ODBC数据源的工程(1)打开VisualC++6．0，然后打开菜单的file选项，选择New．(2)在打开NEW对话框中选择Projects选项卡中的MFCAppWizard[exe]项，点击oK，建立一个工程。(3)在打开的MFCAppWizardStepl窗口中选择Singledocument，然后点)∞胛@ 第五章故障诊断系统的软件实现55击下一步，在MFCAppWizardStep2窗口中选择Databaseviewwithoutfilesupport点击DataSource按钮，出现对话框DatabaseOptions在ODBC选项中选择需要连接的数据源，并选择所调用的表。(4)点击Finish，这样就成功的创建了一个用ODBC连接数据库的工程”“。5．3故障诊断系统演示图5．3所示的就是一个故障诊断演示系统嘲。图5．3故障诊断系统演示图第六章总结与展望576．1工作总结故障诊断技术是一门还处于发展阶段的新兴的应用于工程实际的新技术，因此不管是理论还是实现方法上都有待改进和提高。我们知道智能故障诊断所涉及的领域非常广泛，所以要实现一个完整的，实用的、功能完善的故障诊断系统就要考虑很多方面的问题。在故障诊断系统中，故障诊断方法的研究往往是故障诊断系统的研究重点，故障诊断方法就像整个故障诊断系统的大脑指挥其它部位做出反应，因此故障诊断方法是否适合故障诊断系统直接决定了故障诊断结果的好坏，以及整个故障诊断系统的性能。本文研究重点的是故障诊断方法中的聚类算法的改进以及实现。通过对诸多的数据挖掘算法以及故障数据特点的研究的基础上，发现聚类算法和神经网络非常适合对故障数据进行处理，因此本文采用神经网络中的聚类算法ART(自适应谐振理论)作为故障诊断的方法，来实现对大型设备的故障数诊断。根据不同的故障数据预处理后的所表现出的不同特性，本文采用ARTl对预处理后为二值数据的故障数据进行故障定位，采用ART2对预处理后为实数的故障数据进行故障定位。通过分别实现ARTl和ART2算法后，发现ART2算法中的聚类中心会随着输入的模式而发生偏移，而且这种偏移会随着输入的增加而越来越严重，因此为了防止聚类中心过度偏移对故障诊断结果产生严重的影响。本文采用ART2算法与K一均值算法相结合的方法来抑制ART2中聚类中心漂移的现象，取得很好的效果。另外，针对ARTl和ART2算法所处理的数据的特点，采用了不同的预处理方法对输入ARTl和ART2网络的数据分别进行了转换，使转换后的数据形式满足了ARTl和ART2对数据形式的要求。为了降低输入ARTl和ART2的数据维数，本文分别采用了基于广义矩阵的O一1特征选择方法和基于一致性的特征选择方法。由于基于一致性的特征选择方法存在数值特征取值范围难以确定的缺点，本文采用灰色理论建立预测模型的方法，有效的克服了这一问题。通过对故障诊断系统的特点的研究，本文采用了适当的开发环境实现了故障诊断算法，并使其具有开放性，易扩充等特点，为故障诊断系统的进一步开发打下了良好的基础。6．2工作展望故障诊断技术的发展到目前为止还尚未成熟，因此需要做很多的努力才能使该技术逐步的发展成熟起来。故障诊断是一门综合的学科，所涉及的领域很广， 58基于聚类的故障诊断技术研究本文认为要想聚类算法发展成故障诊断系统中一个成熟的技术，还需要在以下三个方面重点研究。(1)针对聚类算法的特点，需要研究与聚类算法相对应的预处理方法，以提高聚类算法的处理速度，和诊断结果的正确率。(2)针对故障数据的特点，采用神经网络与其它聚类算法相结合的方法克服一些算法所固有的缺点。(3)在不断完善故障诊断方法的基础上，使故障诊断系统的智能化程度不断提高。致谢感谢导师刘彦明教授，他学识渊博，治学态度严谨，思维敏锐。我读研期问的学习科研和毕业论文的写作工作，自始至终受到他的关心。他多年来的教诲与培养更使我受益匪浅。感谢李小平教授，从毕业设计选题到论文写作，从理论分析到实验测量，她都给与了我悉心指导。感谢西安电子科技大学指导帮助过我的全体老师，他们严谨的治学态度，渊博的学识，必将使我受益终生。感谢项目组的各位同学，对在工作上的帮助，和他们一起做项目很开心。感谢我的父母，他们是我学习和工作的动力，谢谢他们一直对我默默的支持。最后，感谢所以一直支持我的亲人和朋友们。参考文献6l[1]虞和济、陈长征、张省等著．基于神经网络的智能诊断．冶金工业出版社，2000。[2]吴明强、史慧、朱晓华等著．故障诊断专家系统研究的现状与展望．计算机测量与控制．2005．13(12)：1301—1304。[3]任安、王卫国．武器装备综合诊断技术的现状与发展．舰船电子工程．2007年第3期．20-23。[4]乔海涛、冯永新．大型汽轮发电机组故障诊断技术现状与发展．广东电力．2003年第16卷第2期．9—13。[5]JiaweiHan．MichelineKamber著．范明、孟小峰等译．数据挖掘概念与技术．机械工业出版社．2006。[6]梁芬、王改运、朱名日．远程故障诊断技术的发展及应用研究综述．机电工程．2007年第24卷第8期．卜4。[7]蔡元萃、陈立潮．聚类算法研究综述．科技情报开发与经济．2007年第17卷第l期．145-146。[8]贺玲、吴玲达、蔡益朝．数据挖掘中的聚类算法综述．计算机应用研究．2007年第1期．10—13。[9]高飞、汤志祥、李自强等著．智能数据采集与分析系统．仪表技术与传感器．2007年第9期．44—45。[10]张永强、申利永、田紫君．汽车安全性能检测系统中的软件滤波．工业仪表与自动化装置．2005年第5期．4卜65。[11]李洪、吴贻鼎．利用ARTl网络进行故障诊断的方法研究．电力系统及其自动化学报．第15卷第3期．23—27。[12]孙即祥等著．模式识别中的特征提取与计算机视觉不变量．国防工业出版社2001。[13]SkowronA．andC．Rauszer,TheDiscemibilityMatricesandFunctionsinInformationSystems．IntelligentDecisionSupport，HandbookofApplicationsandAdvancesofRoughSetsTheory,KluwerAcademicPublishers，Boston，PP．331—362．[14]YuanGan,ClusteringAlgorithmsforDataandKnowledgeExploration,AthesissubmittedinpartialfulfillmentoftherequirementsfortheDoctorofPhilosophydegreeinIndustrialEngineeringintheGraduateCollegeofTheUniversityofIowa,August2003．UMI． 62基于聚类的故障诊断技术研究徐义田．分类问题中特征选择算法的研究．中国农业大学．博士学位论文。Stanfill，C．，andD．Waltz，TowardMemory—BasedReasoning，CommunicationsoftheACM，V01．29，Dec．，PP．1213-1228．Wilson，D．R．，andT．RMartinez，ImprovedHeterogeneousDistanceFunctions，JournalofArtificialIntelligenceResearch,V01．6．PP．1-34．Cost，S．，andS．Salzberg，AWeightedNearstNeighborAlgorithmforLeaningwithSymbolicFeatures，MachineLearning，V01．10，KliwerAcademicPublishers，Bonston，PP．55—78．Ganti，V，J．GehrkeandR．RamakrishnanCACTUS—ClusteringCategoricalDataUsingSummaries，SIGKDD，SanDiego，CA，ACMPress，NewYork，pp．73-83．张文君、顾行发、陈良富等著．基于均值一标准差的K均值初始聚类中心选取算法．遥感学报．2006年第10卷第5期．715—721。董健康．数据挖掘中CURE聚类算法研究．算法研究．14—15。W．Wang，J．Yang，andR．Muntz，STING：AStatisticalInformationGridApproachtoSpmialDataMining，InProceedingsofthe23“VLDBConference，pp：186-195，Athens，Greece，1997MartinT．Hagan、HowardB．Demuth、MarkH．Beale著，戴葵等译．神经网络设计．机械工业出版社．2005。冯兴杰．聚类方法及应用研究．南开大学，博士论文．2004．36。张雨、徐小林、张建华著．设备状态监测与故障诊断的理论和实践．国防科技大学出版社．2000。[26]AbhijitS．Pandya,RobertB．Macy著，徐勇、荆涛等译．神经网络模式识别及其实现．电子工业出版社。[27]JiaoyanAi，ShangeWei，LihuaZhangandShuliangSun，Amagnitude—BasedART2Classifier：StructureandAlgorithms．proceedingsofthe6蚰WorldCongressonIntelligentControlandAutomation,June21-23，2006，Dalian，China．[28]JungHwanCho，ChangHyunShim，InSooLee，GiJoonJeon，On-linemonitoringofindoorenvironmentalgasesusingART2neuralnetworksandmulti．sensorfusion，IntelligentSensors，SensorNetworksandInformation墨l嘶∞呻∞啪胁陇∞以陟参考文献63ProcessingConference，2004，PP．125—129．[29]GaffA．CarpenterandStephenGrossberg。ART2：self-orgainzationofstablecategoryrecognitioncodesforanaloginputpatterns，areprintfromAppliedOpticsvolume26，number23，December,1987．[30]Solis，M．；Benitez-Perez，H．；Rubio，andSOon；PattemrecognitionofwaveletsdecompositionusingART2networksforechoesanalysis．UltrasonicsSymposium,2001IEEEVolume1,7—10Oct．2001Page(s)：679-682v01．1．Xiao—DongQian,Zhen-ouWang，YuWang，AMethodofDataClusteringBasedonImprovedAlgorithmofART2．0—7803—9091—1@2005IEEE．Abhijits．Pandya,obertB．Macy著，徐勇等译．神经网络模式识别及其实现．工业出版社，1999。齐继阳，竺长安．设备故障智能诊断方法的研究．仪器仪表学．2006年第10卷(27)．1271—1275。求是科技．Visualc++6．0数据库开发技术与工程实践．人民邮电出版社。袁丁等著．VisualC++精彩实例详解．械工业出版社。王育坚著．VisualC++面向对象编程教程．清华大学出版社。焦李成编著．神经网络的应用与实现．西安电子科技大学出版社。张安华主编．机电设备状态监测与故障诊断技术．西北工业大学出版社。NaLi，JinaLi，ZhaohuiZhang．FaultDiagnosisofRotatingSystembasedonMulti—sensorDataFusion．Proceedingsofthe6“WorldCongressonIntelligentControlandAutomation。June21．232006．m墨!l∞瞰嘶墨l∞l墨l∞ 研究成果65(1)基于ART2改进算法的故障聚类研究．段霞霞，刘彦明，李小平，杨一展．《计算机工程与应用》(己录用)。(2)ART2处理低维数据的改进研究．段霞霞，刘彦明，李小平．《计算机应用研究》(已录用)。(3)一种基于数据库查询的改进的决策树算法．杨一展，李小平，段霞霞．《计算机工程与应用》(已录用)。(4)GA综合赋形波束阵列天线及MATLAB程序实现．段霞霞，刘彦明，张金刚．《现代电子技术》(已录用)。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 64



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

基于聚类的故障诊断技术研究

基于聚类的故障诊断技术研究

最近更新

大家都在看

相关文章

相关标签