基于集成学习的中医病案数据挖掘方法研究

基于集成学习的中医病案数据挖掘方法研究

ID:76111490

大小:3.61 MB

页数:67页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于集成学习的中医病案数据挖掘方法研究_第1页
基于集成学习的中医病案数据挖掘方法研究_第2页
基于集成学习的中医病案数据挖掘方法研究_第3页
基于集成学习的中医病案数据挖掘方法研究_第4页
基于集成学习的中医病案数据挖掘方法研究_第5页
基于集成学习的中医病案数据挖掘方法研究_第6页
基于集成学习的中医病案数据挖掘方法研究_第7页
基于集成学习的中医病案数据挖掘方法研究_第8页
基于集成学习的中医病案数据挖掘方法研究_第9页
基于集成学习的中医病案数据挖掘方法研究_第10页
资源描述:

《基于集成学习的中医病案数据挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号:学校代码:10426密级:学号:2015110012硕士学位论文MASTERDEGREETHESIS基于集成学习的中医病案数据挖掘方法研究作者:张守宾指导教师:朱习军学科专业:计算机科学与技术专业代码:081200研究方向:工业信息化技术2018年4月20日 基于集成学习的中医病案数据挖掘方法研究〇'学位论文完成日期:?\%指导教师签字:答辩委员会成员签字: 基于集成学习的中医病案数据挖掘方法研究摘要随着计算机科学技术和信息技术的发展,中医药学也顺应潮流逐渐实现信息化和现代化。其中,中医症状-证型的辩证分类技术获得广泛关注并取得相应发展,是当前中医药领域主要的研究课题之一。由于中医病案数据具有复杂性、模糊性和不确定性等问题,使得传统单一的分类挖掘无法确保对所有信息的综合考量。而考虑到集成学习具有较高分类准确率和较好的泛化性能,因此本课题针对合作医院所提供的中医哮喘病病案数据采用集成学习模型进行分类研究,以获得中医哮喘病数据的辨证规律。首先对中医病案进行量化处理,并根据改进的特征选择算法IHCFS(ImprovedHierarchicalClusteringFeatureSelectionAlgorithm)获取中医哮喘病的主症状。为了更加客观的描述中医病案症状,对病案症状信息进行分级量化,并采用数据库编程实现自动批量文本数字化处理以用于后续研究;对于中医病案数据特征存在繁多的症状和冗余信息等问题,主要对层次聚类特征选择算法的评价函数以及终止准则进行改进得到IHCFS算法,以更好的剔除冗余信息从而获取哮喘病的主症状。仿真实验证明所获取的主症状更有利于后续辩证分类。然后提出一种基于多模态扰动策略的集成学习算法ELSFS(EnsembleLearningBasedonSamplingandFutureSelection)用于中医病案的辩证分类。其中利用随机抽样法进行样本空间扰动,利用IHCFS算法进行特征空间扰动以获得差异性更大的基分类器。在UCI数据集上仿真验证,结果显示ELSFS算法具有更好的分类性能。最后考虑基分类器数目过多时所产生的冗余基分类器对模型预测性能的影响,提出一种基于加权贪心策略的选择性集成学习算法SELGS(SelectiveEnsembleBasedonWeightedGreedyStrategy)以减少预测阶段的存储空间、降低运算开销,以提高加快预测速度。通过仿真证明SELGS算法具有更好的辩证分类性能。关键词:哮喘病中医辩证特征选择泛化能力多模态扰动集成学习I ResearchondataminingmethodofmedicalrecordinTCMbasedonIntegratedLearningABSTRACTWiththedevelopmentofcomputersciencetechnologyandinformationtechnology,TCMisalsograduallyfollowingthetrendtoachieveinformationandmodernization.AndthedialecticalclassificationtechnologyofTCMsyndromesandsyndromeshasattractedwideattentionandmadecorrespondingdevelopment.ItisoneofthemainresearchtopicsinthefieldoftraditionalChinesemedicine.Duetothecomplexity,ambiguityanduncertaintyofTCMcasedata,traditionalsingleclassificationminingcannotensurecomprehensiveconsiderationofallinformation.Consideringthatensemblelearninghasahigherclassificationaccuracyandbettergeneralizationperformance,theensemblelearningmodelisusedtoclassifythedataofasthmacasesprovidedbycooperativehospitalstoobtainthedialecticalrulesofTCMasthmadata.Firstofall,theTCMmedicalrecordwasquantified,andthemainsymptomsofTCMasthmawereobtainedaccordingtotheimprovedfeatureselectionalgorithmIHCFS(ImprovedHierarchicalClusteringFeatureSelectionAlgorithm).InordertodescribethesymptomsofmedicalrecordsinChinesemedicinemoreobjectively,thesymptominformationofmedicalrecordsisgradedandquantified,andthedigitalprocessingofautomaticbatchtextisrealizedbydatabaseprogrammingforsubsequentresearch.ForthecharacteristicsoftraditionalChinesemedicalrecorddatafeatures,therearemanysymptomsandredundantinformation,etc.TheIHCFSalgorithmisimprovedtogetthemainsymptomsofasthmabyimprovingtheevaluationfunctionandtheterminationcriterionofthehierarchicalclusteringfeatureselectionalgorithm.Throughsimulationexperiments,itisprovedthattheacquiredmainsymptomsaremoreconducivetosubsequentdialecticalclassification.Then,anensemblelearningbasedonSamplingandFutureSelection(ELSFS),whichisanensemblelearningbasedonmulti-modalperturbationstrategy,isproposedforthedialecticalclassificationofTCMmedicalrecords.Therandomsamplingmethodisusedtoperformsamplespatialdisturbance,andtheIHCFSalgorithmisusedtoperformfeaturespaceperturbationtogetalargerbaseclassifier.SimulationresultsontheUCIII datasetshowthattheELSFSalgorithmhasbetterclassificationperformance.Finally,consideringtheexcessivenumberofbaseclassifierswillproduceredundantbaseclassifiertoaffectthepredictionperformanceofthemodel,aSelectiveEnsembleBasedonWeightedGreedyStrategy(SELGS)isproposedtoreducethestoragespaceinthepredictionstage,soastoimprovetheclassificationability.ThesimulationshowsthattheSELGSalgorithmhasbetterdialecticalclassificationperformance.KEYWORDS:Asthma;DialecticofTCM;FeatureSelection;Generalization;Multi-modalPerturbation;EnsembleLearningIII 目录1绪论..........................................................................................................11.1课题研究背景及意义......................................................................................11.1.1研究背景................................................................................................11.1.2研究意义................................................................................................21.2中医数据挖掘研究现状...................................................................................31.3本文主要研究内容及章节安排.......................................................................41.3.1主要研究内容.........................................................................................41.3.2章节安排.................................................................................................52基于集成学习的中医数据挖掘相关技术..............................................72.1特征选择...........................................................................................................72.1.1特征选择定义及过程.............................................................................72.1.2特征选择要素.........................................................................................92.1.3特征选择算法.......................................................................................102.2数据挖掘.........................................................................................................112.2.1数据挖掘基本概念..............................................................................112.2.2数据挖掘过程......................................................................................122.2.3数据挖掘工具WEKA.........................................................................132.3集成学习.........................................................................................................152.3.1集成学习定义及理论基础...................................................................152.3.2基分类器算法.......................................................................................182.3.3基分类器构造方法...............................................................................212.3.4基分类器集成方式...............................................................................242.4本章小结.........................................................................................................263.中医病案数据处理................................................................................273.1中医病案数据特点.........................................................................................273.2中医哮喘病数据量化.....................................................................................293.3层次聚类特征选择算法改进.........................................................................313.3.1层次聚类特征选择原理.......................................................................323.3.2改进的层次聚类特征选择算法..........................................................343.3.3仿真实验...............................................................................................363.4本章小结.........................................................................................................384.基于集成学习的中医病案数据挖掘....................................................394.1基于多模态扰动策略的集成学习算法.........................................................394.2算法性能实验.................................................................................................414.3基于加权贪心策略的选择性集成学习算法.................................................45IV 4.3.1贪心策略...............................................................................................454.3.2选择性集成学习算法...........................................................................454.4中医哮喘病案辩证分析.................................................................................484.5本章小结.........................................................................................................525总结与展望............................................................................................53参考文献....................................................................................................55致谢........................................................................................................58攻读硕士学位期间发表的学术论文.......................................................59V 青岛科技大学研究生学位论文1绪论1.1课题研究背景及意义1.1.1研究背景中医药学是广大劳动人民在与疾病的长期斗争中所形成的诊治经验总结。历经数千年的积累和洗礼,在逐步发展和完善中与其他学科相融合,成为涵盖众多人体生理与疾病治疗方案并以阴阳五行作为理论基础的医学诊疗体系[1]。其独特的理论、卓越的功效以及对众多疾病治疗的宝贵经验都是具有极高医学价值的历史遗产。随着计算机科学技术和信息技术的发展,中医也顺应潮流逐渐实现信息化和现代化,而中医信息化的前提条件是对现有的临床经验和中医理论进行科学的整理和继承。当前最直接的资源就是当代中医名家在多年临床诊疗过程中所积累的病案,这其中蕴含着中医诊治的基础理论以及医师的创新和治疗心得。中医病案是中医学知识体系的基础载体,也是承载着医理的直接资源。在当今人们对自身健康意识的觉醒以及注重自然健康的大趋势下,中医学的优势和地位也越发的突出和重要。因此,中医学必定会在医疗健康的领域内发挥关键的作用。中医药信息化不仅仅是医学领域迫切发展的需要,而且也是国家发展重要战略之一。在2013年所发布的关于深化改革的重大决定等文件中提出要不断完善中医药事业的发展机制和政策,这些文件都表明了国家对发展中医药事业的重视和态度。2015年卫生部、国家中医药管理局以及国务院办公厅等所颁布的一系列政策文件无不在重申中医药信息化建设的重要意义。当年习近平总书记在中国中医科学院成立60周年的祝贺信中也对中医科研人员给予了高度的肯定和赞赏。随着2002年对医院信息系统规范文件的实施,医院信息系统(HospitalInformationSystem,HIS)得以推广和发展,使得中医病案得以规模化收集和整理;2010年在国家中医药管理局所颁发的有关病案格式规范中对病案通用规则、名称以及书写都做出新的要求[2]。至此,中医病案得以有效开发和利用。如何在海量的中医病案中准确便捷的提取有价值的知识是目前中医药学发展研究的重要问题之一。使用数据挖掘技术从中医病案中获取有价值的信息,发现其中医学诊治的规律和模式,总结归纳出临床辩证的经验中蕴含的理论、规则和知识,从而达到名医经验的科学传承。而且数据挖掘技术也是当前实现中医信息现代化的重要技术手段。但由于中医病案数据量大、特征属性多以及模式多样等问题,使得现有的分类技术存在运算复杂度高、挖掘效率低、普适性较差的情况[3]。1 基于集成学习的中医病案数据挖掘方法研究在数据挖掘所涉及的多个领域,分类技术的研究发展已经成功解决实际应用中的诸多问题。如朴素贝叶斯、K最近邻方法、BP神经网络、支持向量机SVM以及决策树等算法均可以根据自身的特点处理一些相应数据的分类问题,并且在不同的领域得到广泛应。但是在实际的操作中仍存在着分类模型泛化能力弱、不同领域间通用能力差等问题[4]。集成学习通过组合一组具有差异性的分类器从而提升整体分类准确率和泛化能力,正是由于集成学习模型的卓越表现以及大量学者的涌入研究,使得集成学习研究成为数据挖掘领域的主要热点,同时也被国内外很多学者公认为机器学习领域的四个主要研究方向之一[5]。目前集成学习技术已经广泛应用于人脸识别[6-8]、网络入侵检测[9-11]、商业信用评估[12/13]、医学分类[14/15]等领域。本论文是在参与导师课题组项目(山东省重点研发计划基金项目,基金编号为2015GSF119016)的基础上完成的。本课题组与合作医院共同研究多年,致力于中医病案数据信息化和诊断智能化,主要根据现代信息处理的方式研究中医哮喘病病案,并且取得一定的成果。课题组通过对数据分类算法的研究,期望在中医病案数据上获得症状-证型间的辩证规律,有利地推动中医文化的科学传承以及中医信息化客观化的发展。1.1.2研究意义运用科学技术对中医病案挖掘以实现信息化,不仅可以扩充整个医学理论体系,而且会对中医学领域的发展产生强大的驱动力。国家长期的科技发展规划也提出“中医药现代化”的研究课题,核心思想就是要逐步完善中医药科学技术现代化。为使中医诊疗体系更具优势,采用新型的数据挖掘技术研究中医诊疗中积累的病案,使得中医文化得到科学的继承是一项具有重要意义的工作[16]。中医对患者的诊断通常依据医生临床经验和思维习惯来进行,因此使得在临床诊疗过程中获取的数据具有模糊性和不确定性。而采用数据挖掘方法分析病案,揭示其内在联系,可以发现其中所包含的有价值的医学知识[17]。通过数据挖掘等智能化研究,让中医诊断更加科学准确的发展,对加强我国相关产业的自助创新能力和国际竞争力有着重要的学术价值[16]。中医学领域中症状与证型间的辩证过程是整个诊疗过程的核心环节,也是确保疗效的前提条件,而辩证过程的实质就是医疗人员进行分析分类的过程[18]。因此,好的分类算法可以准确挖掘出症状-证型间的关系,从而确保辩证的准确性。本课题研究是在与医院合作多年研究的成果基础上进行的,其研究成果包括中医病案电子化的采集以及病案信息化的处理等。本研究在数据挖掘技术方法上做了2 青岛科技大学研究生学位论文一些尝试探讨,主要利用集成学习方法对哮喘病案进行分析研究,发现诊疗中潜在的辩证、症侯模式等规律,以使名老中医的多年经验得以传承,并可以生成较为科学客观的成果为中医药医护人员提供实践的指导参考。1.2中医数据挖掘研究现状中医辨证论治从症状到证型再到药物组合的过程中包含非定量、笼统性、主观性等思想,因此所产生的信息也具有复杂性、模糊性等和不确定性等特点。运用传统还原论方法单纯的对庞大的辩证数据进行分类分析,难以确保对所有信息的综合考量[19]。而新型智能的数据挖掘技术具备能很好处理中医数据的优势,发掘其中模式和有价值知识。因此将数据挖掘相关技术应用于中医药学领域是实现中医学信息化的重要组成部分,也是中医现代化发展的主要驱动力[20]。随着信息技术的发展,中医病案也逐渐被有效开发和利用,包括中医病案本体构建、中医病案术语规范化以及中医病案的数字化存储等。中医病案本体构建涉及到综合数据库的构建、特色病案数据的构建以及专科数据库的构建等。由于计算机科学技术的日渐成熟使得中医病案数据的规范化得到很大发展。而将繁多的文本病案能够客观准确的量化已成为信息领域的研究热点,但由于中医病案数据所具有的异质性、隐私性、多样性、不完整性以及冗余性的特点,使得对中医病案文本数据的量化处理以及利用特征选择算法对病症的主症状提取也已成为中医信息化的一个重要研究方向。中医学领域中症状与证型间的辩证过程是整个诊疗过程的核心环节,也是确保疗效的前提条件[18]。辩证过程的实质就是医疗人员进行分析分类的过程,而分类分析一直是数据挖掘领域的主要研究方向。数据挖掘中分类分析技术在中医学领域也有非常广泛稳定的实际应用。例如:文献[21]等使用以信息熵为基础的决策树C4.5对胃炎病案建模分析,得到关于胃炎的诊治分类的预测系统。陈明[22]等采用关联规则技术分析肝硬患者症状与证侯间的辩证支持度和置信度。樊晓平[23]等研究一种以自定义网络结构及其他参数为基础的BP神经网络分类模型,并在抑郁症的辩证分类中实施研究。文献[24]等使用支持向量机SVM算法对望诊中的唇色进行智能分类。文献[25]采用随机森林算法针对风湿关节炎辩证过程建立自动分类模型。颜建军[26]等使用极值随机森林方法对慢性胃炎中医证侯进行训练分类,得到具有良好解释性的分类模型。虽然数据挖掘在中医分类分析的应用中取得了不少的成果,但是当前的数据挖掘方法仍然存在着如模型单一、泛化能力差、准确率低等诸多问题;中医病案存在病例数目大、涉及症状数目多、病案数据复杂、冗余信息多等问题;传统单3 基于集成学习的中医病案数据挖掘方法研究一的数据挖掘方法也存在准确率低,对病案数据普适性差以及训练耗时多等问题,显然已经不能满足当前数据挖掘的需求。众所周知构造高准确度的单一模型是非常困难的事情,另外对多数病案数据无法构造行之有效的统一模型,即使所构造的模型对一类和几类数据有效,但在其他新型数据上适用性依然很差。而集成学习通过构建多数准确率不高的单一模型,并将其结合共同预测,进而起到提升整体准确率的效果。集成学习具有较高准确率和较好的泛化性能,因此采用集成学习进行数据分析已成为中医数据挖掘的一个重要分支。例如:朱灿杰[15]将集成学习应用于高血压证素辩证研究中并取得较好的效果;将毕凯[27]集成学习应用于药物相互作用的信息提取中获得较好的结果;潘主强等[28]在中医临床不均衡数据疾病中采用集成学习进行分类研究;肖雨奇[29]采用集成学习对帕金森疾病中医诊断进行研究。在中医信息化领域中设计适用于不同类型数据集并且准确率高的方法是当前中医数据挖掘研究的共同目标,而集成学习因自身构造的特点而具备高泛化性能和高准确率。因而在中医数据挖掘中选择合适的集成学习方法,可以更为准确的挖掘中医症状—证型的辩证规律。集成学习自提出以来无论是算法框架还是理论研究都取得较多的成果,因其卓越的性能表现以及大批学者的涌入研究,目前集成学习已发展成为机器学习领域的主要方向之一[30][31]。现代化、客观化与信息化将是中医科学发展的重要因素。数据挖掘技术不仅能够挖掘中医病案数据中潜在的价值信息,同时也推动中医现代化的发展过程。但是由于中医病案数据本身具有的复杂性,使得中医在数据挖掘方向具有很大的研究空间。本文针对中医哮喘病症状-证型的辩证过程,应用特征选择、集成学习、贪心策略选择等处理手段,并且通过仿真实验验证所使用方法在辩证过程的实用性和有效性。1.3本文主要研究内容及章节安排1.3.1主要研究内容经过阅读大量文献,在中医智能化信息化的背景下以及对中医病案的数据分析基础上,利用特征选择的相关思想处理中医病案数据获取主症状,通过集成学习相关算法对处理后的中医病案数据进行挖掘,研究得到性能较优的中医辨证数据挖掘模型。主要研究内容包括:(1)由于中医病案所具有的模糊性、复杂性以及主观性等特点,采用设定的规则以及利用相关程序对病案数据进行量化处理;而得到的中医数据特征仍具有繁多的症状和冗余的信息,因此利用特征选择算法进行主症状提取;考虑到中医病案数据对各类算法普适性的需求,以及Filter特征选择模型与算法相脱离的特4 青岛科技大学研究生学位论文点,基于Filter模型中以互信息为基础度量的ISFS算法基础上提出一种改进的ISFS算法(IHCFS),主要从评价函数以及停止准则方面对ISFS进行改进;最后在中医哮喘病案数据上仿真验证其性能。(2)中医辩证的实质是对症状-证型的分类过程,在分类数据挖掘中考虑到集成学习模型具有高准确率和较好泛化性能等优点,进而从样本空间和特征空间同时进行扰动使基分类器具有更大的差异性以提高整体泛化性能。基于此,本文结合有放回随机抽样和IHCFS特征选择算法提出了一种基于多模态扰动策略的集成学习数据挖掘算法(ELSFS)。首先对中医病案数据进行有放回随机抽样,接着采用IHCFS算法分别进行特征选择,然后选定基分类算法进行训练得到基分类器,最后通过相对多数投票策略进行集成,得到中医病案数据挖掘模型。在中医哮喘病案数据进行仿真实验,验证了该算法的实用有效性。为进一步验证算法的性能,在UCI的10个数据集上与其他集成学习进行对比仿真实验。(3)考虑基分类器数目过多对预测阶段运算开销的影响,在ELSFS算法的基础上采用加权贪心策略进行选择性集成而提出一种SELGS算法。该算法利用权值突出性能优越的基分类器,剔除性能不佳且冗余的基分类器,进一步提高预测性能,并降低预测阶段的计算量。最后针对SELGS算法的辩证性能以及建模耗时,在中医哮喘病数据上进行仿真分析。1.3.2章节安排本文共有五章,各章节的主要内容如下:第一章是绪论。首先阐述了中医病案数据挖掘的研究背景及研究意义,然后介绍了目前中医数据挖掘的研究现状,简要介绍本文的主要研究内容,最后给出全文章节安排。第二章是基于集成学习的中医数据挖掘相关技术概述,首先描述了特征选择方面知识,包括特征选择的定义及过程、特征选择的要素和特征选择的相关算法;然后介绍了数据挖掘相关内容,包括数据挖掘的基本概念、数据挖掘的过程和数据挖掘的工具WEKA;最后分别从集成学习的定义及理论基础、基分类器算法、基分类器构造方法和基分类器集成方式四个方面阐述集成学习相关知识。第三章主要研究中医病案数据的处理,首先描述了中医病案的数据特点,然后研究了中医哮喘病数据的量化方式,最后通过分析研究提出一种改进的层次聚类特征选择算法(IHCFS)以提取中医病案的主症状:描述了层次聚类特征选择算法的原理、改进层次聚类选择算法(IHCFS)的过程、并在中医哮喘病数据中进行仿真验证分析。5 基于集成学习的中医病案数据挖掘方法研究第四章是基于集成学习的中医病案数据挖掘。提出一种基于多模态扰动策略的集成学习算法ELSFS,并用于中医病案辩证分类。首先描述ELSFS算法的原理、框架及过程,然后对ELSFS算法的性能进行实验分析。为解决基分类器数目过多所产生的冗余基分类器对模型预测性能的影响,提出一种基于加权贪心策略的选择性集成学习算法(SEWGS)。介绍了贪心策略以及SEWGS算法原理,并讲解算法的实现过程,最后在中医哮喘病数据中进行仿真,分析算法中医辨证性能。第五章是本文研究内容的总结与展望,总结本文的主要研究内容及成果的优缺点,展望进一步需开展的工作。6 青岛科技大学研究生学位论文2基于集成学习的中医数据挖掘相关技术2.1特征选择特征选择(FeatureSelection)最初是从统计学角度在19世纪60年代开始的研究,目的是为解决大规模数据计算等问题,由于当时理论及硬件条件等原因,所涉及的数据相较于当前的数据规模和维度并不算高。但是自90年代起,随着各领域中大规模高维度数据的涌现以及在统计学、数据挖掘、模式识别、机器学习等学科方向的深入应用,使得特征选择的研究得到很大发展[32]。在中医病案中,由于中医病案所具有的高纬度、多冗余、数据多样等特点,使得数据挖掘效率和性能较差。因而需要对其进行降维处理,即剔除冗余症状和不相关特征简化数据,以用于后续数据挖掘处理。本小节将简要介绍特征选择的相关知识以及几种特征选择算法。2.1.1特征选择定义及过程在各个领域中用于分析的数据可能具有很多特征,而大多数特征与数据分析的目标无关或者冗余。虽然在数据预处理选择时会人为的剔除无关或多余的特征,但实际情况的效果不尽人意。一方面,冗余和不相关的特征会增加样本数据规模,增大存储成本;另一方面,冗余和不相关的特征还会影响数据挖掘的结果精度,降低知识信息的挖掘能力,甚至可能会降低数据挖掘结果的可理解性。特征选择其实就是从特征空间中挑选能使特定评估最好的特征子集。最终目标是依据所定义的规则挑选出数目尽可能少的特征子集,使关联分析、聚类、分类等任务达到和挑选之前近似或者更优的预期效果[33]。而总体来说特征选择的目标可以分为三个:提高基学习器的学习精度;实现更高效更快速的基学习器,进而提高对深层知识信息的数据挖掘能力;优化数据被处理后所产生知识模式的理解性。即通过特征选择的方式剔除无关或者冗余的特征,减小特征空间的维度,避免大部分学习模型对冗余特征的敏感性问题,使得学习模型更关注于有价值的特征。进而提高基学习器的分类精度,提高深层次挖掘知识信息的能力,同时提高对学习算法处理结果的理解性。而由于对评估最优特征子集的标准以及特征选择的目标不同,因而不同学者针对特征选择的定义也不尽相同。在这个背景下的定义主要有:1.从特征集合中选取特征子集,使其产生类别的条件概率分布与全部特征下产生的类别条件概率分布尽可能相同;7 基于集成学习的中医病案数据挖掘方法研究2.为提高分类或回归模型预测精度或者在一定阈值范围条件下降低模型结构的复杂度而在原特征集合中选择的一个特征子集;3.在原始特征集合D中选取一个特征子集d,其中子集个数确定且|d||D|,使得子集d在所有个数为|d|的子集中对于给定的评价标准是最优的;4.寻找一个对目标概念充分必要并且元素数目最小的特征子集,使得能够降低样本集合的维度、剔除冗余的特征、提升学习模型的准确率和可理解性。以上所述定义体现了针对同一事务不同角度的理解,特征选择最基本的定义是对样本数据进行分析研究的基本出发点,多数特征选择算法都是在其基础定义依据不同侧重点发展而来。特征选择的过程可以看做是一个逐步搜寻特征元素的搜索问题,而其搜索空N间随特征空间维度N呈指数2增长。当特征空间维度过大时,穷举搜索找到特征子集的方法几乎不可能实现。因此,在实践中通常会选择采用启发式搜索策略的贪心算法进行压缩搜索空间,并得到逼近最优解的特征子集。一般来说特征选择的基本流程是一致的,即初始子集、搜索策略、评价标准以及终止准则四大基本要素。首先,从特征集合中选出初始子集,以此为出发点。然后根据选定的搜索策略,依据设定的评价标准筛选特征元素并纳入候选子集。最后将所得候选子集按照终止准则进行判定,若满足终止条件的则算法终止;若不满足终止条件则进入下一轮的筛选环节。特征选择的基本流程如下图2-1所示:图2-1特征选择流程图Fig.2-1Featureselectionprocess如特征选择流程图所示,初始子集作为搜索过程的起点,选择它的策略不同也将会直接影响后续的搜索策略。例如,假设初始子集为原始特征集合,即SF,在后续的搜索中不断的根据特定选择标准剔除不相关或者不重要的特征,这种搜索策略称为后向搜索;如果初始子集S为空,在后续的搜索过程中按照特定的选8 青岛科技大学研究生学位论文择标准逐步添加候选特征,这种搜索称之为前向搜索;如果初始子集随机在原始特征集F中产生,则后续的搜索策略一般采用随机搜索策略剔除或添加候选特征。在按照搜索策略选择一轮特征后,根据终止原则所设定的条件判定候选子集S是否满足。如果不满足终止条件,则需要进入下一轮的搜索过程并生成新的候选子集,直到满足设定的停止标准为止;与之对应的如果满足设定的终止条件,则选择算法停止特征选择并将当前的特征子集S作为最终的结果返回。一般特征选择算法中常使用的终止条件有:1.候选子集S的特征个数达到给定阈值;2.搜索循环次数达到设定阈值;3.评价函数值J(S)达到最优或最高;4.评价函数值J(S)超出设定阈值。2.1.2特征选择要素初始子集、搜索策略、评价标准以及终止准则是特征选择的四大基本要素。而在特征选择的过程中,搜索策略的优劣会直接影响特征选择的速度和结果;而评价标准的优劣决定了所选择的特征的优劣,包含信息量的多少以及对整体算法性能的提升或降低。因此,搜索策略和评价标准是特征选择算法的关键环节,下面将对这两个环节进行简要讨论。获取特征子集的过程,其实是一个搜索最优子集的问题。在整个特征搜索过程中,依据特征候选子集的形成方式可以将搜索策略分为全局最优搜索、启发式搜索、随机搜索三类。1全局最优搜索可分为穷举搜索和非穷举搜索,常见的方法有穷举法、分支定界法、广度优先法、定向搜索法等。其中,穷举法是根据搜索方向从当前候选子集出发访问空间中的每个状态,以便找到最优子集。理论上可以通过给定的一个特征集和评价函数,采用穷举搜索找到最优候选子集,但在实际中搜索空间会随着特征集合的大小呈指数级增长,搜索问题已成为一个NP-Hard问题。分支定界法以树结构形式组织搜索,利用评价函数的单调性根据所设置的阈值进行判定。当低于阈值时进行剪枝处理,即停止子节点方向搜索。分支定界法可以有效避免穷举搜索,但是整体复杂性相对较高。2启发式搜索利用搜索过程中的某些启发性信息朝着最优的目标方向搜索进而避免简单的完全搜索。通常采用贪心策略添加或者删除相应的候选特征。即向候选子集S中添加所有特征中性能最好的特征;或者删除候选子集S中性能最差的特征。这使得候选子集S在搜索过程中逐步选择最优特征,进而使得最终子集9 基于集成学习的中医病案数据挖掘方法研究逼近最优解。3随机搜索策略与全局搜索和启发式搜索的不同在于:随机搜索的候选子集与已选择的特征集合无关而是随机生成。通常以搜索次数为阈值,即提前设定总搜索次数,当超过阈值时算法停止返回当前最优子集。该类算法特点是具有较高的不确定性,实验结果难以复现,且只有在循环次数较大时才能产生较好结果。常见的随机策略算法有模拟退火算法、遗传算法、随机序列选择、进化算法以及禁忌搜索等。各种搜索策略的侧重点不同:启发式搜索效率较高,但是以牺牲全局最优为代价;随机搜索策略对两种方式进行折中,在精确度和效率方面寻找平衡点。因此在实际应用中要根据具体问题需求和评价函数进行综合考虑选择。如果算法只要求速度快,不求全局最优,则可以采用启发式搜索策略;如果特征空间较小,则可以使用全局最优搜索;如果需要性能较高的特征子集,则可以采用随机搜索。在现实应用中也可以根据实际情况并行结合多种搜索策略。特征选择过程中的评价标准,即筛选最优特征元素的度量方法。一般用它衡量特征间的相关性,并直接影响算法最终候选子集的优劣,因此评价标准(度量方法)是特征选择算法的关键问题之一。目前,国内外学者已经提出很多评价标准,可以将它们分为五类:一致性度量标准、相关性度量标准、距离度量标准、信息度量标准和准确性度量标准[34]。综上所述的五类度量标准都有各自的特点。总体而言,信息度量标准优于其他标准;准确性度量标准性能最优,但计算复杂度较高,通用性较差;因此,在实际应用中应根据具体问题需求综合分析考虑,选择适当的度量方式或多种方式结合使用提高效率。2.1.3特征选择算法好的特征选择能有效提高学习算法的效率及性能、降低运算复杂度、构造更简洁的模型。因而机器学习、数据挖掘中的特征选择算法在各个领域的得到广泛关注,也促使特征选择算法研究的快速发展。根据特征选择的角度不同,特征选择算法有着不同的分类。从与学习算法关系角度来看,可以将选择算法分为:Embedded、Filter、Wrapper和混合式模型。其中,Embedded模型中学习训练和特征选择同时进行,且相互交织。其模型构建过程中每次循环就选择一个特征,直至模型构建结束,而此时模型所涉及到的特征子集就是特征选择的结果。即特征选择的过程是分类学习算法的一个组成部分,最具代表的算法决策树C4.5和分类回归树CRAT等。Filter10 青岛科技大学研究生学位论文是被称为过滤器的一类特征选择算法,其特征选择过程与学习算法相独立,在训练前剔除或选择相关特征子集。一般采用与类别关联程度的度量来区分特征元素的优劣,只依赖于数据集本身的度量标准,因此具有鲁棒性强、效率高等特点,适用于大规模数据集。Wrapper模型,即封装器特征选择模型,在特征选择时结合其他统计抽样技术,如交叉验证等来评价所选择的的特征子集的准确性。Wrapper方法虽然准确性较高,但算法较为复杂,运算速度慢,且依赖于具体算法,鲁棒性较差。因此,通常只适用于数据量较小基分类算法明确的情况。混合式模型是将Filter模型和Wrapper模型结合,从而保留模型的高效性和准确性,而规避各自的缺点。混合特征选择通常有两个阶段构成:首先利用Filter模型剔除无关或相关性低的特征,降低搜索规模;然后使用Wrapper模型处理剩余特征样本,对特征子集进行优化选择。在课题研究的中医病案数据样本维度较高,要求样本数据集处理对各类算法具有普适性等特点。考虑Wrapper和Embedded模型存在鲁棒性较差、复杂度高、不适合大型数据集等问题;而Filter模型具有计算高效、与后续数据挖掘算法相分离、适用于大规模数据集特征选择、获得子集对算法具有较高鲁棒性等特点。因此Filter特征选择模型能较好适用于课题的病案特征选择应用中。在Filter特征选择模型中,Relief[35]、FCBF[36]以及ISFS[34]是比较具有代表性的算法。其中Relief是Kira等提出的基于欧式距离作为度量标准的特征权重算法;FCBF使用对称不确定性度量特征间的相关程度,并以此作为特征选择的标准,其相关程度是指重要程度高的特征与已选特征间不确定性较低而对类别间的不确定性较高;ISFS层次聚类特征选择算法,以信息熵和互信息作为特征之间的基础度量,由于信息熵和互信息能够准确量化表述事物间的不确定性,因此使得算法具有较好的性能。2.2数据挖掘2.2.1数据挖掘基本概念数据挖掘(DataMining,DM)即在大规模的数据中发掘出有价值的规律和知识的过程[37],即从数目非常多、嘈杂并且不完整的数据中,归纳分析出蕴含其中有价值知识的过程。也可以理解为:在大规模数据集中搜寻有趣的隐藏事件,利用数理统计、机器学习等先进技术进行深入分析和提取,找出其中的知识,根据不同的需求建立不同的模型,并以此为决策分析提供参考依据。数据挖掘按照其主要功能可以分为七大类别[38]:概念描述,总结数据集中某些特点并对其所蕴含的含义进行描述;关联分析,挖掘大量数据中出数据项之间11 基于集成学习的中医病案数据挖掘方法研究的关联性;分类和预测,根据原有数据的学习进而对后续数据进行分类预测;聚类分析,将目标数据依据的异同点划分不同的类别;偏差分析,将偏离期望目标的某些特点进行标记展示;孤立点分析,检测数据集中与绝大多数不同的数据项;趋势分析,分析数据集研究整体走势。数据挖掘领域汇集了多个交叉学科,如图2-2所示:包括数理统计、AI(ArtificialIntelligence)、机器学习、信息检索以及模式识别等信息学科;其应用范围包括临床医学、生物医学、市场营销以及零售业、金融业、保险业等社会学科。通常采用的方法有:决策树、K最近邻方法、关联规则、支持向量机SVM、人工神经网络、集成学习、朴素贝叶斯方法以及新型的智能方法等。图2-2数据挖掘领域Fig.2-2Theareaofdatamining2.2.2数据挖掘过程数据挖掘的一般步骤如图2-3所示:图2-3数据挖掘过程Fig.2-3Dataminingprocess数据挖掘过程中各环节的主要内容有[38]:第一步是确定业务对象,即在熟悉相关背景知识的情况下明确客户需求,确定研究目标和要探索的问题。第二步12 青岛科技大学研究生学位论文是进行数据的准备,这个环节包括数据的采集、预处理以及数据的转换。第三步是进行实际的数据挖掘操作,利用机器学习、统计学等方法再根据需求类型和数据特点选择相应的挖掘算法,之后进相应的挖掘处理搜寻有兴趣的事件。由于中医数据的特点,因此要求进行数据挖掘的算法要满足以下几方面的特性:首先是正确率要高,算法应该能从数据中提取重要有效信息精确诊断;其次能有效处理缺失数据,算法应该恰当有效处理不完备的病案样本;解释能力强,算法应该对所得的结论有合理的解释;诊断结果的表述力强:算法必须以一种清晰的形式展现所挖掘的知识。中医病案中包含很多数据类型复杂、难以理解的潜在信息,而将新型的数据挖掘技术应用于中医领域的研究,是中医学现代化、信息化的重要组成部分,也终将促进中医的发展。2.2.3数据挖掘工具WEKAWeka是怀卡托大学知识分析环境[39](WaikatoEnvironmentforKnowledgeAnalysis)的英文首字母缩写。怀卡托机器学习团队宣称:他们团体的总目标是要建立软件开发机器学习技术,使得机器学习技术内容较为容易的获得,开发新型机器学习算法并推向社会,将这些技术应用于解决现实世界的数据挖掘问题,为该领域的理论框架做出贡献[40]。基于此目标Weka开发初始就定位为非商业的、基于Java环境的、免费开源数据挖掘平台。它融合数据预处理、分类、关联分析、聚类以及数据可视化等大量数据挖掘任务的机器学习算法。除此之外,还可以实现用户新型的数据挖掘算法,即通过weka接口将用户设计的算法加入平台中并实现可视化。Weka数据挖掘平台包含分类、聚类、关联分析、特征选择等功能处理以及可视化和预处理工具。其主界面采用图形用户界面(GUI),在打开软件后,显示的主界面如图2-4所示。主界面中包含五个用户接口:Explorer(探索者)、Experimenter(实验者)、Knowledge(知识流)、Workbench(工作台)以及SimpleCLI(命令行)。同时这也是Weka的五个主要功能。本文主要使用Explorer(探索者)模块进行实验研究,它具有很好的交互性和清晰的图形界面。13 基于集成学习的中医病案数据挖掘方法研究图2-4Weka主界面Fig.2-4Wekamaininterface用户可以根据需要选择适当的模块进行操作,在打开Explorer(探索者)模块显示界面如图2-5所示,界面上方有六个不同的标签页代表六个不同的功能,分别为Preprocess(预处理)、Classify(分类)、Cluster(聚类)、Associate(关联分析)、Selectattribute(属性选择)以及Visualize(可视化)对应多种数据挖掘方式。图2-5Explorer(探索者)主界面Fig.2-5Explorerinterface在进入Explorer(探索者)模块之后便可以选择相应的数据集进行对应的数据挖掘,每个标签页完成不同的工作,窗口底部有Status(状态)、Log(日志)栏。用户可以根据各个标签栏相应区域调整参数;可以通过状态栏查阅当前工作状态信息;可以通过日志栏查阅日志。例图2-6所示:选择Sonar数据集并使用十字交叉验证的方式对其进行KNN分类。14 青岛科技大学研究生学位论文图2-6Weka分类挖掘界面Fig.2-6Wekaclassificationinterface本研究所涉及的算法在Weka工具中均已实现,例单学习模型C4.5(weka.classifiers.trees.J48)、KNN(weka.classifiers.lazy.IBK)以及集成学习算法Bagging(weka.classifiers.meta.Bagging)、随机森林(weka.classifiers.meta.RandomForest)、AdaBoost(weka.classifiers.meta.AdaBoostM1)以及RSM(weka.classifiers.meta.RandomSubSpace),在实验时设定相关参数调用即可。2.3集成学习构建一个精度较高的分类模型不易,但是产生众多精确度一般的模型较为容易。因此,考虑如何将多个精确度一般的模型进行联合工作,使之整体发挥相比单个模型更好的通适用性能。在这种情况下,集成学习就应运而生。2.3.1集成学习定义及理论基础1.集成学习定义集成学习(EnsembleLearningMethod)是一种为了提高分类准确率的分类预测算法。它与以往传统学习算法的针对特定训练集训练得到单个学习模型,然后对未知样本预测的方式不同。它在训练数据集基础上构建若干个具有差异性的基分类器,然后将所有基分类器各自对新数据预测的结果整合作为最终预测结果。相对于单个学习模型,集成学习在多数情况下可以显著提高学习模型的通适用性,就是所说的泛化(generalization)能力,即学习算法在训练集上学习得到的模型需要15 基于集成学习的中医病案数据挖掘方法研究对不同新的数据进行预测的能力。因而,从它的概念产生以来,对集成学习理论和算法的研究就注定成为机器学习领域中关注的重点,对此的理论研究成果亦是层见叠出。虽然集成学习的整体框架如此,但是理论意义上的定义却很多。例如:Hansen和Salamon将多个独立的神经网络按照一定的原则进行组合,显著提升整个学习模型的泛化性能。他们对神经网络集成的定义为:定义2.1神经网络集成(NeuralNatworkEnsemble)是用若干个神经网路针对同一问题进行学习,对预测样例的结果由参与的各神经网络对于该样例的结果共同决定的一种算法。由于意识到神经网络集成所蕴藏的广阔应用前景,很多学者都投入到神经网络集成研究中。正因为如此,使得神经网络集成的理论和应用研究硕果不断。与此同时,神经网络集成的思想也得到很大扩展,学习算法不仅限于神经网络,涉及到例如决策树、贝叶斯、支持向量机等算法,并产生集成学习的研究领域。在这种情况下,对集成学习的定义也多种多样,狭义定义为:定义2.2集成学习是利用多个同质的基学习器对一个问题进行学习,最终对某样例的输出由各个基学习器在该样例下的输出共同决定。同质指的是参与训练的所有基分类算法属于同一种类型,不存在不同类型的算法进行集合,例如所有学习器都是神经网络、都是决策树或者支持向量机。而从广义上来说,将多个学习器进行联合的方式均属于集成学习。因此集成学习的广义定义为:定义2.3集成学习是将多个独立的学习器进行学习,最终对某样例的结果由参与构成集成的各个基分类器在该样例下的结果共同决定。由以上两种定义可以看出,广义定义的集成学习中基分类器可以是异质的,即个体分类算法可以是不同类型的,而且不限定是对同一个问题进行学习。这也使得以往名称不同,但本质相近的算法分支,例如信息融合(InformationFusion)、多分类器系统(MultiClassifierSystem)、委员会学习系统(Committee-basedLeaning)等都归纳到集成学习框架下。由于各个算法分支领域间有诸多互通性,将他们归纳在一起,对深入理论、算法以及应用研究都有很大好处。从这个角度来说,集成学习已经发展为一个包含内容丰富、研究范围较广的领域。2.集成学习理论基础2010年ACM图灵奖获得者Valiant[41]提出概率近似正确学习模型PCA(ProbablyApproximatelyCorrect)。在PCA模型理论中认为对一个问题的学习模型准确率很高的学习器,称之为强学习器;如果学习模型的准确率仅仅比随机数据略好,则称之为弱学习器。L.G.Valiant和M.Kearns认为弱学习模型可以与16 青岛科技大学研究生学位论文强学习模型等价,即可以将弱学习算法提升为强学习算法。这正是集成学习思想的起源,通过集成方式,可以找到弱学习模型到强学习模型的转化方式。由投票法组合构成的集成学习中以基分类器的最多数选择作为最终的结果,相应的如果是二分类,则将所有超过一半错误预测的组合累加就是集成学习的错误率。例:假设有N个相互独立的弱分类学习器,其分类误差均为p,那么在使用多数投票法组成的集合模型中的预测结果分类错误率为:NNk(Nk)Perrorp(1p)(2-1)kN/2+1k由公式可知,当p0.5时P随着N的增大单调递减。而弱分类器的精确度均高error于随机猜测值0.5,因此集成模型中的个体数目越多,则准确率越高。虽然实际应用中集成模型与理论值有所偏差,但泛化能力的提高着实显著。主要有三方面的原因:第一个原因从统计学角度分析:学习模型可以理解为在假设空间H中寻找一个最好的假设函数。当没有足够的数据时,学习算法会在空间H中找到很多不同的假设函数,难以区分正确率较为相似的分类器。但是将所有假设集成就会大大降低选错分类器的概率。第二个原因从计算角度分析:大多数学习算法会出现局部最优的状况,即使模型又足够多的训练数据,从计算角度而言,寻找假设空间中的最佳解释函数依旧很是困难。但是通过从不同的出发点开始得到局部搜索集成则会比所有单个分类器效果更好,且能够更好地逼近全局最优解。第三个原因从假设函数分析:在实际应用中,很难用假设去表示真实的函数f。虽然可以通过对假设空间的假设进行加权求和进而表示真实函数f。然而,当训练集数据有限时只能搜索到有限的假设空间,并且找到适合训练样本的分类器就会停止。3.集成学习要素集成学习模型通常包含三个主要因素[42]:基分类器算法、基分类器生成方式以及基分类器的集合方式。基分类器算法是指在训练基分类器时所选择的学习算法,一般采用传统的分类学习算法,例如神经网络、决策树、朴素贝叶斯、支持向量机以及最近邻算法等。基分类器生成方式是指将基分类算法进行训练进而形成具有差异性基分类器的方法,例如通过选择不同的样本子集或者特征子集使得训练具有差异性。基分类器集合方式是将最终所得的一组基分类器以绝对多数投17 基于集成学习的中医病案数据挖掘方法研究票法或者相对多数投票法产生输出结果的方法。集成学习模型的构建包括两大步骤:首先是采用选定的基分类器生成方法,根据选定的训练集,训练得到有差异的基分类器;然后,采用一定的集合方法,对参与构建基分类器的输出进行组合得到集成学习的最终输出。在后面几节将详细讨论分析集成学习的各个要素。2.3.2基分类器算法基分类器算法,即单个分类模型的构造方法,包括数理统计方法和机器学习方法。本小节主要对常用的决策树方法、神经网络以及K最近邻进行原理介绍。1决策树决策树是归纳学习的一系列算法,它能从毫无规律的数据集中推理出具体的表示形式和分类规则。利用决策树算法构建模型的过程采用的是自顶而下的递归方式,这个过程其实就是根据特征对样本进行逐步划分类别的过程[43]。例如图2-7所示,这是一棵已经构建好的决策树模型。模型中A,B,C表示属性名,a1,b1,c1为属性A,B,C的取值,模型共有甲乙丙三种类别。则对应的,如果对新样本进行预测假设属性A取值为a1,属性B取值为b3,则样本划分为丙类。图2-7简单决策树模型Fig.2-7Simpledecisiontreemodel决策树模型包括根节点、内部节点和叶节点,其中根节点和内部节点是属性或者属性集合,叶节点是分类结果。利用决策树模型对样本分类时,由根节点依次对样本的内部节点属性进行比较判断以得到分类结果。而要使用模型对样本进行分类首先是根据数据集训练构建决策树模型,其构建的过程就是递归选择最具有区分度属性的过程。由于对区分度属性选择度量的标准不一样,也就发展形成不同的决策树算法[44]。例如以信息熵为属性选择度量标准的ID3算法,虽然该算法具有很好的可理解性和较好的分类性能,但是在选择属性时存在趋向多值属性18 青岛科技大学研究生学位论文以及不能处理连续型属性的问题。为改进算法的缺点随之出现以信息增益率作为属性选择度量标准的C4.5算法;以GINI系数作为属性选择度量标准的分类回归树算法(ClassificationAndRegressionTree,CART);以及适合大规模数据并且速度更快的决策树算法SLIQ(SupervisedLearningInQuest)等。2神经网络神经网络模型是参照人体大脑神经细胞的工作机制而建立的,由单个神经元节点组成。目前绝大多数神经网络模型均采用BP网络或它的变化形式,其主要原理是根据输出层的直接前导层误差估计前一层的误差,一直传播下去直到获取各层的误差估计。这样便形成输出层误差沿着信号相反传送的方向逐级向网络输入层传送的过程,因此算法被称为BP(Back-Propagatoin)算法[45]。典型的BP网络通常包含三层:输入层、隐藏层和输出层,也可以改变网络层数或节点数目来构建神经网络,而每一个神经元都可以接受上一层的多个输入,但只有一个输出到下一层的神经元。如图2-8所示的简单神经网络模型。图2-8神经网络结构图Fig.2-8Neuralnetworkstructure算法开始首先初始化网络权值,在输入层输入样本,根据公式(2-2)计算隐藏层各个神经元的输入值:nIi=wijxji(2-2)j1其中w为隐藏层i神经元与输出层j神经元的连接权重,为隐藏层i神经元的偏iji置项。然后依据选择的激励函数Sigmoid函数(2-3)计算隐藏层中各个神经元的输出值。1o(2-3)ili1e19 基于集成学习的中医病案数据挖掘方法研究之后根据隐藏层神经元的输出值,以线性函数方式(2-4)计算神经网络的输出。my=vioi(2-4)i1上式中v表示输出层与隐藏层i神经元的连接权重。当输出值不收敛时则依据输出i层隐藏层各个神经元的误差修正各层权值,重新开始计算输出值。对于隐藏层中的节点数目的设定如果太少,则网络获取信息能力较差性能也会较差;当数目较多时则会使训练时间过长,且容易出现过拟合现象,对新样本预测能力差。确定隐藏层节点数目的基本原则是:在达到精确度基本前提条件下,选择尽量紧凑的结构,使用可量少的节点数[46]。3K最近邻方法K最近邻[47]分类方法(K-NearestNeighbor,KNN)是Huart和Cover等人于1968年所提出,经过时间的洗礼和应用实践证明该算法是具有比较成熟理论的方法,同时也被机器学习领域很多学者誉为最为经典的机器学习算法之一。KNN主要是基于距离准则来对未知样本判断所属类别,其算法不是靠判别类域方法划分事物类别,而是依靠未知事物周围有限的邻近样本进行判别。因而相比于其它分类方法,KNN更适合对类域有交叉或重叠的数据集样本进行分类。KNN算法主要思想原理:对未知样本X的分类依据是从原始样本集中找到最近距离的K个样本,其中这K个样本中多数样本所属的类别就判定为样本X的类别。图2-9KNN示意图Fig.2-9KNNCaseDiagram算法中所使用的衡量距离的度量标准一般为闵可夫斯基距离[48],即设样本空12nT12nT间为n维实数向量空间Rn:x(x,x,...,x),x(x,x,...,x),x,x,样本xiiiijjjjiji和样本x的闵可夫斯基距离为:j20 青岛科技大学研究生学位论文1nkkppLp(xi,xj)(k1|xixj|),p1(2-5)当p1时,上式成为曼哈顿距离(Manhattandistance),即:nkkL1(xi,xj)k1|xixj|(2-6)当p2时,上式成为欧式距离(Euclideandistance),即:1nkk22L2(xi,xj)(k1|xixj|)(2-7)当p时,上式成为切比雪夫(Chebyshevdistance),即:1nnkkppkkL(xi,xj)lpim(k1|xixj|)mka1x|xixj|(2-8)通常KNN算法选择欧式距离做为衡量样本间相似度的度量标准,它能较好的表示出样本个体特征的绝对差异,较常用于多维度样本差异性的分析[49]。2.3.3基分类器构造方法通常集成学习模型相比单分类模型准确率更高、泛化性能更好。集成模型获得高准确率和高泛化性能的充要条件是:训练得到一组差异性较大的基分类器。在本小节将介绍三种常见的构造具有差异性基分类器的方式。1样本空间扰动样本空间扰动主要是划分原训练数据集,从而产生不同的训练子集,利用训练子集的不同训练获得具有差异性的分类器。此类方法对于不稳定的算法非常有效,不稳定指的是学习算法在训练集有微小变化时所输出的结果会有很大变化。针对样本空间扰动的方法中,第一种方法是将训练集均分隔成一些不相交的训练子集,然后选取不同的几个训练子集作为训练集。最常见的方式例将训练数据随机划分成10个不相交的子集,每次选取9个不同的子集作为训练集,这样便可以产生10个不同的训练集。另外一种方法是有放回抽样法,也称为自助法。它是将随机抽取的样本再放回原样本集中等概率地进行下一轮的抽样,直到抽取的子集大小和原样本集大小相同。假设原数据集有N个样本,产生d个样本子集,那么则需要进行d轮的抽取。在每一轮的抽取中每个原数据集中的样本被自助抽样抽取的概率为1N11-(1-)。由数学知识可知当N充分大时该概率逐渐逼近1e0.632。即抽取N21 基于集成学习的中医病案数据挖掘方法研究的大小为N的子集大约包含原数据集中63.2%的样本。因此在不同的子集之间存在一定的差异性。使用这种方式进行扰动的典型算法是Bagging(Bootstrapaggregating),如图2-10所示:对数据集采用有放回抽样法得到T个数据子集,针对这T个数据子集训练得到基学习器,然后将所有基学习器进行组合确定最终结果。组合的方式有很多,例如简单投票法集合方式是将最多基学习器得到的结果作为最终结果。Bagging算法正是通过有放回抽样获得训练集来增加基分类器简的差异性,进而提高整体泛化能力。该算法相对比较稳定,即使在训练集有一定噪声的情况下仍可以改善学习模型的性能。图2-10Bagging框架图Fig.2-10Baggingframework第三种方法是更改权重法:典型的是Boosting系列算法,它可以提升弱学习器的整体准确率。AdaBoost是其中算法的代表,与Bagging思想原理不同,其思想原理如图2-11所示。由Freund提出的AdaBoost算法起源于Valiant提出的PAC[34](ProbablyApproximatelyCorrect)学习模型,通过处理训练样本产生不同的分类器,在之后的运算过程中根据分类器的准确率赋予分类器不同的权重,基于分配的权重提高前一次被分错类样本权值,降低正确分类样本的权值,进而进行下一轮的训练得到基分类器。Boosting与Bagging思想原理的区别在于训练集的选择方式,Boosting每一次训练的训练集都与之前学习器的学习结果有关,而不像Bagging并行式的训练基学习器,其训练集相互独立。Boosting模型不太稳定,尤其是当训练集有一定的噪声时,该模型可能会使学习系统性能有所降低。22 青岛科技大学研究生学位论文图2-11Boosting框架图Fig.2-11Boostingframework2特征空间扰动特征空间扰动是通过给学习算法输入包含不同的特征子集的训练集从而产生多个不同的基分类器。这类方法在一定程度上可以避免了维度灾难问题。常见的特征空间扰动方式有两类:第一类是在特征空间中引入随机性,即针对同一数据集在特征空间中随机选择一个特征子集或者说随机删除一些特征得到数据集。因为引入的随机性使得数据集虽然样本数目一样但是特征空间不同,进而对学习算法训练得到的基分类器也不同。对于类别有C种的问题,特征消除法训练出C个分类器,每一个分类器对应一个类别,并选择与该类别相关度最高的特征子集,其中的相关性是显示计算。典型的算法例如属性Bagging[50]、特征消除法[51](Inputdecimation)、随机子空间法RSM[52](RandomSubspaceMethod)等。其中属性Bagging和RSM两种方法与Bagging模型思想原理相同,区别在于保持样本不变而选择不同的特征子集从而获取不同的训练集。另一类是采用遗传算法或者粒子群优化算法等智能算法选择最优特征子集与Boosting类模型进行结合,例如李诒靖[53]等提出的基于智能搜索选择属性结合Boosting形成自适应的集成学习方法,通过搜索选择属性及反馈迭代分类结果,有效降低样本空间噪声提高属性子集间的差异性,从而提高算法性能。23 基于集成学习的中医病案数据挖掘方法研究3多模态扰动通过单一形式获得差异性基分类器的方法称为单模态扰动,相应的同时采用多种形式来获得多样性的基分类器的方式称为多模态扰动。一般从样本空间、特征空间、学习参数以及分类标签等方面考虑。例如经典的随机森林[54]算法(RandomForest)正是结合样本扰动和输入随机特征的决策树集成的算法,它在以决策树为基学习器构建Bagging集成的基础上,进一步在属性上引入随机性。传统决策树在节点划分属性时,是在当前节点的属性集合中选择一个最优属性。而在随机森林算法的基决策树划分属性时,是先从该节点的属性集合(d个属性)中随机选择一个属性子集(k个属性),然后再从这个子集中选择最优属性。一般k取值为dklog用于控制随机性的引入程度。随机森林具有模型简单、容易实现、计算2开销小等优点,且在很多现实应用中表现出强大性能,该算法具有更高的准确率以及更好的泛化性能;Latinne[55]等提出的将Bagging与随机子空间法相结合的多模态扰动集成模型;Raviv等使用神经网络算法对训练集进行重有放回抽样以及对特征空间引入随机性,然后再加入高斯噪声等进行训练集成大大提高算法的性能;江峰[56]等采用抽样与属性约简结合的方式得到分类精度较好的集成学习模型。2.3.4基分类器集成方式在生成基分类器之后便是将基分类器进行结合以得到最终的学习模型,将基分类器进行集合方法有投票法、处理类标签法以及stacking方法。下面将对常见的结合方法投票法以及纠错输出码法进行讨论分析。1投票法投票法是多个分类器组合的最简单有效的方法,相当于其学习器的线性组合。常用的投票方式有绝对多数投票法和相对多数投票法,其中绝对多数投票法指的是在所有基分类器中有超过一半以上的基分类器选择同一个分类结果;相对多数投票法是指最终结果为该分类模型中基分类器结果数目最多的类别。而相对多数投票法与贝叶斯框架近似,因此也被称为贝叶斯模型组合(Bayesianmodelcombination)。每个输出h可等同于一个条件概率分布P(f(x)y|x,h)。给定一个新的数据样本x和一个训练集S,预测f(x)的值可以用H中所有假设的加权求和来表示,即:24 青岛科技大学研究生学位论文P(f(x)y|S,x)h(x)P(h|S)(2-9)hH2纠错输出码处理输出类标签主要是对基分类器的输出结果进行处理。其中典型的方法就是纠错输出编码(ErrorCorrectingOutputcoding,ECOC),其主要思想为如果将一个类和其他类别区分开是非常困难的问题,则可以定义一组简单的分类问题,使得每个专注于原始任务的一方面,通过将这些简单分类器组合得到最终分类器。具体做法如下:在多分类任务中,对不同类别样本赋予一个长度为L的二进制编码,将多分类任务转化为L个互补相同的二分类任务。此时就为每一个类别赋予一个编码位串,多分类问题转换成位串矩阵,其中每一列对应一个二分类的基分类器。对与第L个二分类器,将在第L位编码为0的样本标记为A类,为1的标记为B类。然后根据新标记的A、B两类样本训练该二分类器,可得到所有的L个二分类器。在对新样本进行分类时,所有基分类器输出组成一个位串。将L个二分类器预测结果与之前设定的二分类编码进行比较,可以得到相应的分类预测。以上的分类函数的预测过程也可以理解为:将L个类别随机分成A和B两个子集,训练出来L个二分类器,对新样本分类时,依次使用L个分类器分类。若结果为0,则类别子集A中的每一个类别得到一票;若结果为1,则类别子集B中的每一个类别得到一票。在L个分类器都预测完后,得到票数最高的类别就是新样本的最终类别。3选择性集成法选择性集成法,即不全部使用所有的基分类器进行组合,而是根据设定的规则选取特定的基分类器进行组合的方法。此类方法起源于:随着基学习器的增多,所需要的计算与存储开销也急剧增加的问题。周志华[57]等研究发现,选择部分基学习器进行集成能得到更好的泛化性能,即通过对基学习器进行选择后再集成能获得更好的性能,这种集成思想称为选择性集成。相比于集成学习,选择性集成在提高泛化能力,剔除对集成学习器的预测能力具有负面影响的基学习器,进一步提高预测性能;以及降低预测阶段的开销,去掉冗余基学习器以减少集成学习器的存储空间、降低预测计算量、加快预测速度两个方面更具有优越性。基学习器的选择实际上是一个组合优化问题,如果采用穷举法则面临着组合爆炸的问题。现有的选择性集成算法主要包括:排名法、分簇法、模式挖掘法、迭代优化法等。当前很多方法试图通过逐步迭代来寻找近25 基于集成学习的中医病案数据挖掘方法研究似最优解。基于迭代优化的算法有:爬山法、遗传算法、贪心法等。但是目前的这些方法也存在着很多问题,例获得全局最优解、迭代终止准则设定等。2.4本章小结本章主要对基于集成学习的中医数据挖掘的相关技术进行概述,首先对特征选择进行介绍,其中描述了特征选择的定义及过程、特征选择要素和特征选择的主要算法;然后阐述了数据挖掘相关知识,包括数据挖掘基本概念、数据挖掘过程和数据挖掘工具WEKA;最后介绍了集成学习相关知识,有集成学习定义和理论基础、基分类器基础算法、基分类器构造方法和基分类器集成方式的概述。26 青岛科技大学研究生学位论文3.中医病案数据处理中医不同于西医具有标准客观的量化体系,中医的诊疗是阴阳相互变化和转化的动态过程。在这个过程中主诊医师会掺入个人的主观意识:例如医师会以患者的病情症状作为基础,加入推断、理解和体会等;另外,不同医师对病案记录的风格也不尽相同。因此,中医病案样本数据在采集完成后需要进行统一规范处理,这样才能进行下一步的数据挖掘工作。另外,针对中医病案存在的特征维度较高以及信息冗余等问题,非常有必要进行特征选择的处理工作。这些工作对后续的数据挖掘有着关键性的作用,是数据挖掘能取得较好成效的前提条件。3.1中医病案数据特点病案,在古代被称之为“医案”、“诊籍”和“脉案”等,现在随着电子信息化的发展,逐渐又发展为“病历”。它是医生诊治疾病过程中的记录,一般包含有病人的详细病情、家族史或既往史、辩证记录、治疗效果等信息。医师将患者病经、患者个人信息、患者症状、感觉等按照实事求是的原则真实可靠的记录下来[58]。由中医诊断学的表述:中医诊查基本方法主要有望、闻、问、切四诊,由四诊记录的信息主要是体征和症状,统称为“症”,是辨别证型、判断病证的主要依据。疾病的表述十分复杂,但在中医辨证中可以用“实证”、“虚症”、“阳证”、“阴证”、“热证”、“寒证”、“表证”以及“里证”这八证辩证法进行表述[59]。其中实证与虚症表示邪正盛衰;阳证和阴证辨别疾病的类型;热证和寒证区分疾病的性质;表征和里证区分病灶的深浅。中医的症状的收集主要望、闻、问、切四诊进行。望诊是运用视觉对病人神、色、形、态、舌象、皮肤、五官九窍以及分泌物进行有目的的观察,以测知身体病变情况。现代望诊主要分为望色和望舌两种方式,望色指的是医生对病人通过观察面部颜色和光泽收集症状,颜色是指色调的变化,色泽是指明度的程度。望舌包括观察舌苔和舌质两方面,望舌苔分为望苔质和望苔色,望舌质包含神、形、色、态四方面。闻诊是医师根据听觉和嗅觉辨别患者声音和气味变化来推测病变的一种诊法。听觉内容主要有医患人员的呼吸、呃逆、嗳气、太息、肠鸣、咳嗽、呕吐等各种声音,根据声音的高低、大小、清浊来辨别虚实寒热。嗅气味内容包括病人分泌物、排泄物以及病室的气味。问诊主要依靠病人的主诉来了解疾病的主要矛盾。切诊是医师切按病人脉博和胸胁、腕腹、手足以及其他部位,来感知体内外变化的情况。一般切诊分为脉诊和按诊两类:脉诊是根据脉象的一种诊断27 基于集成学习的中医病案数据挖掘方法研究方法。即通过切按的方式得到脉位、脉长、脉力、脉宽、脉率、均匀度、紧张度、流利度等脉象信息。中医病情症状的收集强调四诊共同参考的原则,即四诊了解病情的方法各有独特的作用,不能相互取代,必须有机的结合起来,这样才能系统全面的描述病情症状[58]。病案是病患人员整个诊疗过程的文本记录,包括患者的个人信息、医院的运营信息以及临床诊断信息。数据种类纷杂多样,且数据量也比较浩大。中医病案的表现形式和侧重点有所不同,有的侧重症状辩治;有的侧重病理归纳。不同类型的病案形式和记录方式各有不同,同时还存在很多诸如:在传统的书写格式中也不是很规范、内容的记录往往症状说明复杂、主观推断时繁时简等问题。但总体来说病案有很多相似的特点,可以概括为以下几方面[19/20]:1.病案数据的异质性:中医病案内容具有复杂性的特点,主要原因是医师在记录时可能会将与病人的交谈内容、医生的注释或解释以及其他信息掺杂进来。其次是医学数据具有低数学特性,对疾病症状的描述采用非结构化的语言,很难标准化,更有甚者同部门的医师对病人的状态也不能一致描述。虽然病案的内容记录存在异质性,但这些内容均是疾病诊断及治疗的基础。2.病案数据涉及的隐私、伦理等社会问题:医学数据是记录关于患者诊疗过程的信息,因此不可避免的会涉及病患人员伦理、私有性、安全性等比较敏感的信息。医学数据挖掘人员在处理这些样本时,一方面要尽量保持在原样本数据的信息基础上进行研究;另一方面也有责任和义务确保数据的机密安全性。3.病案数据的多样性:针对同一疾病的中医病案,所记录的数据是从临床实践、医生个人诊断以及与患者交流中获得的,包括纯数据、文字影像、信号等多种形态。医学数据原始的病案信息具有多样性的特点,因此,数据挖掘时应该选择相对应合适的工具进行研究。4.病案数据的不完整性:样本的采集过程是以诊治患者为目的,而处理某种病症是寻找其中的一般规律。因此,病案的采集和处理过程会因为目的不同而有所脱节,不能包含处理过程所需要的所有信息。病案的有限性致使可能对一种疾病的信息无法全面反映。5.病案数据的冗余性:医学病案数据是一个庞大的资源,因此可能会包含重复冗余的样本、另一方面记录的内容可能会以不同角度重复性出现相同特征表述信息。若针对某方面的分析研究,就会不可避免的出现数据冗余的现象。这时就应该选取感兴趣的数据进行挖掘。28 青岛科技大学研究生学位论文3.2中医哮喘病数据量化中医病案存在很多问题,例如症状、证名等概念模糊、证型诊断标准不规范、对某证特异性的刻意划分、辩证分型不统一;各证间界限含糊不清、证名杂乱、一证多名、以病为证、以证为病等多类问题。因此,在对中医哮喘病病案进行数据挖掘研究之前,应该先规范化预处理病案数据[60]。本课题研究采用的数据集是根据1066例哮喘病中医病案整理而来。病案中的症状对应五个证型,详细证型数据如表3-1所示:表3-1样本数据统计Table3-1Sampledatastatistics证型风哮证寒哮证热哮证肾虚寒哮证肾虚热哮证总数数目70261548761111066根据《青岛市中医医院肺病科-优势病种中医诊疗方案》以及文献[61]可知五中证型的证侯诊断依据,其发作期的症状表现分别为:1.风哮证:反复发作,时发时止,发时喉中哮鸣有声,止时如常人,舌淡苔白,病发有鼻痒、喷嚏、咳嗽、脉浮紧、咽痒等症;2.寒哮证:呼吸急促,喘憋气逆,喉中哮鸣如水鸡声,痰多,色白多泡沫,易咯,口渴喜热饮,恶寒,天冷受冷易发。四肢发冷,面色青晦,舌苔白滑,脉弦紧或浮紧;3.热哮证:喉中痰鸣如吼,胸闷气喘息粗,咯痰黄稠,烦躁不安,发热口渴,咳吐脓血腥臭痰,大便秘结,小便短赤,舌苔红黄腻,脉滑数;4.肾虚寒哮证:喘息,咳嗽夜间严重,咯白泡沫痰或白沾痰,口干不欲饮,畏寒背冷,头晕耳鸣,足跟疼,小便次数多,全身乏力,舌淡苔白;5.肾虚热哮证:喘息,咳嗽夜间严重,胸闷,咯痰黄粘,痰少,口干喜饮,小便赤黄,自汗,小便赤黄,全身乏力,舌红苔黄;中医病案具有文本表述症状的量化性不强的特性,因此在处理样本数据时将症状进行数据量化。根据病案以及病案中出现关键词的频率,本课题选取哮喘病中医病案中“咳嗽”、“呼吸”、“咯痰”、“胸闷”、“喘息”、“气急”、“哮鸣音”、“舌质”、“苔色”、“厚薄”、“舌滑腻”、“脉位”、“流畅度”、“紫绀”、“小便”、“寒热”以及“大鱼际掌纹”17个症状特征进行表述,用以对应“风哮证”、“热哮证”、“寒哮证”、“肾虚寒哮证”以及“肾虚热哮证”5个证型。为尽可能保留原样本病案信息,使得量化过程尽可能客观化,将量化数据范围在病案涉及特征出现程度词中尽可能大。例如:咳嗽这一症状,为使得客观化,将其划分为无、轻、中、重四类,对应量化为{0,1,2,3}。实际量化过程基于以下29 基于集成学习的中医病案数据挖掘方法研究两条规则进行:1.对于病案中不涉及的症状,则该症状默认为“正常”或“无”,大鱼际掌纹默认“阴”,并对应量化数值;2.病案涉及的症状,但没有描述轻重程度时默认为“中”,并对应量化数值。对应的症状以及证型特征编号、中医描述和量化取值如表3-2所示。病案量化过程采用Java程序中的Map()函数完成,即将每种症状编号后以键值对,value=量化值>的形式存入map中,然后遍历读取病案样本每一项数据,在map中查找其对应的量化值并在对应序号下输出。表3-2症状量化表Table3-2Symptomquantificationtable序号症状及中医描述量化值序号症状及中医描述量化值a咳嗽{无,轻,中,重}{0,1,2,3}j厚薄{正常,厚,薄}{0,1,2}b呼吸{正常,不畅,困难}{0,1,2}k舌滑腻{正常,滑,腻}{0,1,2}c咯痰{无,轻,中,重}{0,1,2,3}l脉位{正常,浮,沉,实,虚}{0,1,2,3,4}d胸闷{无,轻,中,重}{0,1,2,3}m流畅度{正常,滑,涩}{0,1,2}e喘息{无,轻,中,重}{0,1,2,3}n紫绀{无,轻,中,重}{0,1,2,3}f气急{无,轻,中,重}{0,1,2,3}o小便{正常,偏黄,赤黄}{0,1,2}g哮鸣音{无,轻,中,重}{0,1,2,3}p寒热{无,发热,烦热,畏寒,恶寒}{0,1,2,3,4}h舌质{正常,偏淡,偏红}{0,1,2}q大鱼际掌纹{阴,阳}{0,1}i苔色{正常,偏白,偏黄}{0,1,2}r证型{风哮证,寒哮证,热哮证{V,W,X,Y,Z},肾虚寒哮证,肾虚热哮证}例如某病案样本信息为:XXX,男,61岁,微咳,痰多,呼吸急促,喘憋,气逆,喉中哮鸣,易咯,面色青晦,舌苔白滑,脉弦浮紧,寒哮证。其对应的量化数据信息为:图3-1病案样本量化信息Fig.3-1Samplequantificationinformation如上图所示,第一行字母为特征序号代表对应的中医症状信息,其中序号r表示证型信息,即样本的类别信息。中医病案量化的部分数据信息如图3-2所示:30 青岛科技大学研究生学位论文图3-2部分样本量化矩阵Fig.3-2Partialsamplequantificationmatrix如上图所示,除证型这一特征转化为字母替代外,哮喘病的中医病案数据在进行客观量化后全部转化为数据信息,这样一方面是使得样本数据更为客观准确;另一方面易于使用数据挖掘方法进行处理。3.3层次聚类特征选择算法改进由于通过数据量化获得的中医哮喘病数据具有高纬度、信息多冗余、数据多样等特点,故而在进行数据挖掘之前先进行特征选择处理以获得病案主症状。在特征选择的模型中考虑其与后续数据挖掘算法的关系,以及中医病案数据要求对各算法普适性的特点,运用Filter模型进行特征选择。在Filter特征选择模型中层次聚类特征选择算法(ISFS)采用信息熵和互信息作为基础度量,信息熵和互信息能够更确量化表述事物间的不确定性,但是层次聚类特征选择算法中的评价函数会出现倾向具有多值的特征,从而影响后续的数据挖掘准确性。因此本文提出一种改进的层次聚类特征选择算法—IHCFS(ImprovedHierarchicalClusteringFeatureSelectionAlgorithm),在层次聚类特征选择基础上改进停止准则,从而使其能够更好的、自主的获取病案主症状。31 基于集成学习的中医病案数据挖掘方法研究3.3.1层次聚类特征选择原理聚类分析的思想是使得同类数据尽可能相似,不同类数据间差异尽可能大;而层次聚类特征选择是使得所选择的特征与类别相关性尽可能高,与已选特征冗余度尽可能低。层次聚类中使用类间距离S和类内距离S对特征进行度量。其中bw类间距离S表示特征与另一个组特征间差异性或距离;类内距离S表示同一组特bw征间的相似性。层次聚类特征选择算法目的是获取一个特征子集,其过程采用层次合并聚类的方式,使每个相同类间内部是紧密状态,而不同类间的差别较大,即与类内距离S最小且类间距离S最大的特征与选择类合并,而当满足设定的停wb止条件时,聚类过程停止。层次聚类特征选择算法中进行聚类的个体不是样本数据,而是单个特征元素。设给定样本数据集为T(O,F,C),有m个样本,n个特征。其中O,F,C分别表示数据样本集、原始特征集以及类别标签。将特征集F划分为选择类S和候选类f,选择类S表示已选定的特征集合,其中的元素为每次寻优的最佳特征;候选类fF表示特征集中未被选中的特征,且每个候选类只包含一个候选特征。在聚类过程开始时每个候选类则代表一个特征,与标签类距离最远的候选类则被赋为选择类。利用互信息I(C,f)表示候选特征f与标签类C的“距离”,选择类S与标签类C之间的类间距离S(C,S)由选择类S中已选特征s与标签类C的“距离”之和b表示,即:Sb(C,S)I(C,s)(3-1)sS其中互信息(MutualInformation)是信息论中度量变量间相互依赖程度的变量,表示变量间共同拥有的信息量或者说变量因另一个变量而减少的不确定量[48]。即给定随机变量X和Y,则对应的互信息I(X,Y)为:I(X,Y)H(X)H(X|Y)H(Y)H(Y|X)(3-2)H(X)为随机变量X和的信息熵(Entropy),是表示其混乱程度的一个物理量,即:32 青岛科技大学研究生学位论文H(X)=-p(x)logp(x)(3-3)xDH(Y|X)为随机变量Y关于变量X的条件熵(ConditionalEntropy),是变量Y在变量X确定的前提下自身不确定程度的度量[47],即:H(Y|X)p(x,y)logp(y|x)(3-4)xD1yD2D,D为随机变量X和Y的值域,即x,y的取值范围。12对于候选特征f与选择类S的距离,不仅考虑选择类与候选类间的冗余信息量,还要考虑信息增长率,因为选择冗余增长率较低的特征可在一定程度缓和选择类的冗余程度。但是如果考虑使用互信息作为选取标准,则容易倾向选择具有较多取值的特征,不能恰当的表达增长率信息。利用关联系数作为度量冗余性的标准,给定选择类S,则候选类f与选择特征sS的关联系数为:I(f,s)CU(f,s)(3-5)H(s)在此基础上,候选特征f与选择类S的“距离”可表示为候选类f与选择特征sS的关联系数之和。即:S(f)CU(f,s)(3-6)sS相应的候选特征f与选择类S的类内距离S(S):类似的通过相同方式获得。初始w化S(S)0,随着候选特征f不断地与选择类S合并,类内距离S(S)按累加方式ww计算:S(S,f)S(S)S(f)(3-7)ww在特征选择过程中除类间距离S和类内距离S外,考虑已选择特征的数目这bw个因素。数目越小则意味着后期所构造的分类器具有更好的普适性和鲁棒性。对应的评价函数为:S(C;S,f)bJ(f)(3-8)|S|S(S,f)w其中,|S|为选择特征的数目。评价函数J(f)表示:候选特征f与标签类C距离越大,即关联程度越高;同时又距离选择类S较小,则候选特征f具有较高的优先33 基于集成学习的中医病案数据挖掘方法研究性与选择类S合并。J(f)越大表示候选特征f所含信息量越多,在每一层的计算中,使J(f)最大的候选特征f即为本层最优特征。图3-3算法特征选择流程图Fig.3-3Featureselectionalgorithmflow层次聚类特征选择算法流程如图3-3所示:针对输入的特征集合F和阈值,选取每一层的最优特征进入选择类,当选择类数目达到阈值时算法终止,并输出特征子集S。3.3.2改进的层次聚类特征选择算法层次聚类特征选择算法中的评价函数在判定特征时会偏向取值较多的特征,使得所选取的特征子集与对类别贡献度最高子集有所出入;其次该算法以特征子集数目作为终止阈值,不能准确度量特征子集整体信息量,为此本文提出改进的层次聚类特征选择算法(ImprovedHierarchicalClusteringFeatureSelectionAlgorithm,IHCFS),主要从三个方面对层次聚类特征选择算法进行改进,具体内容如下:S(C;S,f)(1)ISFS算法的评价函数J(f)b,其分子表示选择类S在将候|S|S(S,f)w选特征f纳入后与标签类C之间的类间距离S(C,S),选择类S中已选特征s与标b签类C的“距离”之和I(C,s)表示。而由于评价函数是选取每层最优的候选特sS34 青岛科技大学研究生学位论文征f,因此使用候选类f与标签类C的类间距离S(C,f)I(C,f)替代选择类S与标b签类C之间的类间距离,不仅不会影响评价函数的功能,还会极大的降低算法的运算复杂度。(2)针对候选特征f与选择类S的距离,利用关联系数作为度量冗余性的标准,但是互信息具有偏向于取值较多特征的特点,为了使得不同特征的互信息具有可比性,将关联系数改进为对称不确定性关联系数。即公式(3-5)改为公式(3-9):给定选择类S,候选类f与选择特征sS的对称不确定性关联系数为:2*I(f,s)corr(f,s)=(3-9)H(f)H(s)(3)层次聚类特征选择算法是根据给定的特征子集数目阈值来作为终止条件的。虽然特征子集的数目能在一定程度上表现特征子集的规格,但是不能准确恰当的表述特征子集所包含的信息量,因此本文对于算法的停止准则依靠信息占有比率进行改进。即类比于PCA算法的信息占有比率定义选择类信息占有函数:J(f)+J(f)+...+J(f)12iG(S)(3-10)iJ(f)+J(f)+...+J(f)12n其中J(f)为第i层的最优特征所对应的评价函数值,n=|F|表示原属性个数,i1in。默认设定信息占有比率阈值为85%,也可根据实际情况更改,即当累计信息占有率大于设定阈值时算法结束,并输出对应的特征子集S。iIHCFS特征选择算法过程为:首先是根据互信息计算每个候选类f与标签类C之间的类间距离,找出使I(C,f)值最大的特征f并入选择类S中,并记录第一层的评价函数值J=max(S(C,f))。然后计算所有候选类f与标签类C以及与选择类1bS的类间距离S(C,f)及类内距离S(S,f),选择具有最大评价函数值J(f)的候选特bw征f并入选择类S,在候选集并集中去除候选类f,并记录对应评价函数值S(C,f)biJ(f)。随后根据剩余候选类f更新类间距离S(C,f)及类内距离ib|S|S(S,f)i1wiS(S,f),当选择类的信息占有比率满足时算法结束。其具体的具体实现为:w输入:训练集T(O,F,C)输出:属性子集S35 基于集成学习的中医病案数据挖掘方法研究step1初始化参数S=,S01wstep2fori=1tonstep3找到fargmax(S(C,f)),使F=F-f;S{f}bistep4endforstep5fori=2ton遍历第2层到第n层step6forj=1to|F|遍历剩余的属性元素S(C,f)step7SSS(f),SSI(C;f)J(f)bij(fF)计算对应的评价函数wiwjbibj;jj|S|S(S,f)wijstep8endforstep9根据评价函数选择该层最优属性,并记录对应的评价函数数值fargmax(J(fi)),SwSwS(f),SbSbI(C,f);Ji(f)maxJ(fj)(fjF)step10合并属性,SSf,FF{f}ii1step11endforJ(f)+J(f)+...+J(f)step12do12iG(S),i计算属性子集信息占有率iJ(f)+J(f)+...+J(f)12nstep13WhileG(S)istep14输出属性子集Si由之前假定数据集有m个样本,n个特征及算法分析可知:候选类f与标签类C的类间距离S(C,f)的时间复杂度为O(m);评价函数J(f)的时间复杂度为b2O(mn)。选择一个候选类f所需要的时间复杂度为O(mn),而整体算法最多循环3n次,因此算法总的时间计算复杂度为O(mn)。3.3.3仿真实验为验证IHCFS特征选择算法的性能,在哮喘病中医病案数据采用Relief、FCBF以及ISFS进行特征选择对比试验分析,并与原始病案数据相比较,其中所有特征选择算法阈值均设定为85%。算法的性能从获得特征子集质量和分类准确率两方面进行分析。中医哮喘病案量化后的数据信息为:样本数1066,特征数17,类别数5。经各特征选择算法处理后所得症状集合信息如表3-3所示:36 青岛科技大学研究生学位论文表3-3算法处理后的症状集合Fig.3-3Symptomcollectionafterprocessing原始症状集ReliefFCBFISFSIHCFS症状数目1714141412咳嗽、呼吸、咳嗽、呼吸、咳嗽、呼吸、咳嗽、呼吸、咳嗽、呼吸、咯痰、胸闷、咯痰、胸闷、咯痰、胸闷、咯痰、胸闷、咯痰、胸闷、喘息、气急、喘息、气急、喘息、哮鸣喘息、哮鸣喘息、哮鸣哮鸣音、舌质、哮鸣音、苔音、苔色、音、苔色、音、苔色、症状集合苔色、厚薄、色、脉位、厚薄、舌滑厚薄、舌滑舌滑腻、流舌滑腻、脉位、流畅度、紫腻、脉位、腻、流畅度、畅度、紫绀、流畅度、紫绀、绀、小便、紫绀、小便、紫绀、小便、小便、大鱼小便、寒热、寒热、大鱼寒热、大鱼寒热、大鱼际掌纹大鱼际掌纹际掌纹际掌纹际掌纹由实验结果可以看出,经IHCFS处理后的主症状数目更少。而所选择出的主症状已经包含哮喘病的85%的信息量,这也说明其他几种算法在特征子集数目上设定阈值所得到的特征子集仍具有一定的信息冗余性。以上参与实验的特征选择算法都是Filter模型,均与具体的学习算法相独立。因此需要其它学习算法的参与才能验证对后续算法准确率的影响。为避免单一算法对某些特征的偏好以影响实验的准确性,采用决策树C4.5、最近邻分类器KNN、朴素贝叶斯分类器NBC三种不同的学习算法进行分类验证实验。实验将病案数据的一半作为训练集,剩余作为测试集,分别进行10次取平均准确率。各算法准确率如表3-4所示:表3-4特征选择后各算法准确率Fig.3-4Accuracyrateofeachalgorithmafterfeatureselection算法原始病案ReliefFCBFISFSIHCFSC4.580.21%81.63%80.67%82.09%82.48%KNN79.27%80.58%80.01%81.41%82.25%NBC78.71%80.12%79.69%80.62%81.13%表格数据表示哮喘病数据经各特征选择算法处理后在不同分类算法下的准确率。为使表述更直观形象,采用柱状图进行对比,如图3-4所示:37 基于集成学习的中医病案数据挖掘方法研究图3-4各算法准确率Fig.3-4Accuracyofeachalgorithm由试验数据看出经过特征选择算法处理之后再进行分类的准确率均有较大幅度提高,说明特征选择对分类挖掘是非常有必要的环节。此外在后续的三种分类结果中,可以看出ISFS算法相比其他算法效果较为显著,说明了基于层次聚类特征选择的有效性。而IHCFS算法相比于ISFS算法性能也有较大提高,进而说明IHCFS算法性能的优越性,以及对后续挖掘效果有较好的提升。3.4本章小结本章主要针对中医病案数据的处理方面进行分析和研究,首先描述了中医病案数据的特点,然后研究了中医哮喘病数据的量化过程,最后在病案主症状的特征选择算法上进行分析研究,提出一种改进层次聚类特征选择算法(IHCFS),主要描述了层次聚类特征选择算法的原理、IHCFS特征选择算法原理及流程,并在中医哮喘病数据中进行实验分析了该算法的可行有效性。38 青岛科技大学研究生学位论文4.基于集成学习的中医病案数据挖掘由症状到证型的辩证过程是整个中医诊断的核心环节,其辩证的优劣直接决定了诊断的方向。而辩证过程的本质就是根据症状判定证型的分类过程,由于中医所涉及的参数众多使得整个过程及其困难,虽然有名老中医可以根据自身多年的临床经验掌握其中的规律,但是仍有很多有些无法赋值言表的经验无法得到很好的传承。因此,利用机器学习的方法发现中医病案中隐藏的名老中医的就医经验,是相对最为客观有效的途径。由于中医病案数据特征繁多并且存在大量冗余性,传统的数据挖掘方法显然不能适应中医病案数据的分类处理,而集成学习是机器学习中分类准确率高、泛化能力好的一类算法,将其应用于中医症状-证型的分类预测,可有效确保辩证的有效性。故而本研究针对中医辨证分类提出一种基于多模态扰动策略的集成学习—ELSFS(EnsembleLearningBasedonSamplingandFutureSelection)算法。集成学习是将多个不同的单个模型组合成一个复合模型,利用单个模型之间的多样性来改善模型的泛化性能。但当所设定的基分类器达到一定数目时,就会产生冗余的基分类器,预测性能也会因增加的运算开销而有所降低。而通过对基分类器的筛选选择,选取性能较好的基分类器组合不仅可以提高预测性能、而且降低预测计算量加快预测速度。为此在多模态扰动集成学习的基础上提出一种基于加权贪心策略[62]的选择性集成学习—SEWGS(SelectiveEnsembleBasedonWeightedGreedyStrategy)算法,并在中医哮喘病案数据中验证其辩证性能。4.1基于多模态扰动策略的集成学习算法集成学习具有较高准确率和较好泛化性能的充要条件是获得一组具有较大差异性的基分类器。因此,获得一组差异性大的基分类器是构建集成学习模型的重要目标。而构造多样性的基分类器通常从以下几个方面考虑:输入变量集重构法,用于集成的各算法的输入变量是原变量集的一个子集,例如样本抽样获得样本子集、特征选择获得特征子集等;参数选择法,对于需要设定很多参数的算法,不同的参数选择会使得结果可能会有很大区别,因此通过改变各算法间的参数来获得多样性的基分类器。通过单一形式获得差异性基分类器的方法称为单模态扰动,相比单模态扰动的集成学习,采用多模态扰动策略从特征空间、样本空间或者引入其他参数以多种形式同时进行扰动的集成更容易产生较大差异性的基学习器,从而保证基学习39 基于集成学习的中医病案数据挖掘方法研究器的多样性。因此,本研究从基于多模态扰动策略出发探究集成学习方法。首先采用有放回随机抽样策略来对样本空间扰动;然后采用特征选择算法进行特征空间扰动,而由于IHCFS特征选择算法良好的性能,故而将IHCFS特征选择算法引入集成学习中进行特征空间的扰动,在上述扰动方法的基础上提出了基于抽样和特征选择的集成学习算法(EnsembleLearningBasedonSamplingandFutureSelection,ELSFS)。ELSFS算法首先进行有放回随机抽样。即对训练集进行k次随机抽样获得k个抽样子集;然后分别对每个抽样子集采用IHCFS算法进行特征选择,得到k个样本子集;再然后是根据样本子集对所选定的基分类算法进行训练。采用给定的基分类器算法在每个特征选择后的样本子集上进行训练,得到k个基学习器;最后将所有基分类器按照相对多数投票的方式集成。即对未知样本分类预测时,按照基分类器中相对多数的选择结果为最终预测结果。ELSFS算法的流程如图4-1所示:图4-1ELSFS算法流程Fig.4-1FlowchartofalgorithmELSFSELSFS算法将抽样技术与特征选择技术结合在一起来训练,从而得到差异性较大的基分类器。其在中医哮喘病案挖掘中的流程为:首先对中医哮喘病案数据进行有放回抽样,即对病案训练集进行k次随机抽样,得到k个病案抽样子集,这些抽样子集的病案数目相同但其中病案样本不同,因而具有一定的差异性;然后针对对每个病案抽样子集采用IHCFS算法获取主症状,得到k个病案样本集,40 青岛科技大学研究生学位论文由于病案抽样子集的不同,在获取主症状处理后其差异性得到进一步增大;然后是采用决策树C4.5或者KNN算法在样本子集上进行训练,得到k个决策树基学习器或者KNN基分类器;最后相对多数投票集成。对未知样本分类预测按照基分类器中相对多数的选择结果为最终预测结果。4.2算法性能分析为验证ELSFS集成学习算法的整体性能,分别采用C4.5和KNN作为基分类算法,并在10个UCI数据集上对比四个具有代表性的集成学习算法:RSM、Bagging、AdaBoost、以及随机森林算法的性能。其中Bagging和Adaboost是比较具有代表性的基于样本空间扰动的集成学习算法;随机子空间法RSM是采用特征空间扰动的集成学习算法代表;这三种集成学习方法都是基于单模态扰动的集成学习模型,随机森林(RandomForest,RF)是基于多模态扰动的算法代表。实验所有数据集均来自加州大学欧文分校(UniversityofCalif-orniaIrvine简称UCI)计算机科学与技术学院(http://archive.ics.uci.edu/ml/datasets.html)。这些数据都是现实应用中收集而来,并且在数据挖掘领域的对比学习算法性能时经常使用到。由于ELSFS算法适合于处理离散型属性,因此对数据集中的连续型属性进行了离散化处理。离散化过程采用了数据挖掘工具Weka中提供的等宽度离散化算法,其中区间数设置为5。对于缺省数据采用统计方法补齐缺失值,即该特征中最常见的数值填补缺失值。数据集的相关信息如表4-1所示:表4-1数据集相关信息Table4-1Theinformationofdata序号数据集名称样本个数特征个数类别数1Sonar2086022Ionosphere3513423ILPD5831024Yeast1500103145Soybean68336196Vehicle8461847Heart3031458Wine17813229Anneal89838610Waveform5000403ELSFS算法采用Java语言实验,其中基分类器数目设置为50,而参与实验的RSM、Bagging、AdaBoost、随机森林算法采用weka软件中的算法,基分类器的规模统一设置为30,其他参数采用默认值。实验数据按照如下规则构建:给定数据集D,随机选取D的50%样本作为训练集,用于模型训练;剩余50%样本作41 基于集成学习的中医病案数据挖掘方法研究为测试集,用于验证算法的准确率。此外,为保证实验结果的稳定性,每个算法都重复执行十次,取其平均值为最终结果。在进行实验结果分析之前,首先说明一下所使用到的评价指标,通常分类问题中对分类效果的评价标准有很多,比较常用有召回率、准确率、F1值等。统计这些评价标准用到的符号和含义如表4-2所示:表4-2评价指标参数Table.4-2Evaluatingindicatorparameter预测值实际值正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)本文选择准确率为模型的评价指标,即分类结果中正确数量占总分类数的比值,表示“预测的正例实际也是正例”与“预测的反例实际也是反例”占预测总数的比例。计算公式如式4-1所示:TPTNAcc(4-1)TPFPFNTN为使得实验分析结果易于理解,将实验结果按照基分类算法进行划分,即分别讨论在一种基分类算法下各特征选择算法的性能对比。采用C4.5为基分类器时各集成学习算法在不同数据集上的准确率如表4-3所示:表4-3C4.5为基分类器时各集成学习分类准确率Table4-3EnsembleLearningaccuracyofeachdatasetunderC4.5数据集RSMBaggingAdaBoost随机森林ELSFSSonar79.33%77.88%77.88%83.17%88.96%Ionosphere91.45%92.88%93.16%92.88%94.51%ILPD70.50%66.72%71.53%70.33%75.19%Yeast63.76%60.46%65.27%75.47%83.98%Soybean92.63%92.97%93.41%93.85%95.49%Vehicle73.88%74.34%74.70%75.29%82.17%Heart88.45%86.47%87.46%92.08%95.38%Wine92.69%93.26%92.13%96.07%95.21%Anneal78.06%77.39%77.17%81.73%86.85%Waveform78.78%83.14%83.46%84.47%89.79%平均值80.95%80.55%81.62%84.53%88.75%为更形象直观的对比各类集成学习算法在不同数据集上的准确率,给出对比如图4-2所示:42 青岛科技大学研究生学位论文图4-2以C4.5为基分类器时各集成学习准确率对比图Fig.4-2ComparingtheaccuracyofensemblelearningbasedonC4.5classifier采用KNN为基分类器时各集成学习算法在不同数据集上的准确率如表4-4所示:表4-4KNN为基分类器时各集成学习分类准确率Table4-4EnsembleLearningaccuracyofeachdatasetunderKNN数据集RSMBaggingAdaBoost随机森林ELSFSSonar78.85%78.37%76.92%83.17%87.53%Ionosphere91.74%93.73%92.31%92.88%93.21%ILPD70.84%67.07%71.18%70.33%76.92%Yeast64.60%63.13%64.33%65.47%81.59%Soybean92.83%92.09%93.12%93.85%94.31%Vehicle74.11%72.70%75.06%75.29%82.04%Heart89.44%88.78%83.83%92.08%94.33%Wine91.01%91.57%90.45%96.07%95.02%Anneal77.62%77.17%76.95%81.73%87.68%Waveform79.16%83.02%83.38%84.47%88.31%平均值78.85%78.37%76.92%83.17%88.09%以KNN为基分类器时各集成学习在不同数据集上的准确率如图4-3所示:43 基于集成学习的中医病案数据挖掘方法研究图4-3以KNN为基分类器时各集成学习准确率对比图Fig.4-3ComparingtheaccuracyofensemblelearningbasedonKNNclassifier由图4-2和4-3的对比可以看出相同算法在不同数据集的准确率有所差异,说明分类结果与数据集自身结构有一定的联系。也可以看出在每一组数据集实验上,参与对比的集成学习算法中本文所提出的算法准确率显著高于其他算法。为更直观观察,统计分别以C4.5和KNN为基分类器的集成学习在不同数据集平均准确率进行对比,如图4-4所示:图4-4选择不同基分类器时各集成学习平均准确率对比图Fig.4-4Comparingaverageaccuracyofensemblelearningbasedondifferentbaseclassifiers由实验数据可知,无论以决策树C4.5还是KNN作为基分类算法,基于多模态扰动的随机森林和ELSFS算法相比于基于单模态扰动的RSM、Bagging、AdaBoost算法的分类准确率均有大幅提升。这也说明基于多模态扰动策略的集成学习模型在分类精度方面优于基于单模态扰动的集成学习模型,而ELSFS算法与随机森林相比分类准确率也有很大幅度的提升,由所有数据表明ELSFS算法不仅44 青岛科技大学研究生学位论文可行有效而且相比其他集成学习更具优势。4.3基于加权贪心策略的选择性集成学习算法4.3.1贪心策略贪心策略,也称为贪心选择法,表示总是选择当前最优的以期望达到整体最优。贪心选择法是指所求问题全局最优解通过一系列局部最优的选择来完成的方法。利用该策略解决问题时需要将问题划分为一系列的规模较小的子问题,进而找到一组构成解的候选对象集合。起始候选对象集合为空,之后依次选择能够解决问题的最佳子解合并到候选对象集合中,并记录该集合,直到所有子解被遍历选择完,此时在候选集合中选择解决问题的最佳组合。它的基本思想是从问题的初始解出发逐步前行,根据设定的度量标准,每步都要确保选择局部最优解。而且每一步只考虑一个元素。若元素和部分最优解连在一起不再可行时则剔除该元素,直到将所有元素枚举完算法停止。假设问题Q可以拆分为若干子问题,其子问题对应可能解的候选集合为C{c,c,...,c},解集合为S。则采用贪心策略选择最优解的过程为:12n1.初始化解集合S;12.选择候选集合中最优子解bestmax{c,c,...,c}(1kn);12k3.将最优子解纳入解集合S,并将其从候选集合C中剔除;iSSbest,CCbest(1in);i1i4.重复步骤1-3,直到候选集合为空C或者检查解集合S是否构成问题i的完整解来终止循环;5.选择最佳的组合为问题Q的最终解Smax{S,S,...,S}(1in);12i4.3.2选择性集成学习算法集成学习通过构造基分类器之间的差异性来获得较高的准确率和较好的泛化性能。但是当基分类器的规模达到一定数目时,就会产生冗余的基分类器,因为增加运算开销而降低预测性能。为进一步提升集成模型的性能,并降低预测计45 基于集成学习的中医病案数据挖掘方法研究算量,加快预测速度,本研究从选择性集成角度考虑剔除冗余的基分类器。而另一方面由于各基分类器的分类预测性能不同,为更突出性能较为优越的基分类器,因而首先对各个基分类器按照其分类性能设定一定的权值,然后再采用贪心策略进行选择组合。在上述基分类器选择的基础上本研究提出一种基于加权贪心策略的选择性集成学习算法(SelectiveEnsembleBasedonWeightedGreedyStrategy,SEWGS)SEWGS算法首先进行k次有放回随机抽样,得到k个抽样子集;然后分别对每个抽样子集采用IHCFS算法进行特征选择,得到k样本子集;再然后采用给定的基分类器算法(如决策树C4.5、KNN等)在每个样本子集上进行训练,得到k个基分类器;最后根据验证集验证各基分类器的性能,赋予相应的权值,由于基分类器性能可由准确率来体现,因而直接采用基分类器在验证集的准确率作为该分类器的权值,接着通过贪心策略进行选择性集成。将选择性集成中的最佳组合作为最终的预测模型,对未知样本分类预测按照基分类器权值选择结果作为最终结果。SEWGS算法的流程如图4-5所示:图4-5SEWGS算法流程Fig.4-5FlowchartofalgorithmSEWGSSEWGS算法的具体实现为:输入:训练集T(O,F,C),候选基分类器数目k;46 青岛科技大学研究生学位论文输出:集成分类器Estep1从训练集T中无放回抽取验证集V,数目占训练集总数34;step2fori=1tok同时启动k个线程(2.1)从训练集T中无放回抽得相同数目的抽样子集Sam(i);(2.2)采用IHCFS算法选择属性,得到样本子集Se_Sam(i);(2.3)在Se_Sam(i)上训练候选基分类器H(i);(2.4)针对验证集V根据样本子集Sam(i)的进行属性约简,得验证集V(i);(2.5)统计候选基分类器H(i)在验证集V(i)分类精度P(H(i)),并计入Map();(2.6)记录基分类器H(i)的权值wP(H(i));i(2.7)endstep3按照分类精度,将全部(k个)候选基分类器降序排列,并计入Cand;step4初始化:E,count0;step5CandCand{H},并令EE{H};(H为分类精度最高的基分类器)111step6While(Cand.length0)do(6.1)对任意HCand构建集成分类器EC(E{H}),并在验证集上确定其精度P(EC(E{H})),count++;(6.2)找到基分类器H,使P(EC(E{H}))Max(P(EC(E{H})),将H下标maxmaxmaxj计入已选基分类器数组BA[count]j,并令PA[count]P(EC(EH));max(6.3)EE{H},CandCand{H};maxmax(6.4)endstep7找出分类精度最大元素PA[t],(1tk);tstep8E{Cand[BA[i]]}H;i11为降低在基分类数目过大时造成的预测耗时多、存储空间大等问题,SEWGS算法从选择性集成角度考虑剔除冗余的基分类器。而为更突出性能较为优越的基分类器,弱化性能较差的基分类器,本研究直接将各个基分类器在验证集上的准47 基于集成学习的中医病案数据挖掘方法研究确率作为该基分类器的权值,这样不仅能够客观的表述基分类器对最终选择的贡献度,另一方面也对基分类器的选择提供一定的客观信息。基于以上分析的因素,SEWGS选择性集成算法不仅能够保留原基分类器整体的预测能力,而且还能降低预测时的运算开销、提高预测速度。4.4中医哮喘病案辩证分析针对中医哮喘数据,主要以KNN和决策树C4.5分别作为基分类器进行仿真挖掘:内容包括K值对ELSFS算法的影响以及在不同K值下集成学习算法间的对比;以决策树C4.5为基分类器,分析讨论在中医哮喘病案辩证中训练集和测试集的不同比例对测试准确率的影响,以及不同基分类器数目下SEWGS算法与其他集成学习算法的性能对比。实验以KNN作为基分类器,选择中医哮喘病案数据集的一半作为训练集,另一半作为测试集,基分类器数目设置为50。讨论K取值的不同对ELSFS算法准确率的影响,分别以K=1、2...20进行实验,每次实验重复10次并以平均值作为实验的结果。K在不同取值下ELSFS算法准确率如图4-6所示:图4-6ELSFS算法在K不同取值下的准确率Fig.4-6TheaccuracyofELSFSalgorithmunderdifferentvalueofK由上图可以看出在K取值1到3时,ELSFS的准确率是递增的;而当取值大于3时准确率递减,K取值为3时识别率较高为95.75%。说明ELSFS算法仍保留KNN对样本周围一定数量样本分类准确的特性。为验证各集成学习在不同K值下的性能,同样选取中医哮喘病数据集的一半作为训练集,另一半作为测试集,针对K的不同取值对集成学习进行对比实验。实验选取RSM、Bagging、Adaboost算法参与对比,由实验结果显示K取值大于4时所有集成学习的准确率均呈下降48 青岛科技大学研究生学位论文趋势,所以只显示K取值1至7的对比实验结果,如表4-5所示:表4-5各类算法在不同K值下的准确率Table4-5ClassificationaccuracyofvariousalgorithmunderdifferentKvaluesRSMBaggingAdaboostELSFSK=182.41%84.24%80.37%94.52%K=282.55%85.33%81.93%95.21%K=379.93%82.93%83.86%95.75%K=479.36%81.99%86.58%95.68%K=578.80%81.24%82.86%95.35%K=678.24%80.88%79.17%94.99%K=777.67%80.87%78.80%94.31%由以上结果显示在K的不同取值下,ELSFS算法的准确率均优于其他集成学习算法,并且测试分类效果显著,因此说明了所提算法的优越性和实用性。为更进一步的验证ELSFS算法的优越性,采用决策树C4.5为基分类器,与RSM、Bagging、AdaBoost以及随机森林进行对比,基分类器数目统一设置为50。一方面为使得算法对比更为客观准确;另一方面也验证训练集与测试集的不同比例对准确率的影响,实验针对训练集与测试集按照1:1、2:1、3:1、4:1、5:1的不同比例进行讨论,为使得结果准确客观单次实验进行5次取平均值为最终结果,如图4-7所示:图4-7各类算法分类准确率Fig.4-7Classificationaccuracyofvariousalgorithm由上图所示,ELSFS算法在训练集与测试集的不同比例下与其他集成学习算法对比,其分类准确率均有明显优势。在分析算法准确率的同时,统计实验中各类算法的平均建模时间,由于实验中训练集与测试集比值的不同,因此以各类算49 基于集成学习的中医病案数据挖掘方法研究法在训练集与测试集不同比值建模时间的平均值作为各算法的建模时间,其建模时间如表4-6所示:表4-6各类算法的建模时间Table4-6Modelingtimeofvariousalgorithm集成学习算法RSMBaggingAdaboost随机森林ELSFS平均建模时间/s0.1120.3273.8510.5420.249通过本次实验准确率和时间的对比结果可以看出,在算法分类的准确性方面ELSFS算法更优于其他集成学习算法,在建模耗时方面ELSFSL算法相比于RSM建模耗时有所增加,但优于Bagging、AdaBoost以及随机森林算法。为验证基分类器数目对集成学习算法的影响,以及SEWGS算法的性能。以决策树C4.5作为基分类算法在中医哮喘数据上进行仿真验证。数据设置以中医哮喘数据的50%作为训练集,剩余50%为测试集,分别设定基分类器数目为30、50、70、90、110、130、150,主要从算法预测的准确性和模型整体预测耗时两方面进行讨论分析。各算法在不同数目基分类器下的准确率如表4-7所示:表4-7算法准确率Fig.4-7Accuracyofthealgorithm算法数目30507090110130150RSM81.07%82.41%83.48%83.72%82.16%81.95%81.33%Bagging83.61%85.33%86.46%86.52%85.32%83.18%82.03%Adaboost84.38%86.58%86.79%87.46%87.72%88.35%88.69%随机森林86.49%88.65%88.76%88.54%88.32%88.28%87.97%ELSFS94.79%95.75%95.92%95.67%94.28%94.02%93.85%SEWGS95.37%95.93%96.48%96.73%97.42%97.65%97.73%由实验数据可知基分类器数目在一定范围内时,适当增加基分类个数可以提升算法整体准确率;而当基分类器数目超过一定数目时,再增加基分类器数目整体准确率增长较慢甚至有所降低,这是由于基分类器数目过多产生冗余基分类器所致。本文所提出的SEWGS算法是在ELSFS算法基础上通过加权贪心策略选择构造而成,为更直观形象对比这两个算法的准确率,画出两个算法准确率对比图如图4-8所示:50 青岛科技大学研究生学位论文图4-8算法准确率对比图Fig.4-8Algorithmaccuracycomparison由上图可以看出在一定范围内当基分类器数目增多时,两类算法的准确率均有不同程度的提升;当基分类器数目设定为70时,再增加基分类器数目时ELSFS算法的整体准确率有所降低,而SEWGS算法整体准确率仍有所提升。这是由于SEWGS算法基于加权贪心策略选择最佳基分类器组合,剔除冗余基分类器所致。各集成学习算法在不同基分类器数目下整体建模耗时如表4-8所示:表4-8算法耗时/sFig.4-8Timeconsumingofthealgorithm/s算法数目30507090110130150RSM0.0940.1120.1260.1310.1380.1430.175Bagging0.0980.1570.2010.2490.2510.3180.335Adaboost3.1793.8514.2156.0266.9177.3109.415随机森林0.3590.5420.6230.6830.7310.9531.052ELSFS0.2360.2490.2530.2620.2710.3260.359SEWGS0.2650.2890.4540.5920.7180.9671.134由仿真实验数据可知,随着基分类器数目的增多各集成学习算法的整体建模时间也随着增加,这与实际情况相符。其中基于单模态策略扰动的RSM、Bagging算法建模耗时相对较少,Adaboost算法整体建模耗时最多,这是由于其算法自身构造原理为迭代的原因所致;本文所提出的ELSFS算法和SEWGS算法是基于多模态扰动策略构成,建模耗时相对于单模态扰动的集成算法较多,但是相比于随机森林算法以及Adaboost算法仍有优势。当基分类器数目较多时,SEWGS算法建模耗时多于随机森林,这是由于SEWGS算法在基分类器的选择时采用贪心策略对最佳组合寻优而造成的,但是相比于Adaboost算法因迭代而造成的较长耗时仍有较大优势。51 基于集成学习的中医病案数据挖掘方法研究综上分析,本文所提出的ELSFS算法以及SEWGS算法都具有较好性能,其主要原因基于以下几个方面:1)ELSFS算法的基分类器基于多模态扰动策略训练而成,即同时对样本空间和特征空间扰动,确保了基分类器的多样性;2)ELSFS算法采用IHCFS算法对训练集进行特征选择,在剔除冗余特征的同时又保留原数据的信息,使得候选基分类器都具有较高的分类精度;3)ELSFS算法中基分类器的训练过程都是相互独立、并行进行,使得算法减少建模耗时。另外,SEWGS算法通过加权贪心策略选择部分差异性大、性能较好的基学习器来构建集成学习,不仅减少预测阶段的存储空间、还降低预测计算量、加快预测速度。由此说明本研究所提出的SEWGS算法在确保一定建模耗时,同时也提高整体分类准确率,验证了该算法在实际应用方面的可行有效性和实用性。4.5本章小结本章主要根据集成学习模型提高中医辨证准确率和泛化能力,首先提出一种基于多模态扰动策略的集成学习算法(ELSFS),描述了该算法的原理、框架及流程,并在UCI数据集验证其性能;然后为解决基分类器冗余问题,在ELSFS算法的基础上提出一种基于加权贪心策略的选择性集成学习算法(SEWGS),描述了贪心策略的原理以及算法框架及实现过程,在中医哮喘病案数据中进行挖掘实验,验证分析其辨证性能。52 青岛科技大学研究生学位论文5总结与展望中医在多年临床诊疗过程中积累的病案是非常珍贵的信息资源,利用先进的数据挖掘方法挖掘其中潜在有价值的信息对中医现代化、信息化有着非常重要的意义。而传统的数据挖掘方法存在准确率低、泛化性能差、无法处理庞大的辩证数据等问题,集成学习模型具有较高准确率和较好泛化性能,将其应用于中医病案的数据挖掘可以有效的挖掘病案中潜在的辩证规律。本文主要研究工作如下:(1)量化处理中医病案并改进一种特征选择算法(IHCFS)用于提取中医病案的主症状。针对中医病案存在的非定量、模糊性、复杂性以及不确定性等问题,设定量化规则并利用相关程序对病案数据进行量化处理;对于中医病案数据特征存在繁多的症状和冗余信息等问题,基于Filter模型中以互信息为基础度量的ISFS算法基础上提出一种改进的ISFS算法(IHCFS),以用来剔除冗余症状获取病案主症状,并在中医哮喘病案数据上仿真验证其性能。(2)提出了一种基于多模态扰动策略的集成学习算法(ELSFS)用于中医病案的辩证数据挖掘。集成学习是通过构造一组具有差异性的基分类器来提高整体分类预测的准确率和泛化性能,为此,本文从从样本空间和特征空间同时进行扰动以获得具有更大的差异性基分类器。首先对中医病案数据进行有放回随机抽样,接着采用IHCFS算法分别进行特征选择,然后选定基分类算法进行训练得到基分类器,最后通过相对多数投票策略进行集成。在UCI的10个数据集上与其他集成学习进行对比仿真实验,结果表明该算法具有较好的分类性能。提出一种基于加权贪心策略的选择性集成学习算法(SELGS)以降低因基分类器数目过多而对预测阶段增加的运算开销。当基分类器数目达到一定数量时,所训练出的基分类器便会具有冗余性,为保证整体集成学习模型的性能,需要选择性能较好的基分类器而剔除冗余的基分类器。为更加突出性能较好基分类器将各基分类器在验证集上的准确率作为其权重,以用于后续的选择。采用贪心策略依次组合性能较好的基分类器,选取最佳的基分类器组合做为最终模型,并针对SELGS算法的辩证性能以及建模耗时,在中医哮喘病数据上进行仿真分析。鉴于本人学识的有限性以及研究时间等原因,本文所做工作仍有很多不足的地方,在实际的应用中还需要从以下几个方面进行更深入的研究改进和完善:(1)本研究所提出的集成学习模型目前只能处理相对规则的数据集,对于某些缺省的较多样本处理效果不佳,这使得对样本集的预处理要求较高。因此在下一步可以在容错性方面以及智能化处理方面进行深入研究。(2)由于本文所提的特征选择算法基于信息熵以及互信息为基础度量标53 基于集成学习的中医病案数据挖掘方法研究准,只能处理离散化的数据样本。下一步可以研究如何设计一种不仅可以处理离散型数据集而且还可以处理连续型数据集的模型。(3)本文所提的选择性集成学习模型(SELGS)虽然对各个基分类器的训练为同步并行进行,但是当基分类器数目过大时,基于贪心策略组合寻优构建集成模型的耗时也将随之成倍增大。因此下一步可以深入研究更优的选择策略以减少建模耗时。54 青岛科技大学研究生学位论文参考文献[1]汪晨.基于IOS平台的中医医案信息化APP的设计及实现[D].硕士学位论文.合肥:安徽大学,2014.[2]袁锋.中医医案文本挖掘的若干关键技术研究[D].博士学位论文.济南:山东师范大学,2016.[3]郑舞,刘国萍.常见数据挖掘方法在中医诊断领域的应用概况[J].中国中医药信息杂志,2013,20(4):103-107.[4]邢盼盼.基于Bagging的两阶段特征选择集成分类器研究[D].硕士学位论文.郑州:郑州大学,2017.[5]WittenIH,FrankE.Datamining:practicalmachinelearningtoolsandtechniques[J].AcmSigmodRecord,2011,31(1):76-77.[6]ThyagharajanA,RoutrayA.Anensemblemetriclearningschemeforfacerecognition[C].IEEEInternationalConferenceonMultimediaandExpo.IEEEComputerSociety,2017:115-120.[7]ChenC,DantchevaA,RossA.Anensembleofpatch-basedsubspacesformakeup-robustfacerecognition[J].InformationFusion,2016,32:80-92.[8]李怀.基于集成卷积神经网络的人脸年龄识别研究[D].硕士学位论文.广州:华南理工大学,2016.[9]侯勇,郑雪峰.集成学习算法的研究与应用[J].计算机工程与应用,2012,48(34):17-22.[10]江峰,张友强,杜军威,等.基于近似约简的集成学习算法及其在入侵检测中的应用[J].北京工业大学学报,2016,42(6):877-885.[11]王颖.特征选择辅助的基于集成学习的入侵检测模型研究[D].硕士学位论文.兰州:兰州大学,2017.[12]曹杰,邵笑笑.基于信息增益和Bagging集成学习算法的个人信用评估模型研究[J].数学的实践与认识,2016,46(8):90-98.[13]RunzePeng.PersonalCreditAssessmentModelBasedonStackingEnsembleLearningAlgorithm[J].2017,06(4):411-417.[14]陈德华,吴迪,潘乔.基于超声特征集成学习的甲状腺结节分类方法研究[J].智能计算机与应用,2016,6(6):12-16.[15]朱灿杰.基于集成学习与规则提取的多标记学习方法在高血压证素辩证中的研究[D].硕士学位论文.深圳:深圳大学,2017.[16]董国华.基于数据挖掘的中医诊断智能信息化技术研究[D].硕士学位论文.青岛:青岛科技大学,2015.[17]周昌乐,张志枫.智能中医诊断信息处理研究进展与展望[J].中西医结合学报,2006,4(6):560-565.[18]陈克龙,樊永平.数据挖掘中的分类算法及其在中医证候学中的应用[J].中华中医药杂志,2011,(03):469-473.[19]吴嘉瑞,唐仕欢,郭位先,等.基于数据挖掘的名老中医经验传承研究述评[J].中国中药杂志,2014,39(4):614-617.[20]肖光磊.名老中医经验传承中的数据挖掘技术研究[D].硕士学位论文.南京.南京理工55 基于集成学习的中医病案数据挖掘方法研究大学,2008.[21]徐蕾,贺佳,孟虹,等.基于信息上的决策树在慢性胃炎中医辨证中的应用[J].中国卫生统计,2004,21(6):709-711.[22]陈明,杨慧芳,余蕾.基于关联分析的肝硬变辨证数据挖掘研究[J].河南中医,2009,29(3):258-260.[23]樊晓平,彭展,杨胜跃,等.基于多层前馈型人工神经网络的抑郁症分类系统研究[J].计算机工程与应用,2004(13):205-208.[24]郑莉丽,李晓强,李福凤,等.基于支持向量机的中医望诊唇色自动分类[J].生物医学工程学杂志,2011(1):7-11.[25]蔡晓路.基于随机森林的风湿关节炎证型判别模型研究[D].硕士学位论文.北京.北京中医药大学,2016.[26]颜建军,胡宗杰,刘国萍,等.基于极值随机森林的慢性胃炎中医证侯分类[J].华东理工大学学报:自然科学版,2017,43(5):698-703.[27]毕凯.基于集成学习的药物相互作用信息抽取系统的研究与实现[D].硕士学位论文.咸阳.西北农林科技大学,2016.[28]潘主强,张林,张磊,等.中医临床不均衡数据疾病分类方法研究[J].智能系统学报,2017(6):848-856.[29]肖雨奇.多标签学习应用于中医诊断帕金森中类别不均衡问题研究[D].硕士学位论文.南京.南京大学,2016.[30].王丽丽.集成学习算法研究[D].硕士学位论文.广西.广西大学,2006.[31]DietterichTG.MachineLearningResearch:FourCurrentDirections[J].AiMagazine,1997,18(4):97-136.[32]DashM,LiuH.FeatureSelectionforClassification[M].IOSPress,1997.[33]WangY,WangJ,LiaoH,etal.Anefficientsemi-supervisedrepresentativesfeatureselectionalgorithmbasedoninformationtheory[J].PatternRecognition,2017,61:511-523.[34]刘华文.基于信息熵的特征选择算法研究[D].博士学位论文.长春.吉林大学,2010.[35]KiraK,RendellLA.APracticalApproachtoFeatureSelection[J].MachineLearningProceedings,1992,48(1):249-256.[36]MiaoJ,NiuL.ASurveyonFeatureSelection[J].ProcediaComputerScience,2016,91:919-926.[37]JiaweiHan,MichelineKamber,JianPei.DataMining:ConceptsandTechniques.MorganKaufmannPublishers,2001[38]安淑芝.数据仓库与数据挖掘—大学本科计算机专业应用型规划教材[M].清华大学出版社,2005.[39]UniversityofWaikato.WaikatoEnvironmentforKnowledgeAnalysis(weka).[EB/OL].[2018-03-03].https://www.cs.waikato.ac.nz/ml/weka/.[40]袁梅宇.数据挖掘与机器学习(WEKA-应用技术与实践)[M].清华大学出版社,2014.[41]KearnsM,LiM,ValiantL.LearningBooleanformulas[J].JournaloftheAcm,1994,41(6):1298-1328.[42]SteinkiO,MohammadZ.IntroductiontoEnsembleLearning[J].SocialScienceElectronicPublishing,2015.[43]胡金涛.基于C4.5决策树的学生成绩预测教学系统的研究与实现[D].硕士学位论文.56 青岛科技大学研究生学位论文成都.西南交通大学,2017.[44]PodgorelecV,ZormanM.DecisionTreeLearning[J].2017,2:1751-1754.[45]吴杰.基于Bagging的神经网络集成及其泛化能力研究[D].硕士学位论文.长春.东北师范大学,2010.[46]吕晓玲,宋捷.大数据挖掘与统计机器学习[M].中国人民大学出版社,2016.[47]毋雪雁,王水花,张煜东.K最近邻算法理论与应用综述[J].计算机工程与应用,2017,53(21):1-7.[48]张硕.基于KNN算法的空间手势识别研究与应用[D].吉林大学,2017.[49]陈亚楠.基于Hadoop的中医病案数据挖掘系统研究与设计[D].硕士学位论文.青岛.青岛科技大学,2017.[50]BryllR,Gutierrez-OsunaR,QuekF.Attributebagging:improvingaccuracyofclassifierensemblesbyusingrandomfeaturesubsets[J].PatternRecognition,2003,36(6):1291-1302.[51]OzaNC,TumerK.InputDecimationEnsembles:DecorrelationthroughDimensionalityReduction[C].InternationalWorkshoponMultipleClassifierSystems.SpringerBerlinHeidelberg,2001:238-247.[52]HuQ,YuD,XieZ,etal.EROS:Ensembleroughsubspaces[J].PatternRecognition,2007,40(12):3728-3739.[53]李诒靖,郭海湘,李亚楠,等.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199.[54]BreimanL.Randomforest[J].MachineLearning,2001,45:5-32.[55]LatinneP,DebeirO,DecaesteckerC.DifferentWaysofWeakeningDecisionTreesandTheirImpactonClassificationAccuracyofDTCombination[M]//MultipleClassifierSystems.SpringerBerlinHeidelberg,2000.[56]江峰,张友强,杜军威,等.一种基于抽样与约简的集成学习算法[J].青岛科技大学学报(自然科学版),2016,37(4):451-456.[57]Zhou,Zhi-Hua,Wu,Jianxin,Tang,Wei.Corrigendumto“Ensemblingneuralnetworks:Manycouldbebetterthanall”[ArtificialIntelligence137(1–2)(2002)239–263][J].ArtificialIntelligence,2002,137(1):239-263.[58]周昌乐.中医辨证的机器推演[M].北京:科学出版社,2009.[59]刘毅.中医诊断学[M].高等教育出版社,2005.[60]董国华.基于数据挖掘的中医诊断智能信息化技术研究[D].硕士学位论文.青岛.青岛科技大学,2015.[61]姜洪玉.周兆山主任医师防治哮喘经验[C].中华中医药学会肺系病分会成立大会暨第十五次全国中医肺系病学术交流大会.2011.[62]XiaGE,WangH,JiangY.Applicationofcustomerchurnpredictionbasedonweightedselectiveensembles[C].InternationalConferenceonSystemsandInformatics.IEEE,2017:513-519.57 基于集成学习的中医病案数据挖掘方法研究致谢马上要进入职场,结束自己的学生时代,在这我要感谢最美丽的青岛科技大学给予我最美好的时光,感谢这所大学里所有可亲可敬的老师对我七年的栽培教育,感谢青科大浓厚的学习氛围使我有机会汲取人生中最宝贵的知识。在我的研究生阶段,正是有家人、老师、朋友、同学和舍友的陪伴,才使得的我这三年过多无比的充实丰富多彩。时间飞逝,研究生生活很快就要结束。在这论文完成之际,我首先由衷的感谢我的导师朱习军教授:感谢朱老师这三年来对我付出的心血,无论是学业和生活还是工作,都给予我极大的精神鼓励和清晰的指导帮助。朱老师以孜孜不倦的工作作风和严谨的治学态度激励我踏踏实实地做科研,同时他又以正派的作风和宽以待人的处事风格影响着我要认认真真做事、踏踏实实做人。在学术研究方面,朱老师在给我相对自由宽松的科研空间,同时又很好的为我把握研究方向,及时给予关键性的指导,让我更快更好的完成学业。在生活工作方面,朱老师犹如慈父一般给予耐心的指导和鼓励。感谢原303实验室和现501实验室所有的师姐师弟师妹、同学和老师们,正是他们对科研的严谨态度和坚持不懈的精神所塑造的严肃而不失活泼的科研氛围,使得我心无杂念认真地做研究。尤其是王老师和张老师科研团队每周例会的形式,虽然只是旁听也使我受益匪浅,让我学会及时归纳总结所学到的知识内容。感谢信息学院研究生15级的所有同学给予我的支持和信任,让我在班长的职位上学习和收获很多,真的很荣幸与你们一起同行。感谢我1209可爱的舍友们:云生sir、浩子sir、建滨sir,正是他们欢声笑语的陪伴才构成我研究生三年的欢快时光,感谢三年时光里你们的陪伴和帮助。最后要特别感谢我的家人,感谢你们对我这十几年毫无保留的付出、不遗余力的支持。正是有你们作为我强大的后盾,才使得我有足够的动力去获得现在所有的成绩。我还要感谢我亲爱的女朋友,在我为小论文的思路挠头苦思和大论文的章节犯愁时,正是她的鼓励和支持才使我在学术研究方面有所进展,顺利完成学业。真心的祝愿你们永远的健康快乐!!!58 青岛科技大学研究生学位论文攻读硕士学位期间发表的学术论文[1]陈亚楠,张守宾,朱习军.中医病案数据挖掘系统设计与实现[J].自动化与仪器仪表,2016(11):238-240.[2]张守宾,朱习军.集成学习算法在中医证型分类预测中的应用[J].计算机工程与科学(已录用待出刊)[3]石艳敏,张守宾,朱习军.基于Hadoop的中医症状群分类应用[J].计算机应用与软件(已录用待出刊)59 基于集成学习的中医病案数据挖掘方法研宄独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研宄成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含本人已用于其它学位申请的论文或成果一。与我同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不一实之处,本人承担切相关责任。本人签名:t日期:>丨2竿#月日,关于论文使用授权的说明本学位论文作者完全了解青岛科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为青岛科技大学。(保密的学位论文在解密后适用本授权书)本学位论文属于:保密□,在年解密后适用于本声明。不保密口。“”(请在以上方框内打V)丨本人签名:日期:>分年Z月7日导师签名:日期:年6月曰,60

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭