基于数据挖掘方法的川崎病辅助诊断研究

基于数据挖掘方法的川崎病辅助诊断研究

ID:76138642

大小:2.10 MB

页数:66页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于数据挖掘方法的川崎病辅助诊断研究_第1页
基于数据挖掘方法的川崎病辅助诊断研究_第2页
基于数据挖掘方法的川崎病辅助诊断研究_第3页
基于数据挖掘方法的川崎病辅助诊断研究_第4页
基于数据挖掘方法的川崎病辅助诊断研究_第5页
基于数据挖掘方法的川崎病辅助诊断研究_第6页
基于数据挖掘方法的川崎病辅助诊断研究_第7页
基于数据挖掘方法的川崎病辅助诊断研究_第8页
基于数据挖掘方法的川崎病辅助诊断研究_第9页
基于数据挖掘方法的川崎病辅助诊断研究_第10页
资源描述:

《基于数据挖掘方法的川崎病辅助诊断研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号:TP391.4学号:2015111293重庆医科大学硕士学位论文(学术学位)论文题目基于数据挖掘方法的川崎病辅助诊断研究作者姓名樊楚指导教师姓名(职称、单位名称)贺向前副教授重庆医科大学医学信息学院一级学科名称生物医学工程二级学科名称生物医学信息技术论文答辩年月2018年5月 分类号:TP391.4学号:2015111293重庆医科大学硕士学位论文(学术学位)论文题目基于数据挖掘方法的川崎病辅助诊断研究作者姓名樊楚指导教师姓名(职称、单位名称)贺向前副教授重庆医科大学医学信息学院一级学科名称生物医学工程二级学科名称生物医学信息技术论文答辩年月2018年5月 重庆医科大学研究生学位论文独创性声明本人申明所呈交的论文是我本人在导师指导下进行的研究工作及取得的研究成。据我所知果,除了文中特别加以标注和致谢的地方外论文中不包含其他人已经,发表或撰写过的研究成果,也不包含为获得重庆医科大学或其他教育机构的学位或证书而使用过的材料,与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。一申请学位论文与资料若有不实之处,本人承担切相关责任。-学位论文作者签名:曰期權發:学位论文版权使用授权书本人完全了解重庆医科大学有关保护知识产权的规定,g卩:研究生在攻读学位期间论文工作的知识产权单位属重庆医科大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位为重庆医科大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。学校可以公布学位论文的全部或部分内容(保密内容除外),并编入有关数据库进行检索,可以采用影印、缩印或其他手段保存论文。保密论文在解密后适用本授权书。论文作者签名:焚餐指导教师签名:t曰期:、卜、// 目录英汉缩略语名词对照.......................................................................................................1中文摘要...........................................................................................................................3英文摘要...........................................................................................................................5论文正文:基于数据挖掘方法的川崎病辅助诊断研究...............................................7第一章前言.....................................................................................................................71.1研究背景及意义.................................................................................................71.2国内外相关研究现状.........................................................................................81.3课题研究内容及章节安排...............................................................................10第二章基本理论与方法...............................................................................................122.1特征选择算法..................................................................................................122.2Logistic回归.....................................................................................................142.3BP神经网络.....................................................................................................162.4贝叶斯网络.......................................................................................................192.5决策树..............................................................................................................202.6模型评价指标与评估方法..............................................................................21第三章数据处理...........................................................................................................243.1数据来源...........................................................................................................243.2数据抽取...........................................................................................................243.3数据预处理.......................................................................................................26第四章川崎病辅助诊断模型与评估...........................................................................284.1数据集描述.......................................................................................................284.2建立辅助诊断模型...........................................................................................304.3分类模型性能评估...........................................................................................35第五章川崎病辅助诊断系统.......................................................................................395.1系统概要设计...................................................................................................395.2系统详细设计及测试.......................................................................................40第六章总结与展望.......................................................................................................446.1主要工作...........................................................................................................44 6.2主要创新点.......................................................................................................446.3研究局限性.......................................................................................................456.4展望...................................................................................................................45参考文献.........................................................................................................................47文献综述.........................................................................................................................51致谢.............................................................................................................................60攻读学位期间发表的学术论文.....................................................................................61 重庆医科大学硕士研究生学位论文英汉缩略语名词对照英文缩写英文全称中文全称KDKawasakidisease川崎病NT-proBNPN-terminalmoietyofBNPN端前脑钠肽BNPB-typenatriureticpeptide脑钠肽8-iso-PG8-iso-prostaglandinF2α8-异前列腺素F2αCRPC-reactiveproteinC反应蛋白WBCwhitebloodcell白细胞计数ESRerythrocytesedimentationrate红细胞沉降率IVIGintravenousimmunoglobulin静脉注射免疫球蛋白PLTplatelets血小板计数MPVmeanplateletvolume血小板平均体积PDWplateletdistributionwidth血小板体积分布宽度AUCAreaUndertheROCCurveROC曲线下面积DAGdirectedacyclicgraph有向无环图RBCredbloodcell红细胞计数HGBhemoglobin血红蛋白HCThematokrit红细胞压积MCVMeanCorpuscularVolume平均红细胞体积MCHMeanCorpuscularHemoglobin平均血红蛋白量MCHCmeancorpuscularhemoglobinconcentration平均血红蛋白浓度RDWredbloodcelldistributionwidth红细胞分布宽度PLTPlatelets血小板计数MPVmeanplateletvolume血小板平均体积PDWplateletdistributionwidth血小板分布宽度CBconjugatedbilirubin结合胆红素TBILtotalbilirubin总胆红素ALBalbumin白蛋白1 重庆医科大学硕士研究生学位论文GLBglobulin球蛋白GGTGamma-glutamyltranspeptidase谷氨酰转肽酶ALTAlaninetransaminase谷丙转氨酶LDHlacticdehydrogenase乳酸脱氢酶TPtotalprotein总蛋白ALPalkalinephosphatase碱性磷酸酶SCrserumcreatinine血肌酐BUNbloodureanitrogen尿素氮UAUricAcid尿酸NITNitrite尿亚硝酸盐KETketonebody酮体2 重庆医科大学硕士研究生学位论文基于数据挖掘方法的川崎病辅助诊断研究摘要目的:川崎病(Kawasakidisease,KD)是一种以发热、皮疹、双侧眼结膜充血、口咽病变、四肢病变和颈部淋巴结肿大为主要特征的急性、自限性的血管炎,病因未明,高发人群为5岁以下的儿童。目前川崎病缺乏特异性的诊断指标和可以确诊的临床症状,许多发热疾病具有同川崎病类似的临床表现,容易造成川崎病的误诊和延迟诊断,从而增加患冠状动脉病变的风险,因此,如何准确快速的对川崎病进行诊断是临床上的一项挑战。本文以川崎病的临床体征和实验室检查指标为切入点,应用数据挖掘算法,构建川崎病与其他发热疾病的鉴别诊断模型,以期提供简便、可靠的川崎病辅助诊断方法。方法:采集重庆医科大学附属儿童医院原始的川崎病和待发热疾病的人口统计学资料,实验室检查指标,临床体征数据和出院诊断记录,经过数据预处理和特征选择,建立样本数据库,使用特征选择后的特征子集构建Logistic回归,BP神经网络,贝叶斯网络和决策树模型,使用独立的测试集对模型进行验证,比较四种模型的诊断性能,选择最优模型作为本研究川崎病和其他类发热疾病的鉴别诊断模型,并使用遗传算法对该模型进行优化降维。借助CGI脚本编程,设计川崎病辅助诊断系统。结果:结果表明,BP神经网络比其他分类算法(Logistic回归、贝叶3 重庆医科大学硕士研究生学位论文斯网络和决策树)具有更好的分类准确率。本文通过单因素分析的特征选择方法,从51项临床信息中,选择了37项作为模型的纳入指标,测试发现,BP神经网络的诊断准确率在90%左右。本研究还开发了川崎病辅助诊断系统,通过输入患者的基本信息、部分实验室检查指标和临床体征,系统可自动给出诊断结果,供医生参考。结论:通过对川崎病和其他类发热疾病病历数据进行分析,筛选出与川崎病诊断相关的临床指标,为后续的临床研究提供了参考,构建的BP神经网络模型实现了对川崎病和其他类发热疾病较准确的分类,辅助诊断系统可为临床医生的诊断提供辅助参考。关键词:BP神经网络,川崎病,数据挖掘,辅助诊断系统4 重庆医科大学硕士研究生学位论文THERESEARCHFORCOMPUTER-AIDEDDIAGNOSISOFKAWASAKIDISEASEBASEDONDATAMININGAbstractObjectives:Kawasakidiseaseisanacuteself-limitedvasculitisofchildhoodthatischaracterizedbyfever,rash,bilateralnonexudativeconjunctivitis,erythemaofthelipsandoralmucosa,changesintheextremities,andcervicallymphadenopathy.TheetiologyofKawasakidiseaseremainsunknownandthehighestincidenceratewasinchildrenbelow5yearsold.Intheabsenceofaspecificdiagnostictest,thediagnosisofKawasakidiseaserestsuponclinicalcriteriathataresharedbyothercommonpediatricillnesses.Clinicalconfusioncanleadtoamissedordelayeddiagnosis,whichincreasestheriskofcoronaryarteryaneurysms.Therefore,it’sachallengetodiagnoseKawasakidiseasequicklyandaccurately.Tofindaconvenient,reliableKawasakidiseasediagnosismethod,Wedevelopdiagnosticmodel-baseddataminingalgorithmtodifferentiateKawasakidiseasefromotherpediatricfebrileillnessesusingclinicalandlaboratorydata.Methods:Demographic,clinical,laboratorydataanddischargediagnosisrecordsofKawasakidiseaseandotherfebrileillnesseswerecollectedasthestudysubject.Thesampledatabasewasestablishedafterdata5 重庆医科大学硕士研究生学位论文preprocessingandfeatureselection.ThediagnosticmodelwasestablishedusingLogisticregression,BPneuralnetwork,bayesiannetworkanddecisiontreerespectivelyandwasevaluatedbyseparatetestdataset.Weselectedthebestmodelbycomparingthediagnosticperformanceoffourmethods.Finally,webuildanKawasakidiseasecomputer-assisteddiagnosticsystembasedonCGIscriptprogramming.Results:TheresultsshowedthatBPneuralnetworkhadhigherclassificationaccuracythanotherclassificationalgorithm(Logisticregression,bayesiannetworkanddecisiontree)anditsaccuracyisabout90%.37variableswereselectedastheinputofmodelsfrom51clinicalindexesusingfeatureselectionbasedonunivariateanalysis.OurKawasakidiseasecomputer-assisteddiagnosticsystemcanautomaticallyachievediagnosisbyenteringdemographicinformation,laboratorydataandclinicalsymptomsforreference.Conclusions:WescreenedoutclinicaldatarelatedtothediagnosisofKawasakithroughtheanalysisofmedicalrecorddataofKawasakidiseaseandotherfebrileillnessesanditprovidesreferenceforfollow-upclinicalstudy.BPneuralnetworkcanaccuratelydifferentiateKawasakidiseasefromotherfebrileillnesses.Kawasakidiseasecomputer-assisteddiagnosticsystemcanprovidereferenceforclinicaldoctor.Keywords:BPneuralnetwork,kawasakidisease,datamining,riskfactors6 重庆医科大学硕士研究生学位论文基于数据挖掘方法的川崎病辅助诊断研究第一章前言1.1研究背景及意义随着计算机技术的高速发展,大数据时代影响着我们生活的方方面面,医学领域也同样经历着从依赖科学实验及理论假设去发现未知理论的无数据时代向依赖抽样数据去支持相关决策和判断的大数据时代。医院信息化和生物医学工程的快速发展,使得不同种类的医疗数据资料呈爆炸性增长,如何挖掘出医学数据中有价值的信息,使其服务于临床,是当前值得深入探讨的问题。川崎病又称小儿皮肤黏膜淋巴结综合征,1967年日本川崎富作首次对该病进行报道,后来以他的名字对其命名,川崎病由此得名[1]。川崎病是一种病因未明的急性、自限性的全身中小动脉炎,高发于5岁以下的婴幼儿,男性发病率略高于女性[2,3]。川崎病以发热、皮疹、双侧眼结膜充血、口咽病变、四肢病变和颈部淋巴结肿大为主要特征,15%到25%的未经治疗的患病儿童会引发冠状动脉瘤或冠状动脉扩张,严重者可发生心肌梗死,猝死或缺血性心脏病[4]。目前急性期川崎病的治疗主要以静脉注射丙种球蛋白和口服阿司匹林为主,如果川崎病患者在发病后10天内进行治疗,可使发生冠状动脉瘤的风险降至5%[5-7]。目前川崎病的诊断主要基于临床症状和非特异性的实验室指标,2004年美国心脏病协会修订的川崎病的诊断标准如下表1.1[8],除持续发热超过5天外,还满足表1.1中临床症状的4项,即可诊断为川崎病,不满足4项者,若出现冠状动脉病变,也可诊断为川崎病。然而以上诊断标准的敏感度和特异度较低,多数典型性的川崎病可达到上述诊断标准,但部分不完全川崎病的诊断仍面临巨大的挑战,除此之外,许多发热疾病具有与川崎病相似的临床症状,这给川崎病的快速诊断带来了一定的难度。本研究基于数据挖掘方法实现的川崎病和其他发热疾病的鉴别诊断模型,解决了川崎病早期各项临床体征和实验室指标与诊断结果之间的非线性关系,其分类鉴别过程简单,克服了主观因素的影响,为基于经验的川崎病诊断提供了一种有价值的计算机辅助诊断方法。对临床鉴别川崎病和发热疾病有一定的辅助作用,7 重庆医科大学硕士研究生学位论文具有潜在的临床意义。表1.1川崎病诊断标准Table1.1DiagnosticcriteriaforKawasakidisease发热5天并出现以下4项临床症状:1、急性期手足硬肿和掌拓发红,第2-4周时指趾端出现膜状脱皮;2、多形性红斑;3、双侧结膜充血;4、口咽部粘膜弥漫性充血,唇红、干裂,出现杨梅舌;5、颈部淋巴结非化脓性肿胀,其直径>1.5cm。1.2国内外相关研究现状近年来,许多国内外的文献对川崎病的诊断进行了研究,如XuefengBLing等人根据临床和分子数据提出了区分川崎病和其他发热疾病的诊断算法,结合线性判别分析,细胞特异性显著性分析,尿多肽分析寻找最优的标志物组合[9]。Ming-YiiHuang等人针对64例川崎病患者和154例其他类发热疾病(手足口病31例,上呼吸道感染49例,细菌性肺炎74例),使用析因分析,得出川崎病的血小板计数、结合珠蛋白/载脂蛋白A-1明显高于其他类发热疾病,并且血清结合珠蛋白/载脂蛋白A-1可作为急性期川崎病诊断的补充标志物[10]。AlexKentsis等人使用质谱分析蛋白质组学对川崎病患者尿液标本中的2000个蛋白质进行分析,发现了新的川崎病候选分子标志物细丝蛋白C和甲基多巴A具有极好的诊断性能[11]。NagibDahdah等人利用统计学方法,得出在急性期川崎病的诊断中,与BNP相比,NT-proBNP是更好的心肌损伤诊断标志物,此结论具有统计学意义[12]。ShinichiTakatsuki等人通过采集东邦大学医院62名川崎病患者,20名正常儿童,20名其他发热疾病患者的8-iso-PG,CRP,WBC,中性粒细胞计数,白蛋白浓度和ESR,通过t检验,得出在IVIG治疗前,川崎病患者的尿8-iso-PG明显高于正常儿童和其他发热疾病患者,并得出8-iso-PG是急性期川崎病的情况下,判断IVIG是否有效的可用标志物的结论[13]。谷小华等人观察分析了川崎病患者PLT,MPV,PDW的变化,川崎病患者的3项指标均高于健康儿童,得出血小板指数对于川崎病高8 重庆医科大学硕士研究生学位论文凝状态的诊断和抗凝药物治疗效果评价具有重要的价值[14]。李淑华等人探讨了抗中性粒细胞抗体在川崎病中的临床意义,得出川崎病中抗中性粒细胞抗体的阳性率,以及抗中性粒细胞抗体阳性患儿冠状动脉损害程度较阴性患儿更为严重,此结论具有统计学意义[15]。StephenJ.Popper等人使用DNA微序列来识别川崎病的诊断特征,比较了23名急性川崎病患者与18名年龄相匹配的其他3种发热疾病的血液样本的基因表达模式。得出川崎病患者的与血小板和中性粒细胞激活相关的基因表达水平高于急性腺病毒感染和系统性药物不良反应,并未高于猩红热,川崎病的与B细胞激活相关的基因表达水平高于其他3种发热疾病,并且川崎病患者缺少干扰素刺激基因,他们使用38个基因,正确诊断出23个川崎病患者中的21个,8个腺病毒感染中的7个,为川崎病的诊断提供了新的分子诊断特征[16]。朱迪等人对中国医科大学附属第一医院的67名不完全川崎病患儿和67例呼吸道感染患儿的实验室指标进行回顾性分析,得出血清白蛋白<34g/L、C反应蛋白>74mg/L、血小板>393×109/L、血红蛋白<109g/L、谷丙转氨酶>51U/L、谷氨酰转肽酶>43U/L对川崎病的早期诊断具有一定参考价值[17]。此类报道的文献,大多提出了川崎病的诊断标志物,这些标志物虽然对川崎病具有重要的诊断价值,但是并不具备独立诊断川崎病的能力。随着医院信息化的发展,医疗信息系统存储了大量的健康记录,其中包括病人的个人病史,诊断机制,治疗过程以及医院管理信息等,数据挖掘作为一种新的手段,已经应用到了商业,交通,气象和医学等领域,在医学领域中的应用包括诊断研究,治疗决策,基因研究等[18,19]。数据挖掘技术目前在川崎病中的应用较少。AdrianaH.Tremoulet等人通过构建随机森林模型对川崎病和其他发热疾病进行鉴别,并得出一组标志物,可使川崎病的诊断正确率提高至81%-96%。XuefengB.Ling等人基于临床症状和实验室检查指标,构建线性判别分析模型实现对川崎病的鉴别诊断,并得出在该模型中,四肢病变,结膜充血,口咽病变和血红蛋白四个变量在模型的分类功能中起最重要的作用[20]。但是以上研究所选择临床特征较少,而且对于数据挖掘方法而言,研究所纳入的病例数较少。因此,本研究拟选择单因素分析从51项临床信息中选择与川崎病鉴别诊断相关的指标,分别使用贝叶斯网络,支持向量机,决策树和BP神经网络算法构建模型,选择分类效果最优的模型作为川崎病辅助诊断模型,并使用遗传算法对该模型进行优化降维,并9 重庆医科大学硕士研究生学位论文将最优模型作为川崎病辅助诊断系统的模型。1.3课题研究内容及章节安排收集重庆医科大学附属儿童医院2007年1月至2016年1月电子病历系统中出院诊断为川崎病的连续病历和待鉴别发热疾病病历。根据患者病历数据的缺失值情况,纳入川崎病患儿905例,待鉴别发热患儿438例作为研究样本,提取其中性别,年龄,临床症状和实验室指标进行单因素分析,选择与川崎病鉴别诊断相关的指标,构建诊断模型,通过敏感度,特异度,诊断准确率,ROC曲线下面积AUC等指标分别对各模型进行评估,确定最优的模型,基于遗传算法的特征选择方法对该模型进行优化降维,最后以辅助诊断模型开发川崎病辅助诊断系统,实现对川崎病的自动诊断。本文主要包括以下几个方面,流程图如图1.1所示。川崎病和其他发热疾病病历采集数据预处理特征选择基于四种算法构建辅助诊断模型选择最优模型作为川崎病辅助诊断模型基于遗传算法对模型优化降维川崎病辅助诊断系统图1.1论文逻辑框架Fig1.1Thepaper’logicalframe10 重庆医科大学硕士研究生学位论文本文章节安排如下第一章为前言,主要介绍了本课题的研究背景及意义,阐述了国内外关于川崎病诊断的研究进展和数据挖掘方法在川崎病诊断中的应用;第二章为基本理论与方法,介绍了数据挖掘的理论知识,主要包括两种特征选择方法(单因素分析和遗传算法)、4种分类算法(Logistic回归,BP神经网络,贝叶斯网络和决策树)以及模型评估指标和模型评估方法等;第三章为数据处理,主要阐述数据的来源、数据抽取以及数据预处理过程,为后续模型的建立做数据准备;第四章为川崎病辅助诊断模型的建立与评估,主要介绍基于特征选择结果建立川崎病与其他发热疾病的鉴别诊断模型,具体分析了各分类模型的评估结果,选择分类效果最好的模型,并通过该模型选择最优子集,从而实现分类模型的优化和特征空间的降维。第五章为川崎病辅助诊断系统,辅助诊断模型建立之后,还需要通过知识共享,来提高该模型的应用价值,设计易于操作的辅助诊断系统,也是本文拟解决的问题之一。第六章为总结与展望,对本研究的主要工作和主要创新点进行了提炼和总结,提出了本研究存在的局限性,对之后的研究工作作出展望。11 重庆医科大学硕士研究生学位论文第二章基本理论与方法2.1特征选择算法特征选择是从原始的特征变量中去除无关变量和冗余变量,选择出一组特征子集,使得构造出的模型更简单高效,准确并且易于理解。本研究使用特征选择算法的目的为:(1)筛选具有临床意义的特征变量参与模型构建;(2)对模型的输入进一步降维,使得川崎病辅助诊断模型更加的简单准确。本文主要介绍两种特征选择算法,单因素分析法和遗传算法。单因素分析是分析某单一特征在组间的差异,将差异具有统计学意义的因素筛选出来用于进一步分析,从而达到特征选择的目的,常用的单因素分析方法有2方差分析,t检验,卡方检验等。本研究使用的单因素分析为检验和t检验,是2统计学中应用非常广泛的两种假设检验方法,在本文中,计数资料采用检验,计量资料采用t检验。22运用统计量衡量分类特征与疾病类别之间的相关性。检验假设某分类特征x和疾病类别y之间没有相关性,之后计算每个分类特征与疾病类别的卡方统计量,再与事先设定好的显著性水平的临界值进行比较,若大于,拒绝原假设,2认为该特征与疾病类别相关,的计算公式为:22(AT)(2-1)T2其中A为实际观察频数,T为理论期望频数。统计量用于衡量实际值A与期望值T之间的差异程度,如果值越大,说明假设不成立,即分类特征x与类别y有较强的相关性。根据自由度算出P值,依据P值筛选出具有临床意义的特征。运用t检验来衡量连续性数据变量与疾病类别之间的相关性。t检验是使用t分布来对差异发生的概率进行推断,来比较两样本差异是否显著,t检验假设某临床指标对于疾病的鉴别没有影响,之后计算每个临床指标与疾病类别的t值,查看该t值所对应的P值,与事先设置好的显著性水平进行比较,若P小于,拒绝12 重庆医科大学硕士研究生学位论文原假设,认为该临床指标对疾病的诊断具有鉴别价值,t检验的计算公式为:XX12t(2-2)22(n1)S(n1)S111122()nn2nn121222其中X和X为两样本均数,n和n为两样本容量,S和S为两样本方差。121212根据自由度算出P值,依据P值筛选出具有临床意义的特征。本研究使用遗传算法对构建的川崎病辅助诊断模型进行优化降维,来提高算法的运行效率。基于遗传算法的特征选择属于一种封装式的特征选择方法,该算法是一种模拟生物进化论和自然界优胜劣汰的自适应搜索策略[21]。算法流程图如图2.1所示。所有可能的解决方案称为搜索空间,每一个解决方案对应一个适应度值,遗传算法中使用适应度来衡量每一个特征子集可能达到最优解的程度,它主要通过选择、交叉和变异操作从一系列解决方案中来寻优和搜索产生最优解决方案。首先找到一种编码方式来对所有的特征子集进行编码,最常用的方法是使用二进制编码,每一个二进制基因位表示特征子集中的一个特征,一个特征子集也是一个染色体,表示方法如下:1010011110011。然后随机选择N个染色体作为初始种群。选择一个适合的适应度函数是遗传算法能否找出最优特征子集的关键,遗传算法利用适应度函数对问题的搜索空间进行不断的校正。本研究选取测试集数据的均方误差的倒数作为适应度函数。111f(X)(2-3)nSEsse(TˆT)2(tˆti)i1其中,Tˆ{tˆ,tˆ,,tˆ}为测试集的预测值,T{t,t,t}为测试集的真实值,12n12nn为测试集的样本量。求最优特征子集的遗传算子分别为:选择,交叉和变异。选择是一种基于适应度函数的优胜劣汰的过程,从当代种群中选择两个染色体,选择的依据是根据染色体的适应度值,本研究使用的选择算子为轮盘赌选择法,其主要原理为各染色体被选中的概率和它的适应度大小成正比。交叉操作的目的是产生新的染色体,来提高算法搜索能力,本研究使用单点交叉法。变异操作主要是为了维护种群的多样性,本研究采用单点变异算子,根据变异概率改变某基因位的基因值。经过一次次的迭代进化,直至达到终止条件,输出的末代种群即为13 重庆医科大学硕士研究生学位论文最优的特征子集。BP神经网络模型产生初始种群变异计算适应度函数交叉选择否是否满足终止准则是输出最优特征子集图2.1遗传算法流程图Fig2.1Theflowdiagramofgeneticalgorithm2.2Logistic回归Logistic回归是统计学中最经典的分类方法,是一种概率型非线性回归模型,本文构建Logistic回归模型对川崎病和其他类发热疾病进行分类,是本研究构建的第一种分类诊断模型。Logistic回归本质上是利用sigmoid函数(如图2.2)进行归一化来缩小预测范围,该方法的预测值范围为[0,1],经过学习后的Logistic回归会获得一组权值,1,……,,测试样本输入后与这组权值线性相加得到:0ng(x)xx(2-4)011nn其中x,x,……,x为每个样本的n个特征。12n以sigmoid函数的形式求出:1f(x)(2-5)x1e其中f(x)是以(0,0.5)为对称中心的S形曲线。14 重庆医科大学硕士研究生学位论文Logistic回归模型可以表示为:g(x)eP(y1|x)(2-6)g(x)1e1P(y0|x)(2-7)g(x)1e(1)(1)(2)(2)(n)(n)给定训练数据集T{(x,y),(x,y),,(x,y)},由于各样本之间相互独立,那么他们的联合分布为各边缘分布相乘,得到似然函数为:n(i)(i)(i)(i)y(i)(i)1yL()(P(y1|x))(1P(y1|x))(2-8)i1对L()求最大值,即可得的估计值,对L()两侧取对数,得:m(i)(i)(i)(i)(i)(i)l()lnL()(yln(P(y1|x))(1y)ln(1P(y1|x)))(2-9)i1图2.2sigmoid函数Fig2.2Functionofsigmoid可以使用梯度上升法求参数,对l()稍作变换:15 重庆医科大学硕士研究生学位论文1J()l()(2-10)m即使用梯度下降法求J()的最小值,梯度下降更新权值参数的过程中需要对J()求偏导数:n1(i)(i)(i)(i)J()((yln(h(x))(1y)ln(1h(x))))jjmi1n1(i)1(i)(i)1(i)(y(i)h(x)(1y)(i)h(x))mi1h(x)j1h(x)jn1(i)1(i)1(i)(y(i)(1y)(i))h(x)(2-11)mi1h(x)1h(x)jn1(i)(i)(i)(i)(y(1h(x))(1y)h(x))xijmi1m1(i)(i)(i)(yh(x))xjmi1得出权值的迭代公式为:m1(i)(i)(i)j:j(h(x)y)xj(2-12)mi1本研究的观察对象为患有川崎病或待鉴别发热疾病,将相关的个人信息,实验室指标和临床表现作为Logisitc回归模型的自变量,诊断结果作为因变量,设置显著性水平为0.05。2.3BP神经网络BP神经网络是一种非线性的分类器,是目前应用最广泛的神经网络模型之一。BP神经网络为本文采用的第二种实现对川崎病和其他类发热疾病鉴别诊断的分类算法。BP神经网络是按误差逆传播算法训练的多层前馈网络,由输入层、隐含层和输出层组成。图2.3为典型的三层人工神经网路结构示意图。网络的输入对应每个训练样本的输入变量,并将这些输入提供个输入层的单元。这些输入值通过输入层后,按照它们输出的弧的权重进行线性加权,再经过激活函数变换后提供给第一个隐含层,该隐含层的输出可以输入到另外一个隐含层,以此类推。最后一个隐含层的输出即为输出层的输入,输出层输出给定样本的网络预测值。对于每一个训练样本,更新权重使预测值和实际目标值之间的均方误差最小。这种更新是“反向”进行的,即由输出层,经过各个隐含层,到第一个隐藏层。通过这种信息16 重庆医科大学硕士研究生学位论文前向传播和误差逆向传播的反复交替的过程来训练网络,最终使网络趋于收敛。图2.3神经网络结构图Fig2.3Thestructureofneuralnetwork以y表示输出层神经元,以z表示隐含层神经元,以x表示输入层神经元,ijk1输入层神经元k到隐含层神经元j的权重为,隐含层神经元j到输出层神经元ijk2的权重为,假设输入层共有K个神经元,隐含层共有J个神经元,输出层共有ijI个神经元。f和f分别表示隐含层和输出层的激活函数,则隐含层j的输入为:12K1hjjkxk(2-13)k1输出为K1Vf(h)f(x)(2-14)j1j1jkkk1输出单元i的输入为JJK221HiijVjijf1(jkxk)(2-15)j1j1k1最终的输出为JK21yig2(Hi)f2[ijf1(jkxk)](2-16)j1k1对于某一输入样本n,定义误差为17 重庆医科大学硕士研究生学位论文JKn1nn21n21n2E()(yˆiyi){yˆif2[ijf1(jkxk)]}(2-17)22j1k1总误差函数为NNn1nn2E()E()(yˆiyi)(2-18)n12n1n其中yˆ表示第n个样本的预测输出值。权重的更新,指的是每一个当前的,i加上一个适当的增量得到新的增量,使得误差函数随着迭代而减小,最终达到最小值。使用梯度下降法对权重进行训练,以某一输入样本n的误差为例,2对于隐含层神经元到输出层神经元之间的连接权重,使用梯度下降法可得:n2EnnV(2-19)ij2ijij其中为学习步长,式中nnnnf(h)(xy)(2-20)i2iii1同理对于输入层与隐含层之间的权重,可得:n1EnnV(2-21)jk1jkjk式中nn2njf1(hj)iji(2-22)i使用以上方式实现对权重的更新。将与川崎病相关的临床表现和实验室指标作为神经网络的输入参数,输入层节点数为37,使用BP神经网络模型将川崎病和其他类发热疾病进行分类,因此输出节点数为1,如果输出值<=0.5,为非川崎病,输出值>0.5,为川崎病。由于隐含层的单元数,尚无理论指导,因此本研究的隐含层节点数经过反复试验确定,通过分类正确率对其进行调整。神经元的学习率设置为0.01,训练误差函数的方法选择最小均方误差(LMS),设置权重更新的方法为批梯度下降法(BATCHgd),神经网络的隐含层和输出层的激活函数均选用tansig函数,函数表达式如下:18 重庆医科大学硕士研究生学位论文2tansig(x)1(2-23)x1e通过训练集数据对BP神经网络进行训练,寻找输入参数(实验室指标和临床表现)与输出结果(是否为川崎病)之间的非线性关系,使得BP神经网络学习了训练集的输入参数到输出结果之间的规律,当给出测试集数据时,模型将诊断患者是否为川崎病。2.4贝叶斯网络本研究使用贝叶斯网络来表示患者临床信息与患病类别之间的概率关系,进而实现对疾病类别的预测,贝叶斯网络模型为本文构建的第三种分类模型。贝叶斯网络又叫信念网络,是一种通过有向无环图(directedacyclicgraph,DAG)来表示一系列变量之间因果关系的概率图模型,如图2.4所示。DAG中节点表示变量,变量可以是连续值或者离散值,连接两个节点的箭头表示两变量之间的因果关系,一条弧由A到C,则A是C的父节点,C是A的后代,每个节点的概率可通过贝叶斯公式计算,公式如下P(B|A)P(A)P(A|B)(2-24)P(B)ABCDE图2.4有向无环图Fig2.4Directedacyclicgraph贝叶斯网络模型可以表示症状和疾病之间的概率关系,通过给出疾病的症状,网络可以计算出某种疾病出现的概率。以Y(y,yy)表示被变量或属性12nX,X,,X描述的数据元组,网络图中的父节点,都条件独立于他的非后代[22]。12n根据条件概率的乘法法则得19 重庆医科大学硕士研究生学位论文nP(y1,y2,,yn)P(yi|Parents(Xi))(2-25)i1其中,P(y,y,y)是Y的特定组合的概率,P(y|Parents(X))表示不独立12nii于变量y的父节点集合Parents(X)。本研究使用一种树状贝叶斯网络--TAN贝叶ii斯网络结构,该算法是对朴素贝叶斯算法的加强,放松了对属性独立性的要求,允许属性之间有依赖关系,使网络更符合现实世界问题。本研究通过从数据中学习的方式来构建患有川崎病与患者的基本信息,实验室检查和临床表现之间的TAN贝叶斯网络结构,来表明患病类别与临床信息之间的影响关系和临床信息之间的依赖关系。2.5决策树决策树是一种类似于流程图的树形结构,如图2.5所示,由于表示形式直观且易于被人理解,因而成为一种被广泛使用的分类器,决策树模型为本研究构建的第四种分类模型。一个决策树包括节点和有向边,节点包括内部节点和叶子节点,每一个内部节点表示对某一特征的检测,每一个有向边表示对特征的检测结果,每一个叶子节点表示一个类标签[23]。决策树算法可以看做是编程思想中If-then规则的集合,从根节点开始,对实例的某个特征进行条件判断,根据其判断结果,将实例分配给其中一个子节点,若子节点为根节点,此时获得该实例的类别标签,若子节点为内部节点,则按以上步骤递归向下移动,直到达到根节点,即为该实例的判断类别。满足条件1?是否结果a满足条件2?是否结果b结果c图2.5决策树结构图Fig2.5ThestructureofdecisionTree20 重庆医科大学硕士研究生学位论文实现决策树的算法有很多种,比如ID3,C4.5以及CART等,本研究使用的是CART算法。CART算法使用基尼指数作为属性选择标准[24]。基尼指数的计算公式如下:|D||D|12Gini(D,A)Gini(D)Gini(D)(2-26)12|D||D|基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经过变量A分割后集合D的不确定性。基尼指数越大,样本的不确定性也就越大。本研究以特征选择后有临床意义的37项临床信息为自变量,作为决策树的内部节点,患病类别为因变量,作为决策树的叶子节点,利用训练集数据来训练一个决策树模型,使用测试集对该模型进行验证。测试一位患者的临床信息时,从根节点开始进行判断,直到遇到一个叶子节点,该节点为对该患者的疾病预测结果。2.6模型评价指标与评估方法本研究使用Logistic回归、BP神经网络、贝叶斯网络和决策树等分类算法构建诊断模型,通过分类正确率(Accuracy)、敏感度(Sensitivity)、特异度(Specificity)、AUC(AreaUnderRoc)、阳性预测值(PositivePredictiveValue,PPV)和阴性预测值(NegativePredictiveValue,,NPV)6个评价指标来衡量模型的优劣性。除此之外,混淆矩阵(confusionmatrix)是一种通过特定矩阵实现对分类模型性能的可视化展示[25],如下表2.1。表2.1混淆矩阵Table2.1Confusionmatrix预测值真实值010TNFP1FNTP21 重庆医科大学硕士研究生学位论文上述混淆矩阵中的符号含义为:以0表示阴性结果,以1表示阳性结果。TN(truenegative):被正确分类为阴性的个数,即真实值为阴性,预测结果也为阴性的例数。FP(falsepositive):被错误分类为阳性的个数,即真实值为阴性,预测结果为阳性的例数。FN(falsenegative):被错误分类为阴性的个数,即真实值为阳性,预测结果为阴性的例数。TP(truepositive):被正确分类为阳性的个数,即真实值为阳性,预测结果也为阳性的例数。Accuracy为分类模型可以正确分类的样本数与总样本数之比,公式为:TPTNAccuracy(2-27)TPTNFPFNSensitivity又称真阳性率(truepositiverate,TPR),是指在实际值为阳性的样本中,同时被分类模型诊断为阳性的比例,公式为:TPSensitivity(2-28)TPFNSpecificity又称真阴性率(truenegativerate,TNR),是指在实际值为阴性的样本中,同时被分类模型诊断为阴性的比例,公式为:TNSpecificity(2-29)TNFPPPV是指分类模型预测值为阳性的样本中,真实值为阳性所占的比例,公式为:TPPPV(2-30)TPFPNPV是指分类模型预测值为阴性的样本中,真实值为阴性所占的比例,公式为:TNNPV(2-31)TNFNAUC为ROC曲线下面积,ROC曲线又称受试者工作特征曲线(receiveroperatingcharacteristiccurve),其纵坐标为敏感度,横坐标为1-特异度。分类模型可得到某样本为某一类别的概率,将所有预测进行排序,使用不同的分类阈值,22 重庆医科大学硕士研究生学位论文将样本分为不同的类别,计算不同阈值下的敏感度和特异度,最后将各点依次连接即为ROC曲线图。计算ROC曲线下面积可得AUC,当AUC=1时,表示所有分类器都分类正确,代表完美的分类器,当AUC=0.5时,表示分类器并未起作用,代表随机分类器,一般分类器的AUC的值介于0.5和1之间,值越大,表示分类器的分类效果越好。23 重庆医科大学硕士研究生学位论文第三章数据处理3.1数据来源本课题研究数据来源于重庆医科大学附属儿童医院,共收集7336份患者病历,总计超过10万条医疗数据记录。根据本研究内容,涉及的医疗数据主要包括患者人口统计学资料,实验室检查数据,临床症状以及医生的诊断结果。考虑到部分患者临床数据不完整的情况,本研究纳入1343例样本进行分析,其中川崎病患者905例,待鉴别发热疾病438例。通过查阅国内外关于川崎病诊断方面相关文献及咨询儿科医生,确定本研究待鉴别发热疾病为下表3.1中的15种。表3.1待鉴别的其他发热类疾病Table3.1Otherfebriledisease疾病类别病例数疾病类别病例数麻疹19败血症22幼年特发性关节炎37感染性红斑4猩红热2药疹1EB病毒感染29支气管肺炎53支原体感染16上呼吸道感染157Stevens-Johnsons综合征2病毒性脑炎6颈淋巴结炎20手足口病13蜂窝组织炎73.2数据抽取本研究以SQLServer数据库为数据管理工具,以SQL语言来实现数据的抽取任务,患者病历纳入标准为:重庆医科大学附属儿童医院2007年1月至2016年1月电子病历系统中出院诊断为川崎病或表3.1中所列疾病的病历;同一患儿多次入院取第一次入院的检查信息。患者病历的排除标准为:本文涉及的临床指标中缺失值超过20项的病历;川崎病患者病历病史中记录患儿在入本院前接受过丙种球蛋白治疗的病历。从病历数据库中单人截取以下51项临床信息。24 重庆医科大学硕士研究生学位论文一般信息:性别,发病年龄。实验室检查:C反应蛋白(CRP)、白细胞计数(WBC)、红细胞沉降率(ESR)、淋巴细胞百分比、单核细胞百分比、中性粒细胞百分比、嗜酸细胞百分比、红细胞计数(RBC)、血红蛋白(HGB)、红细胞压积(HCT)、平均红细胞体积(MCV)、平均血红蛋白量(MCH)、平均血红蛋白浓度(MCHC)、红细胞分布宽度(RDW)、红细胞分布绝对值、血小板计数(PLT)、血小板平均体积(MPV)、大血小板比率、血小板分布宽度(PDW)、血小板压积(PCT)、结合胆红素(CB)、总胆红素(TBIL)、白蛋白(ALB)、球蛋白(GLB)、谷氨酰转肽酶(GGT)、谷丙转氨酶(ALT)、谷草转氨酶(AST)、谷草/谷丙(ASAL)、乳酸脱氢酶(LDH)、总蛋白(TP)、碱性磷酸酶(ALP)、血肌酐(SCr)、血清钾(K)、血清磷(P)、血清氯(Cl)、血清镁(Mg)、血清钙(Ca)、血清钠(Na)、尿胆红素(BIL)、尿蛋白质、尿素氮(BUN)、尿酸(UA)、尿亚硝酸盐(NIT)、酮体(KET)。临床症状:对于临床症状的提取,通过预实验收集归纳各临床症状在病历中的症状描述,①病历中有以下描述归纳为颈部淋巴结肿大:颈部淋巴结肿大、颈部淋巴结扪及肿大、颈部扪及包块、颈部淋巴结稍肿大、颈部淋巴结肿、颈部淋巴结数个肿大、颈部淋巴结约黄豆大、颈部淋巴结数个、颈部淋巴结数枚、颈部淋巴结0.5*0.5cm、颈部淋巴结豌豆大、颈部淋巴结花生米大、颈部淋巴结数个肿大约葫豆大、颈部淋巴结可触及、颈部淋巴结炎肿大、颈部淋巴结增大、颈部淋巴结大、颈部超声见多个肿大淋巴结、颈部浅表淋巴结轻度肿大、颈部可闻及包块;②病历中有以下描述归纳为皮疹,皮疹、荨麻疹、丘疹、斑丘疹、玫瑰疹、充血性皮疹、红色皮疹、全身散在红色皮疹、淡红色皮疹、充血性皮疹;③病历中有以下描述归纳为眼结膜充血:眼结膜充血、球结膜充血、双眼睑结膜充血、结膜稍充血、结膜红、结膜弥漫性充血、结膜面紫红、结膜轻度发红、结膜面局部充血、结膜轻微充血;④病历中有以下描述归纳为口咽变化:咽红、咽充血、咽部粘膜慢性充血、咽稍充血、咽中红、咽微红、咽部出血、唇红、唇干燥发红、唇樱红、唇皲裂、唇周有溃疡、口唇糜烂、唇周发绀、唇周可见皮藓、唇周干裂、口唇破溃、唇周脱屑、口唇可见结痂、嘴唇脱皮、杨梅舌;⑤病历中有以下描述归纳为手足变化:趾指端脱屑、手指脱屑、指端脱屑、手指脱皮、手指发紫、手指红肿、脚掌红肿压痛、手足硬肿、指甲板凹凸不平、手指红肿脱皮、指/趾脱屑、25 重庆医科大学硕士研究生学位论文手指末端肿胀、指脱屑。3.3数据预处理现实世界中的数据多存在着不完整,不一致和有噪声的特点,对于医疗数据,可能由于医生记录病历时的疏忽,以及记录表达的不准确,均会造成医疗数据的不完整;而部分临床检查,由于指标计量单位的不一致,或者医生习惯表达的不同,使数据产生了不一致性;由于大量病历录入任务,部分患者信息会出现录入错误而使数据中包含错误数据和异常值[26]。而数据挖掘任务对于数据质量要求较高,原始数据必须经过数据预处理之后,才能进一步使用。数据清洗:在本研究中,数据清洗主要解决缺失值和异常值的情况,对缺失指标少于20项的,使用线性插值法进行填充,排除缺失指标超过20项的病历。针对各指标的异常值,检查其计量单位是否一致,部分患者的指标检查时间,由于医生采用了系统默认时间,根据不同表的链接关系,对其进行修正。数据集成:数据集成主要是将多个数据源中的数据合并到一个数据集合中[27]。针对本研究的病历数据库,主要以目标表中的“PATIENT_ID”字段为主键进行关联,将患者的基本个人信息,实验室检查信息,临床症状以及诊断结果合并到一张表中。数据变换:数据变换是为了将数据转换为便于数据挖掘的形式。在本研究的病历数据库中,部分指标为文本字段,需将文本数据转化为适宜数据挖掘的数据形式,对于分类数据(如性别)以及正常值不一致的数据(如男女血沉正常值不一致)的情况,需重新对其进行数值形式编码,表3.2展示了指标编码方式的示例。表3.2临床信息编码规则示例Table3.2Theexampleofclinicinformationcodingrule序号指标编码1性别男:0女:12颈部淋巴结肿大无:0有:13酮体阴性:0阳性:14血沉(mm/h)男<=15:0>15:1女<=20:0>20:126 重庆医科大学硕士研究生学位论文数据规约:数据规约是在熟悉了数据内容和理解了数据挖掘任务前提下,缩减数据规模,但却不影响数据挖掘价值。数据规约包括维规约,数量规约和数据压缩。本研究所涉及的数据规约主要为维规约和数量规约,维规约是利用单因素分析进行特征选择,由于川崎病与其他类发热疾病样本数量相差较大,为避免数据的过分不均衡性,所以本研究对川崎病采用简单随机抽样的数量规约,随机选取川崎病病历905例,待鉴别的其他类发热疾病438例。27 重庆医科大学硕士研究生学位论文第四章川崎病辅助诊断模型与评估4.1数据集描述本文通过对川崎病和待鉴别的发热疾病电子病历进行数据预处理后,纳入川崎病患儿905例,男490例,女415例,年龄1岁-18岁;待鉴别发热疾病患儿438例,男242例,女196例,年龄1岁-18岁,共采集的临床指标共51项。本研究以P-Value<0.05作为统计学意义的标准,使用单因素分析筛选出符合临床意义的临床指标共37项,分析结果如表4.1所示。表4.151项临床信息的单因素分析结果Table4.1Univariateanalysisof51clinicalindexesKD待鉴别发热疾2指标/tP(n=905)病(n=438)一般情况年龄2.7±2.14.0±3.96.08<0.001男性490(54.1)242(55.3)0.320.57实验室指标尿蛋白质(+)65(7.2)38(8.7)0.800.35ESR偏高833(92.0)347(79.2)45.49<0.001尿亚硝酸盐(+)11(1.2)10(2.3)1.260.31KET(+)216(23.9)94(21.5)0.960.33BIL(+)20(2.2)9(2.1)0.0040.881CRP/mgL43.5±47.824.2±43.4-7.38<0.00191WBC/10L13.7±6.312.0±6.5-4.52<0.001淋巴细胞百分比0.3±0.20.4±0.25.96<0.001中性粒细胞百分比0.6±0.20.6±0.2-5.10<0.001121RBC/10L4.0±0.44.2±0.65.89<0.0011HGB/gL105.0±11.6112.3±17.18.09<0.001HCT/%31.9±3.434.4±5.19.56<0.001MCV/fL80.4±5.083.1±9.05.77<0.001MCH/pg26.5±1.827.2±3.44.04<0.001RDW/%13.7±1.214.4±2.55.73<0.00128 重庆医科大学硕士研究生学位论文KD待鉴别发热疾2指标/tP(n=905)病(n=438)红细胞分布绝对值/fL39.8±3.443.0±8.47.64<0.00191PLT/10L404.5±171.6331.8±158.2-7.47<0.001MPV/fL9.8±1.010.2±1.45.78<0.001大血小板比率/%23.0±7.926.7±9.17.33<0.001PDW/fL11.1±1.912.0±2.66.67<0.001嗜酸细胞百分比0.03±0.030.03±0.02-3.73<0.0011ALB/gL37.0±4.840.7±6.210.76<0.0011GGT/UL86.0±109.253.0±97.8-5.58<0.001ASAL1.3±0.91.7±1.07.57<0.0011SCr/molL22.2±8.634.7±101.42.580.011ALP/UL184.7±121.3204.6±183.82.370.021P/mmolL1.3±0.31.5±0.410.31<0.0011CL/mmolL101.5±3.6103.4±4.17.96<0.0011NA/mmolL137.1±3.1138.3±3.46.32<0.0011BUN/mmolL2.8±1.33.5±2.36.02<0.0011UA/molL210.0±79.7254.5±114.47.33<0.0011LDH/UL316.6±119.6367.0±380.52.710.0071TBIL/molL11.0±13.216.0±30.63.310.0011TP/gL59.0±6.661.9±8.66.38<0.0011CA/mmolL2.3±0.22.4±0.27.75<0.001单核细胞百分比0.03±0.020.03±0.021.500.111MCHC/gL325.6±12.7325.6±24.9-0.050.951CB/molL4.5±8.14.4±9.8-0.110.911ALT/UL65.8±104.461.1±175.2-0.520.701AST/UL56.0±92.776.9±260.41.550.121K/mmolL4.3±0.74.4±0.60.350.70PCT/%0.4±0.20.4±0.3-1.590.111MG/mmolL0.9±0.10.9±0.1-0.470.641GLB/gL21.9±5.421.3±6.2-1.960.05临床体征口咽变化178(19.7)3(0.7)91.22<0.001结膜充血69(7.6)1(0.2)32.68<0.001皮疹102(11.3)5(1.1)41.30<0.00129 重庆医科大学硕士研究生学位论文KD待鉴别发热疾2指标/tP(n=905)病(n=438)颈部淋巴结肿大70(7.7)1(0.2)33.22<0.001手足变化75(8.3)5(1.1)26.90<0.0014.2建立辅助诊断模型本文主要运用Logistic回归、BP神经网络、贝叶斯网络和决策树这四个分类算法,使用单因素分析结果中符合临床意义的37项指标构建辅助诊断模型,将疾病样本分为训练集和测试集,训练集1042例,其中川崎病700例,待鉴别的发热疾病342例,测试集301例,其中川崎病205例,待鉴别的发热疾病96例。根据模型对于训练集和测试集的分类效果,对模型进行评估,选择分类效果最好的模型作为川崎病辅助诊断模型,并对该模型进行进一步的优化降维,提高算法的运行效率。(1)使用训练集数据对单因素分析结果中差异有统计学意义的37项临床指标建立Logistic回归分类模型,并通过测试集数据对模型的性能进行评估。表4.2显示,在回归分析的结果中,有16个变量纳入最佳回归方程,对川崎病诊断具有较好的预测价值。表4.2Logistic回归分析结果Table4.2Theresultsoflogisticregression2变量BS.E.WaldOR(95%CI)PAGE-0.2430.04037.7380.784(0.726,0.847)<0.001淋巴细胞百分比-1.5780.5907.1560.206(0.065,0.656)0.007HCT-0.0690.0276.3790.934(0.885,0.985)0.012RDW-0.2550.07611.1030.775(0.667,0.900)0.001红细胞分布绝对值-0.0800.02410.9380.923(0.880,0.968)0.001PLT0.0020.00112.0901.002(1.001,1.004)0.001大血小板比率-0.0290.0125.9380.971(0.948,0.994)0.015ALB-0.0960.02317.1300.908(0.868,0.951)<0.001P-1.2100.32713.6720.298(0.157,0.566)<0.001CL-0.1450.02631.2900.865(0.822,0.910)<0.001UA-0.0030.0018.0760.997(0.995,0.999)0.004LDH-0.0010.00044.5200.999(0.999,1.000)0.033CA-1.4910.7154.3470.225(0.055,0.914)0.03730 重庆医科大学硕士研究生学位论文2变量BS.E.WaldOR(95%CI)P口咽变化2.8850.69517.23017.910(4.586,69.948)<0.001皮疹1.4840.6644.9924.411(1.200,16.218)0.025颈部淋巴结肿大2.3611.0475.08310.602(1.361,82.553)0.024常数35.3203.397108.0960<0.001Logistic回归结果显示川崎病患儿的淋巴细胞百分比、HCT、RDW、红细胞分布绝对值、大血小板比率、ALB、P、CL、UA、LDH和CA与其他类发热疾病相比偏低,PLT与其他类发热疾病相比偏高。Harada评分[28]指出HCT≤35%为预测KD患儿冠状动脉病变的一项条件。有文献[29]报道KD患儿与急性腺病毒感染患儿相比,ALB偏低,PLT偏高,与本研究结果一致。ALB反映肝功能的情况,由于KD是一种以全身血管炎为主要病变的疾病,ALB偏低,提示川崎病可能累及肝血管,进一步影响肝合成白蛋白,KD是一种血管炎综合症,可引起血管内皮细胞损伤,促使血小板的活化,致使PLT升高[30]。本研究结果中血清磷与患KD的几率呈负相关,进一步验证了相关研究[31]中关于KD患儿由于血管炎肾小管损害,使肾小管对磷的重吸收作用减弱,导致血磷降低的结论。除此之外,本研究发现了血清氯、尿酸、乳酸脱氢酶、淋巴细胞百分比、红细胞参数、大血小板比率和CA在KD患儿和其他类发热疾病患儿中存在明显差异,尿酸含量与患川崎病呈负相关,说明川崎病患儿更易发生嘌呤代谢紊乱。KD患儿的淋巴细胞百分比偏低与川崎病急性期中性粒细胞升高相符合[32]。KD引起肝脏血管炎症,使活性维生素D3的合成减少,降低了人体对于钙的吸收,导致KD患者的CA含量偏低。且据本研究所知,上述结果尚未有文献进行报道。(2)根据输入数据和输出数据的特点确定BP神经网络的结构,将单因素分析结果中有统计学意义的37项指标作为神经网络的输入参数,待分类的疾病类别为川崎病和待鉴别发热疾病,由于目前神经网络隐含层节点数的设置无确定的理论方法,故本研究经过多次训练,训练过程如图4.1所示,当隐含层节点数为24时,BP神经网络对训练样本和测试样本的拟合效果最好,故BP神经网络输入层有37个节点,隐含层有24个节点,输出层有1个节点。本研究使用平均影响值(MeanImpactValue,MIV)来评价神经网络模型中各输入指标对于川崎病诊断的重要性。MIV是用来表示神经网络输入对输出影响大小的一个指标,具体操作为,31 重庆医科大学硕士研究生学位论文在神经网络训练完毕后,将训练样本X中的每一个输入变量在其原来的基础上分别加/减10%构成两个新的训练样本X1,X2,将X1和X2输入原神经网络,得出结果Y1和Y2,则Y1和Y2的差值,即为变动该输入变量后对输出产生的影响变化值(ImpactValue,IV),IV除以总样本数即为MIV值,其中正负表示影响的方向,绝对值大小,表示影响的重要性[33]。上述神经网络模型各输入特征的MIV相对大小,如图4.2所示,图中变量x1-x37分别表示年龄、CRP、WBC、淋巴细胞百分比、中性粒细胞百分比、RBC、HGB、HCT、MCV、MCH、RDW、红细胞分布绝对值、PLT、MPV、大血小板比率、PDW、嗜酸细胞百分比、ALB、GGT、ASAL、SCr、ALP、P、Cl、Na、BUN、UA、LDH、ESR、TBIL、TP、Ca、口咽病变、结膜充血、皮疹、颈部淋巴结肿大、手足病变。图4.1在不同隐含层节点数下BP神经网络模型的误判率Fig4.1TheerrorrateofBPneuralnetworkmodelwithdifferentnumberofhiddenlayernodes.32 重庆医科大学硕士研究生学位论文图4.2BP神经网络模型中各输入特征的MIV值的相对大小Fig4.2MIVofallinputfeaturesinBPneuralnetwork.(3)使用训练集构建TAN贝叶斯网络模型,通过测试集对模型的性能进行验证。构建的贝叶斯网络结构如图4.3所示,图中可以看出各临床信息之间的依赖关系,以及患川崎病对各个临床指标的影响情况,以CRP为例,当患者患有川崎病的情况下,CRP高于正常值的概率为0.66,模型的分类结果如表4.3和表4.4所示。该模型敏感度虽然达到0.9以上,但特异度仅有0.2,该方法诊断出其他类发热疾病的能力较差。33 重庆医科大学硕士研究生学位论文图4.3川崎病鉴别诊断的贝叶斯网络图Fig4.3BayesiannetworkofdiagnosisofKawasakidisease(4)使用训练集数据对单因素分析结果中差异有统计学意义的37项临床指标建立决策树分类模型,并通过测试集数据对模型的性能进行评估。图4.3为本研究训练后的决策树算法规则。并使用基尼指数[34],得出该模型输入特征的重要性排名,CRP,SCr,口咽病变,谷草/谷丙,ALB,HCT,中性粒细胞百分比,淋巴细胞百分比,尿酸和血清磷为重要性最高的10个特征变量,如图4.4所示。其中基尼指数的计算公式为:|D||D|12Gini(D,A)Gini(D)Gini(D)(4-1)12|D||D|基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经过变量A分割后集合D的不确定性。基尼指数越大,样本的不确定性也就越大。本研究将所得出的基尼指数其范围调整为0-100。34 重庆医科大学硕士研究生学位论文图4.3决策树分类模型规则Fig4.3Theruleofdecisiontreeclassificationmodel图4.4决策树中各输入特征的重要性Fig4.4Theimportanceofallinputfeaturesindecisiontree4.3分类模型性能评估Logistic回归、BP神经网络、贝叶斯网络和决策树四种分类模型在训练集和35 重庆医科大学硕士研究生学位论文测试集上所得出的评估指标见表4.3和表4.4,图4.5(a-d)展示了四种不同模型的ROC曲线图。结果显示BP神经网络在训练集上的Accuracy,Sensitivity,AUC和NPV均高于其他四种分类模型,BP神经网络和Logistic回归在测试集上的AUC达到了0.92和0.89,高于贝叶斯网络和决策树。其中BP神经网络的Accuracy高于其他三个模型,Logistic回归在测试集上的Sensitivity优于其他模型,BP神经网络在Accuracy和AUC值上明显优于其他模型,并且其他指标也相对稳定,综上所述,BP神经网络为本研究中四种模型中的最优模型。表4.3各分类模型在训练集上的分类性能比较Table4.2TheperformancecomparisonofallclassificationmodelintrainingsetSensitivitySpecificityAUCPPVNPV模型Accuracy(95%CI)(95%CI)(95%CI)(95%CI)(95%CI)0.910.700.910.860.79Logistic回归84.1%(0.88-0.93)(0.65-0.75)(0.89-0.93)(0.84-0.89)(0.74-0.83)0.990.900.940.950.99BP神经网络96.4%(0.98-0.998)(0.87-0.93)(0.93-0.96)(0.94-0.97)(0.92-0.996)0.880.720.880.870.75贝叶斯网络82.8%(0.85-0.90)(0.67-0.77)(0.86-0.91)(0.84-0.89)(0.70-0.79)0.710.940.890.960.61决策树78.0%(0.67-0.74)(0.91-0.96)(0.88-0.92)(0.94-0.98)(0.57-0.65)GA-BP神经0.960.820.930.920.9191.6%网络(0.94-0.97)(0.78-0.86)(0.91-0.95)(0.89-0.94)(0.87-0.94)表4.4各分类模型在测试集上的分类性能比较Table4.3TheperformancecomparisonofallclassificationmodelintestsetSensitivitySpecificityAUCPPVNPV模型Accuracy(95%CI)(95%CI)(95%CI)(95%CI)(95%CI)0.910.640.890.840.76Logistic回归82.1%(0.96-0.94)(0.53-0.73)(0.85-0.93)(0.79-0.89)(0.65-0.85)0.880.810.920.910.76BP神经网络86.0%(0.83-0.92)(0.72-0.88)(0.89-0.95)(0.86-0.94)(0.67-0.84)0.860.710.880.860.71贝叶斯网络81.4%(0.81-0.91)(0.61-0.79)(0.84-0.92)(0.81-0.91)(0.61-0.79)0.610.880.790.910.51决策树69%(0.54-0.68)(0.79-0.93)(0.74-0.85)(0.85-0.95)(0.43-0.59)GA-BP神经0.880.720.870.870.7382.7%网络(0.82-0.92)(0.62-0.80)(0.83-0.92)(0.81-0.91)(0.63-0.82)本文采用遗传算法对BP神经网络模型的输入特征进行降维优化,染色体长度为37,种群大小设置为20,最大进化代数为100,经过遗传算法优化后,筛选出的一组输入特征为年龄,CRP,WBC,淋巴细胞百分比,中性粒细胞百分比,RBC,HCT,MCV,MCH,PLT,MPV,PDW,嗜酸细胞百分比,ALB,GGT,P,Cl,36 重庆医科大学硕士研究生学位论文BUN,LDH,ESR。经过遗传算法特征选择后,BP神经网络模型的输入变量大约为全部输入变量的一半,对比筛选前后BP神经网络的分类结果,如上表4.3和4.4所示,图4.5(e)为优化后BP神经网络的ROC曲线图,特征选择后模型的分类效果与全临床特征下模型的分类效果十分接近,但模型的复杂度和算法的运行效率却得到了很大的改善。a)Logistic回归模型ROC曲线图b)BP神经网络模型ROC曲线图a)TheROCcurveofLogisitcregressionmodelb)TheROCcurveofBPneuralnetworkmodelc)贝叶斯网络模型ROC曲线图d)决策树模型ROC曲线图c)TheROCcurveofbayesiannetworkd)TheROCcurveofdecisiontree37 重庆医科大学硕士研究生学位论文e)GA-BP神经网络模型ROC曲线图e)TheROCcurveofGA-BPneuralnetworkmodel图4.5四种分类模型的ROC曲线(红色曲线表示训练集,蓝色曲线表示测试集)Fig4.5TheROCcurveoffourclassificationmodels(Theresultsoftrainingsetclassificationareshowninred,theresultsoftestsetclassificationareshowninblue)38 重庆医科大学硕士研究生学位论文第五章川崎病辅助诊断系统5.1系统概要设计本研究的最终目标是辅助临床医生更加准确高效的诊断和鉴别川崎病,从而降低冠状动脉瘤和冠状动脉病变的发生,为了实现对本研究构建的川崎病辅助诊断模型的共享与利用,本研究设计了川崎病辅助诊断系统,以满足不同用户对川崎病诊断的需求,下面对该系统的设计方案进行论述。本研究开发的川崎病辅助诊断系统使用MySQL作为数据的检索引擎;诊断系统的后台开发应用Perl编程语言的DBI接口和CGI编程模块,系统前端网页设计使用HTML语言,诊断系统使用ApacheHTTPServer作为网页的运行服务器。MySQL为Perl语言提供的编程接口为DBI:mysql,该模块可以实现Perl语言对MySQL数据库中数据的检索与存储。在川崎病辅助诊断系统中,DBI:mysql模块实现系统对病历数据库的后台检索操作。CGI模块是使用Perl语言编写CGI脚本的工具,该模块为CGI提供了一个Perl语言接口,使HTML表单可以解析外部输入的参数,经后台处理后,将数据结果格式化为HTML文档。在川崎病辅助诊断系统中,通过CGI模块处理系统页面输入的患者临床信息,将检索请求传送到MySQL中,再将MySQL中返回的检索请求输入到R语言编写的神经网络模型中,最后将神经网络的运行结果输出到用户界面。CGI是通用网关接口(CommonGatewayInterface)的缩写,是外部程序与WEB服务器之间的接口标准,CGI将网页的输入信息,传递给WEB服务器进行处理,将处理的结果返回给网页浏览器,从而使网页具备了交互功能。本研究基于CGI原理设计了川崎病辅助诊断系统的基本逻辑框架,诊断系统的结构模型如图5.1所示。通过该结构图可以了解川崎病辅助诊断系统的工作原理。首先,诊断系统页面会将网页表单接收到的患者基本信息发送给WEB服务器,当WEB服务器收到请求后,调用CGI程序对该请求进行处理;经CGI脚本处理后,获得患者的临床信息,把临床信息输入R语言编写的神经网络模型脚本中,将R脚本的运行结果发送回CGI脚本,CGI对神经网络的运行结果进行格式化处理后,以HTML文档的格式返回给WEB服务器,最后经服务器的解析后,诊断结果会以网页的形39 重庆医科大学硕士研究生学位论文式展示,从而完成整个川崎病诊断任务。图5.1川崎病辅助诊断系统结构图Fig5.1Thestructureofkawasakidiseasecomputer-assisteddiagnosticsystem5.2系统详细设计及测试本研究根据川崎病的辅助诊断需求,使用HTML语言编写诊断系统的页面,如图5.2所示。40 重庆医科大学硕士研究生学位论文图5.2川崎病辅助诊断系统页面Fig5.2Thepageofkawasakidiseasecomputer-assisteddiagnosticsystem如图5.2所示,川崎病辅助诊断页面包括两种辅助诊断方法。如图5.3所示,第一种首先在Selectdiagnosticbasis栏目中选择PATIENTID,然后在PATIENTID栏目中输入患者的ID号,最后点击提交,系统将疾病辅助判别结果和该患者的实验室检查指标异常值显示在网页上。如图5.4所示,第二种首先在Selectdiagnosticbasis栏目中选择Clinicalandlabtests,然后分别在AGE,Clinicalsymptoms和Labtests栏目,输入患者对应的信息,最后点击提交,系统给出该患者的疾病预测结果及患病概率和实验室检查指标异常值。41 重庆医科大学硕士研究生学位论文图5.3诊断系统的第一种诊断方式Fig5.3Thefirstmethodofdiagnosisofdiagnosticsystem图5.4诊断系统的第二种诊断方式Fig5.4Thesecondmethodofdiagnosisofdiagnosticsystem诊断结果页面如图5.5所示,页面会给出患者的年龄,疾病的预测结果,以及患病的概率,并且列出患者实验室检查指标中的异常值供医生参考。为了更加直观的展示川崎病辅助诊断系统的功能,下面将通过实际操作对诊断系统进行测试,并将诊断结果进行展示。第一种诊断方式以图5.2中PATIENT_ID=‘0007022605’为例,该患者的诊断结果如图5.5所示。第二种诊断方式,以图5.4中填入的年龄,实验室检查指标和临床症状为例,诊断结果如图5.6所示。42 重庆医科大学硕士研究生学位论文图5.5诊断系统结果页面(以PATIENT_ID为‘0007022605’为例)Fig5.5Thediagnosticresultspageofdiagnosticsystem(forexample,PATIENT_IDis’0007022605’)图5.6诊断系统结果页面(以图5.4中的患者临床信息为例)Fig5.6Thediagnosticresultspageofdiagnosticsystem(takingclinicalinformationinFig5.4asanexample)43 重庆医科大学硕士研究生学位论文第六章总结与展望6.1主要工作川崎病无特异性的诊断方法,通常依赖于患者的临床表现,对于没有经验的临床医生,有可能会造成川崎病的误诊,因此川崎病与许多发热类疾病的鉴别诊断在临床工作上十分重要,本文基于重庆医科大学附属儿童医院历史数据,面向基于大数据的川崎病辅助决策支持系统的研发研究课题,对川崎病和具有类似临床症状的发热疾病进行了模型评估和预测,这对早期预防川崎病引发冠状动脉病变具有非常重要的意义。首先,本文以川崎病和15种其他类发热疾病为对象,收集相关的临床数据资料,包括人口统计学信息,实验室检查数据,临床症状和医生诊断结果。通过阅读相关文献,并在儿科医生的建议下,从中抽取51项临床信息作为研究对象,并对病历数据中存在的不完整,不一致,有噪声的情况进行预处理,提高数据质量,以便进行后续的研究,这对挖掘数据中的价值,至关重要,在整个研究过程中也耗时最久。具体的临床信息及数据预处理的过程,详见第三章。其次,我们利用单因素分析,筛选出P值小于0.05的特征,得出符合临床意义的特征子集。根据筛选出特征子集,我们分别建立了Logistic回归模型,BP神经网络模型,贝叶斯网络模型以及决策树模型实现对川崎病和其他类发热疾病的分类鉴别,通过模型的比较与评估,得出BP神经网络模型的预测效果最好,并对该模型并以此模型作为川崎病辅助诊断模型。该模型敏感性和特异性较高,分类鉴别过程简单,克服了主观因素的影响,具有一定的客观性。最后,我们开发了以BP神经网络为模型的川崎病辅助诊断系统,实现了该诊断模型的共享与应用,将相关的临床信息输入计算机,系统会自动给出诊断提示,为基于经验的川崎病诊断提供了一种值得推广应用的计算机辅助诊断方法。6.2主要创新点本文试图通过川崎病和其他类发热疾病的病历挖掘对川崎病诊断相关的方法与应用方面有所突破与创新,主要创新点如下:44 重庆医科大学硕士研究生学位论文(1)本研究以数据挖掘方法为切入点,将数据挖掘中的分类算法应用于川崎病与其他发热疾病的鉴别诊断,提出了川崎病辅助诊断模型。目前国内外关于川崎病诊断的相关研究中,使用数据挖掘方法进行川崎病诊断的研究较少,使用神经网络算法的更为罕见,因此本研究对川崎病诊断的方法论的丰富和扩展做出了一定的贡献,也为川崎病诊断迈向“精准诊断”模式进行了尝试。(2)不同于传统的统计学方法仅选取少量的样本作为研究对象,本文基于大数据处理和挖掘方法,纳入了比以往文献更多的病历数据和更全面的临床指标,基于川崎病神经网络方法实现的川崎病和其他类发热疾病的鉴别诊断模型,解决了川崎病早期各项临床体征和实验室指标与诊断结果之间的非线性关系,并且诊断模型的准确率较高,对临床鉴别诊断川崎病与其它发热性疾病具有一定的临床意义。本研究还基于BP神经网络开发了川崎病辅助诊断系统,提高了该模型的应用价值。6.3研究局限性(1)尽管本研究全面采集了患者的实验室指标和临床体征等信息,但由于部分指标仅有少数患者进行了检查,故未纳入分析,其与川崎病的关系及预测性有待数据量扩大后进行进一步的分析。(2)该辅助诊断模型仅通过单一时间点的实验室指标和临床体征构建,未对患者不同时间点临床指标的变化情况进行分析,具有一定的局限性,因此在实际临床诊断过程中,该模型并不完全具备临床医生的诊疗思维,也缺乏对川崎病复杂性的灵活应变,仅对临床医生的诊疗决策起辅助作用。(3)本研究仅对川崎病和其他类发热疾病进行了分类鉴别,因此下一步重点研究的内容之一是分析不完全川崎病与其他类发热疾病的差异。6.4展望本文基于重庆医科大学附属儿童医院病历数据库,使用数据挖掘技术,开启了川崎病诊断的新视角,具有重大意义。本文以川崎病患者和15种其他类发热疾病为研究对象,建立了川崎病辅助诊断模型,开发了川崎病辅助诊断系统,取得了研究的初步成果,未来相关研究将围绕以下问题深入展开。本研究对川崎病和其他类发热疾病进行了分类鉴别,但川崎病又分为完全川45 重庆医科大学硕士研究生学位论文崎病和不完全川崎病,不完全川崎病比完全川崎病在临床上的诊断难度更大,后期我们会主要针对不完全川崎病进行建模,探索其与其他发热疾病在临床上的差异性。其次,本文研究只使用了一种特征选择算法,单因素分析用于选择符合临床意义的指标,虽然该方法具有很好的特征选择效果,但是没有选择多种特征选择算法进行比较,所以后期会选择多种特征选择算法对BP神经网络进行维度优化,使其分类正确率和算法运行效率达到最优。最后,本研究所开发的川崎病辅助诊断系统,目前仅实现了川崎病与其他发热疾病的鉴别诊断,后期,我们会将本研究团队关于川崎病并发冠状动脉的预测模型也加入该系统,实现该系统功能的多样化。46 重庆医科大学硕士研究生学位论文参考文献[1]KawasakiK,ChinaK,NishijimaM.ReleaseoftheLipopolysaccharideDeacylasePagLfromLatencyCompensatesforaLackofLipopolysaccharideAminoarabinoseModification-DependentResistancetotheAntimicrobialPeptidePolymyxinBinSalmonellaenterica[J].JournalofBacteriology,2007,189(13):4911.[2]YimD,CurtisN,CheungM,etal.AnupdateonKawasakidiseaseII:Clinicalfeatures,diagnosis,treatmentandoutcomes[J].JournalofPaediatrics&ChildHealth,2013,49(8):614–623.[3]YimD,CurtisN,CheungM,etal.UpdateonKawasakidisease:epidemiology,aetiologyandpathogenesis.[J].JournalofPaediatrics&ChildHealth,2013,49(9):704.[4]NewburgerJW,TakahashiM,GerberMA,etal.Diagnosis,treatment,andlong-termmanagementofKawasakidisease:astatementforhealthprofessionalsfromtheCommitteeonRheumaticFever,EndocarditisandKawasakiDisease,CouncilonCardiovascularDiseaseintheYoung,AmericanHeartAssociation.[J].Pediatrics,2004,114(6):1708-1733.[5]SundelRP,PettyRE.KAWASAKIDISEASE[J].TextbookofPediatricRheumatology,2005:521-538.[6]DurongpisitkulK,GururajVJ,ParkJM,etal.ThePreventionofCoronaryArteryAneurysminKawasakiDisease:AMeta-analysisontheEfficacyofAspirinandImmunoglobulinTreatment[J].Pediatrics,1995,96(6):1057-61.[7]NagashimaM,MatsushimaM,MatsuokaH,etal.High-dosegammaglobulintherapyforKawasakidisease[J].JournalofPediatrics,1987,110(5):710-712.[8]Sánchez-ManubensJ,BouR,AntonJ.DiagnosisandclassificationofKawasakidisease[J].JournalofAutoimmunity,2014,48–49:113-117.[9]LingXB,LauK,KanegayeJT,etal.AdiagnosticalgorithmcombiningclinicalandmoleculardatadistinguishesKawasakidiseasefromotherfebrileillnesses[J].47 重庆医科大学硕士研究生学位论文BmcMedicine,2011,9(1):130.[10]HuangMY,Gupta-MalhotraM,HuangJJ,etal.Acute-PhaseReactantsandaSupplementalDiagnosticAidforKawasakiDisease[J].PediatricCardiology,2010,31(8):1209-1213.[11]KentsisA,ShulmanA,AhmedS,etal.UrineproteomicsfordiscoveryofimproveddiagnosticmarkersofKawasakidisease[J].EmboMolecularMedicine,2013,5(2):210-220.[12]DahdahN,SilesA,FournierA,etal.NatriureticPeptideasanAdjunctiveDiagnosticTestintheAcutePhaseofKawasakiDisease[J].PediatricCardiology,2009,30(6):810-817.[13]TakatsukiS,ItoY,TakeuchiD,etal.IVIGreducedvascularoxidativestressinpatientswithKawasakidisease[J].CirculationJournal,2009,73(7):1315-1318.[14]谷小华,方丽辉,张渝侯,等.血小板指数变化在小儿川崎病诊断和治疗中的价值[J].骨科,2004,28(3):143-144.[15]李淑华,于明华,张丽,等.抗中性粒细胞抗体对川崎病诊断价值研究[J].中国实用儿科杂志,2008,23(2):122-124.[16]PopperSJ,WatsonVE,ShimizuC,etal.GenetranscriptabundanceprofilesdistinguishKawasakidiseasefromadenovirusinfection.[J].JournalofInfectiousDiseases,2009,200(4):657-666.[17]朱迪,罗钢.不完全川崎病患儿的实验室检查分析[J].中国医科大学学报,2017,46(3):219-222.[18]LeeIN,LiaoSC,EmbrechtsM.Dataminingtechniquesappliedtomedicalinformation[J].MedicalInformatics&theInternetinMedicine,2000,25(2):81.[19]CiosKJ,MooreGW.Uniquenessofmedicaldatamining[J].Artifi.intell.med,2002,26(1):1-24.[20]LingXB,KanegayeJT,JiJ,etal.Point-of-caredifferentiationofKawasakidiseasefromotherfebrileillnesses.[J].JournalofPediatrics,2013,162(1):183-188.[21]MATLAB中文论坛.MATLAB神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010.15-20.48 重庆医科大学硕士研究生学位论文[22]JiaweiHan,MichelineKamber,JianPei,等.数据挖掘概念与技术[M].北京:机械工业出版社,2012.26-30.[23]KamińskiB,JakubczykM,SzufelP.Aframeworkforsensitivityanalysisofdecisiontrees[J].CentralEuropeanJournalofOperationsResearch,2018,26(1):1-25.[24]QuinlanJR.C4.5:programsformachinelearning[M].SanFrancisco:MorganKaufmannPublishersInc.1992.[25]StehmanSV.Selectingandinterpretingmeasuresofthematicclassificationaccuracy.[J].RemoteSensingofEnvironment,1997,62(1):77-89.[26]PyleD.DataPreparationforDataMining[M].NewYork:AcademicPress,1999.375-381.[27]LenzeriniM.Dataintegration:atheoreticalperspective[A].In:PopaL,AbiteboulS,KolaitisPG,eds.SymposiumonPrinciplesofDatabaseSystems[C].Madison:AssociationforComputingMachinery,2002.233-246.[28]ShulmanST.IstherearoleforcorticosteroidsinKawasakidisease?[J].JournalofPediatrics,2003,142(6):601-603.[29]BaroneSR,PontrelliLR,KrilovLR.ThedifferentiationofclassicKawasakidisease,atypicalKawasakidisease,andacuteadenoviralinfection:Useofclinicalfeaturesandarapiddirectfluorescentantigentest[J].ArchivesofPediatrics&AdolescentMedicine,2000,154(5):453-456.[30]CorashL.Measurementofplateletactivationbyfluorescence-activatedflowcytometry[J].BloodCells,1990,16(1):97.[31]王艳,张美和,周敏,等.低磷血症与川崎病.中华实用儿科临床杂志,2000,15(1):20-21.[32]童敏,王莹,桂永浩,等.川崎病急性期中性粒细胞功能及S100蛋白表达的变化[J].中国循证儿科杂志,2008,3(3):203-207.[33]DombiGW,NandiP,SaxeJM,etal.Predictionofribfractureinjuryoutcomebyanartificialneuralnetwork[J].JournalofTrauma,1995,39(5):915.[34]SandriM,ZuccolottoP.ABiasCorrectionAlgorithmfortheGiniVariable49 重庆医科大学硕士研究生学位论文ImportanceMeasureinClassificationTrees[J].JournalofComputational&GraphicalStatistics,2008,17(3):611-628.50 重庆医科大学硕士研究生学位论文文献综述数据挖掘技术在医学方面的应用与进展摘要:本文介绍了数据挖掘算法在医学各领域中的研究与应用,总结了常见算法决策树、神经网络和支持向量机对医学数据的挖掘过程及研究成果,并对数据挖掘在医学中的应用作了简要阐述。关键词:数据挖掘,决策树,神经网络,支持向量机1引言随着电子信息化的飞速发展和数字医疗设备的广泛应用,医院不同来源的数据每天在迅猛增长,包括患者的体征参数,实验室检查,影像数据及文字信息等,因此在医学数据中加入数据挖掘的相关理论和方法,从海量的医学数据中提取有价值的信息用于疾病诊疗与决策是非常必要的[1]。数据挖掘的任务是发现隐含在数据中的模式,关系和趋势,是数据库中知识发现的核心步骤[2]。医院信息系统中的数据资料蕴含着巨大的科研价值、临床价值和经济价值,使这部分数据得到充分的利用,是目前需要迫切解决的问题。数据挖掘可以实现目标的分类,即通过学习已有数据建立一个分类模型,该分类模型可以实现对新的样本数据的预测。本文主要总结了常用数据挖掘算法,决策树,神经网络和支持向量机在疾病诊断和生物信息学中的应用及进展。2决策树徐蕾等人使用决策树C4.5算法构建灵敏度和特异度较高的慢性胃炎中医辨证模型,模型的正确率达到80%以上,可用于慢性胃炎的鉴别诊断[3]。AntoniaVlahou等人使用血清蛋白质量谱数据资料,通过决策树CART算法,实现对卵巢癌和良性病变以及健康人群的鉴别诊断,诊断准确率达81.5%(训练集)和80%(测试集)[4]。KemalPolat等人提出了一种基于决策树和快速傅里叶变换的混合系统通过脑电信号检测癫痫病,使用快速傅里叶变换进行特征提取,使用决策树算法进行分类决策,对于正常人脑电信号和癫痫患者脑电信号,使用五折交叉验证和十折交51 重庆医科大学硕士研究生学位论文叉验证的分类正确率为98.68%和98.72%,得出了该系统为一种新的癫痫病智能辅助诊断系统的结论[5]。PierreGeurts等人提出使用决策树确定蛋白质组生物标记物,并在表面增强激光解吸/电离飞行时间质谱数据集上得到验证,可用于诊断类风湿性关节炎和炎症性肠病,并表明该方法可处理同类问题[6]。ElsonJ等人验证了决策树算法可以帮助患有输卵管异位妊娠的女性选择早期的治疗手段,该研究选择了179名超声诊断为异位妊娠的女性,通过采集每位患者的人口统计学,临床和超声数据构建决策树模型,该模型可以预测异位妊娠患者需要手术治疗的概率[7]。YunYu等人采集了47名胰腺癌患者和53名未患癌症人群的血清样本,使用表面增强激光解吸/电离蛋白质芯片分析他们的血清蛋白谱,选择其中6个生物标志物构建决策树模型实现对胰腺癌和健康人群的分类诊断,模型的分类结果为敏感度88.9%,特异度74.1%,双盲实验分类结果为敏感度80%,特异度84.6%,实验表明,表面增强激光解吸/电离蛋白质芯片结合人工智能分类算法对于胰腺癌的诊断具有很大的潜力[8]。JMair等人使用临床症状,心电图,肌酸激酶,肌酸激酶同工酶活性和浓度,肌红蛋白和心肌肌钙蛋白等特征构建决策树模型来诊断急性心肌梗塞,模型敏感度为0.91,特异度为0.90,证明了该分类器可以实现对心机梗塞快速有效的诊断[9]。瞿海斌等人使用患者基本信息和临床症状构建决策树模型,从290份病例中得出血瘀证的诊断规则,以194例血瘀证患者作为测试集,得出上述模型的PPV,NPV和分类正确率分别达到97.67%,99.07%和98.45%,证明了决策树可以从中医病例中归纳出血瘀证的诊断规则[10]。决策树算法在结果的表达,缺失值处理和模型评价方面具有其独特性[11]。具有结果易理解,精度较高等优点,但该算法在构建模型时,容易受到取值较多的变量的影响,并且不能直接利用连续变量,必然会损失一定的信息,具有一定的弊端。3神经网络目前神经网络在各领域都得到了广泛的应用,尤其是深度神经网络在语音识别,图像处理和模式识别方面表现出色。AndreEsteva等人通过训练深度卷积神经网络框架实现对皮肤癌图像的自动分类,用21位临床医生对皮肤图像的诊断,来验证上述框架的分类性能,实验表明,深度卷积神经网络取得了与临床医生相差无几的分类结果,得出了人工智能对皮肤癌的诊断能力可以与临床医生相媲美[12]。52 重庆医科大学硕士研究生学位论文Maria-LuizaAntonie等人使用BP神经网络实现对乳腺肿瘤的检测分类,结果显示算法分类效果很好,准确率达到70%[13]。DanCCiresan等人使用深度人工神经网络作为像素分类器,实现对电子显微镜下神经元结构的自动分割,使用每个正方形窗口中的原始像素值来预测该像素为膜结构或者非膜结构,输入神经元为原始像素值,经卷积和池化对二维图像进行保存和抽象,输出层为神经元结构的判断概率,实验结果表明,该分类器效果显著[14]。该团队还使用深度卷积神经网络在乳腺图像中发现有丝分裂,对图像中的每个像素点进行分类,该方法获得了2012年国际模式识别会议有丝分裂检测比赛的冠军,检测结果优于同类竞争者[15]。AlexandredeBrebisson等人构建了深度人工神经网络模型,可以将脑部的磁共振图像自动分割成解剖区域,网络的输入为图像的像素点,网络的输出为该像素点对应的脑解剖部位,使用2012MICCAI竞赛提供的35幅人工分割的图像对上述模型进行测试,测试结果为平均Dice系数是0.725,错误率是0.163,并表明该研究为首次使用深度神经网络进行全脑的自动分割[16]。人眼血管网络的状况是眼科的重要诊断因素,由于血管的大小、相对较低的对比度,以及可能存在的病态,如小动脉瘤和出血使得眼底图像的分割是一项具有挑战性的的任务,PawełLiskowski等人提出使用深度神经网络来进行眼底图像的分割,使用DRIVE,STARE和CHASE数据库对上述方法进行验证,结果表明深度神经网络的ROC曲线下面积超过0.99,分类正确率超过0.97,并且该方法不受中央血管反射现象的影响,对微小血管的探测十分敏感,敏感度超过0.87,对于病理性病历图像也能进行很好的分割[17]。陈金宏等人基于年龄,吸烟,体质指数,收缩压,血总胆固醇浓度,血甘油三酯浓度,血高密度脂蛋白浓度,血肌酐浓度,血载脂蛋白A1浓度和糖尿病等指标使用BP神经网络算法构建老年男性保健人群缺血性心脑血管病的预测模型,并与传统的COX比例风险回归模型进行比较,证明BP神经网络模型的预测能力更强[18]。张文茜等人针对老年痴呆症疾病进展,使用BP神经网络和径向基函数(RBF)神经网络进行了对比研究,以年龄、性别、有无心脏病、有无中风史、有无高胆固醇、受教育程度、有无家族史、有无高血压8个指标构建预测模型,实验表明RBF神经网络的预测效果更好[19]。陈若珠等人使用BP神经网络算法构建骨质疏松诊断分类模型,以骨质疏松诊断指标为输入,以兰州军区总医院的骨科病历为样本进行训练和测试,通过实验证明该模型用于诊断骨质疏松病情是可53 重庆医科大学硕士研究生学位论文行的[20]。由于蛋白质亚细胞的定位信息为蛋白质的序列、结构和功能提供了线索,所以蛋白质亚细胞位置的评估对于蛋白质组学的研究至关重要。使用荧光显微镜获得的亚细胞模式作为研究对象,以Zernike矩,Haralick纹理特征等一系列特征来构建神经网络分类器,分类器能够识别出先前未见过的细胞的正确率为83%,该分类器识别以前未见过的类似细胞的准确性是98%[21]。神经网络可以对大量复杂的数据进行分析,尤其是深度神经网络,在处理图像,语音等复杂信号方面,具有其他算法不可比拟的优势,但其对于结果的可视化和解释性较差,深度神经网络需要大量的数据作为支持。4支持向量机支持向量机因其结构简单且泛化能力强而被广泛应用。DNA微阵列实验产生了数千个基因表达的测量结果,从组织和细胞样本中收集的关于基因表达差异的信息在诊断疾病方面非常重要,TerrenceS.Furey等人使用支持向量机算法来分析DNA微阵列实验数据,实现对组织样本的分类和对错误标签数据以及可疑组织结果数据的探测,以卵巢肿瘤组织,正常卵巢组织和其他正常组织为样本,每个组织包含了97802cDNAs的基因表达结果,实验结果表明,部分基因的表达在不同的组织类型之间有着高度的差异性,通过以往发表文献中的数据集来验证SVM方法的鲁棒性[22]。JanainaMourão-Miranda等人应用了SVM对MRI图像下大脑状态进行多变量分类,使用SVM和Fisher线性判别进行对比分析,并证明了SVM的分类性能优于Fisher线性判别[23]。StanislawOsowski等人提出使用SVM算法进行心跳识别,使用高阶统计量和提取心电图中QRS波的Hermite特征进行预处理,以心电图波形为基础,对13种心律不齐进行了实验,证实了该方法的可靠性和优越性[24]。YanzhiGuo等人使用自动协方差的特征表示和支持向量机相结合的方法预测蛋白质之间的相互作用,以酿酒酵母为研究对象,用11474个酵母菌蛋白质相互作用的数据对该模型进行验证,预测准确率为88.09%,这种方法的预测性能优于现有的基于序列的其他方法,得出该方法可以成为未来蛋白质组学研究的有用辅助工具[25]。MohammadrezaAsghariOskoei等人提出使用支持向量机的方法,利用肌电信号对上肢运动进行分类,并对该方法进行了验证,通过数据分割技术,特征集,模型选择方法和后处理方法建立基于支持向量机的最优机电控制模型,54 重庆医科大学硕士研究生学位论文并与线性判别分析和神经网络方法进行比较来证明该方法的准确性,鲁棒性以及较低的计算机运行负载[26]。BenoîtMagnin等人提出使用全脑解剖磁共振图像,通过支持向量机方法对阿兹海默症和正常老年个体进行鉴别诊断,以16名阿兹海默症患者和22名正常老年人为研究样本,平均特异度为96.6%,平均敏感度为91.5%,实验证明该研究方法有能力将阿兹海默症患者与正常老年个体区分开来,有利于阿兹海默症的早期诊断[27]。李颖新等人依据基因表达谱建立了肿瘤分类模型并研究了肿瘤分类特征的基因选取问题,以急性白血病亚型为研究对象,首先提出一种新的类别可分性判据来滤除分类无关基因,然后采用支持向量机对特征基因的分类性能进行验证,通过实验证明了该方法的可行性[28]。施建宇等人提出了一种三层支持向量机融合网络的蛋白质叠子识别方法,采用多对多的多类分类策略,构建多个差异融合方案,并对这些方案进行特征选择得到最终决策,该方法对独立测试样本的分类精度达到61.04%,实验表明,这是一种有效的折叠子识别方法[29]。MBjörnsdotter等人使用线性支持向量机算法对急性憩室炎和其他文献报道的腹痛以及非特异性腹痛进行鉴别,以3337名患者为研究对象,得出SVM的分类效果与医生的诊断结果相差无几,并发现年龄,C反应蛋白和左下侧疼痛为最重要的诊断指标[30]。支持向量机较适合小样本数据,对高维问题的处理效果较好,泛化能力较强,但该算法对于大规模训练样本实施难度较大,解决多分类问题存在困难。5总结与展望本文总结了决策树,神经网络和支持向量机算法在医学领域方面的应用及研究成果。目前,生物医学工程飞速发展,各种医疗设备产生的数据正在迅速增长,如何从这些数据中挖掘出有价值的信息服务于临床医学是目前的热门话题。在疾病诊断方面,通过数据挖掘算法对电子病历数据库中的大量历史数据进行处理,可以挖掘出有价值的诊断信息,根据患者的年龄、性别、辅助实验室检查和临床症状等对疾病做出自动诊断。不少研究通过数据挖掘方法对临床影像数据实现了准确高效的自动分类以及自动病灶分割,可以减少医生主观判断的失误。遗传学研究表明,部分疾病的发生是有基因来决定的。由于人类具有庞大的DNA数据,因此在生物信息学方面,使用数据挖掘工具进行基因数据分析,比传统的统计方55 重庆医科大学硕士研究生学位论文法更为有效,目前已经有很多的研究使用数据挖掘分析基因组测序数据来获得特异性序列组,使人类可以在基因组水平上研究生命现象及本质。目前电子病历,病理参数,医学影像等数据增长迅速,对于数据挖掘过程中的关键技术和理论研究需要进一步的深入探索,相信数据挖掘在疾病的诊断和治疗,临床和科研中必然会发挥越来越大的作用。56 重庆医科大学硕士研究生学位论文参考文献[1]陈功,范晓薇,蒋萌,等.数据挖掘与医学数据资源开发利用[J].北京生物医学工程,2010,29(3):323-328.[2]王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246-252.[3]徐蕾,贺佳,孟虹,等.基于信息熵的决策树在慢性胃炎中医辨证中的应用[J].第二军医大学学报,2004,21(9):1009-1012.[4]VlahouA,SchorgeJO,GregoryBW,etal.DiagnosisofOvarianCancerUsingDecisionTreeClassificationofMassSpectralData[J].JournalofBiomedicine&Biotechnology,2014,2003(5):308-314.[5]PolatK,GüneşS.ClassificationofepileptiformEEGusingahybridsystembasedondecisiontreeclassifierandfastFouriertransform[J].AppliedMathematics&Computation,2007,187(2):1017-1026.[6]GeurtsP,FilletM,DeSD,etal.Proteomicmassspectraclassificationusingdecisiontreebasedensemblemethods.[J].Bioinformatics,2005,21(14):3138-45.[7]ElsonJ,TailorA,BanerjeeS,etal.Expectantmanagementoftubalectopicpregnancy:predictionofsuccessfuloutcomeusingdecisiontreeanalysis.[J].UltrasoundObstetGynecol,2004,23(6):552-556.[8]YuY,ChenS,WangLS,etal.Predictionofpancreaticcancerbyserumbiomarkersusingsurface-enhancedlaserdesorption/ionization-baseddecisiontreeclassification.[J].Oncology,2005,68(1):79.[9]MairJ,SmidtJ,LechleitnerP,etal.Adecisiontreefortheearlydiagnosisofacutemyocardialinfarctioninnontraumaticchestpainpatientsathospitaladmission.[J].Chest,1995,108(6):1502.[10]瞿海斌,毛利锋,王阶.基于决策树的血瘀证诊断规则自动归纳方法[J].中国生物医学工程学报,2005,24(6):709-711.[11]FerriC,FlachPA,Hern,etal.LearningDecisionTreesUsingtheAreaUndertheROCCurve[A].In:ClaudeSammut,AchimHoffmannMorganKaufmann,eds.57 重庆医科大学硕士研究生学位论文MachineLearning,ProceedingsoftheNineteenthInternationalConference[C].Sydney:DBLP,2002.139-146.[12]EstevaA,KuprelB,NovoaRA,etal.Dermatologist-levelclassificationofskincancerwithdeepneuralnetworks[J].Nature,2017,542(7639):115-118.[13]AntonieML,ZaïaneOR,ComanA.Applicationofdataminingtechniquesformedicalimageclassification[A].In:OsmarR.Zaïane,SimeonJ.Simoff,eds.KnowledgeDiscoveryandDataMining[C].SanFrancisco:Springer-Verlag,2001.94-101.[14]DanCC,GiustiA,GambardellaLM,etal.DeepNeuralNetworksSegmentNeuronalMembranesinElectronMicroscopyImages[J].AdvancesinNeuralInformationProcessingSystems,2012,25:2852--2860.[15]DanC.Cireşan,GiustiA,LucaM.Gambardella,etal.MitosisDetectioninBreastCancerHistologyImageswithDeepNeuralNetworks[J].MedImageComputComputAssistInterv,2013,16(Pt2):411-418.[16]BrebissonAD,MontanaG.DeepNeuralNetworksforAnatomicalBrainSegmentation[A].In:BrebissonAD,MontanaG,eds.IEEEConferenceonComputerVisionandPatternRecognitionWorkshops[C].Boston:IEEE,2015.35:20-28.[17]LiskowskiP,KrawiecK.SegmentingRetinalBloodVesselswithDeepNeuralNetworks.[J].IEEETransactionsonMedicalImaging,2016,35(11):2369-2380.[18]陈金宏,吴海云,何耀,等.基于BP神经网络的老年男性保健人群缺血性心脑血管病预测模型研究[J].第三军医大学学报,2011,33(8):797-799.[19]张文茜,苏海霞,尚磊,等.基于BP神经网络和RBF神经网络预测老年痴呆症疾病进展的对比研究[J].现代生物医学进展,2017,17(4):738-741.[20]陈若珠,杨紫娟,韦哲.基于BP神经网络的骨质疏松疾病的诊断分类研究[J].医疗卫生装备,2011,32(8):9-11.[21]BolandMV,MurphyRF.AneuralnetworkclassifiercapableofrecognizingthepatternsofallmajorsubcellularstructuresinfluorescencemicroscopeimagesofHeLacells.[J].Bioinformatics,2001,17(12):1213-1223.58 重庆医科大学硕士研究生学位论文[22]FureyTS,CristianiniN,DuffyN,etal.Supportvectormachineclassificationandvalidationofcancertissuesamplesusingmicroarrayexpressiondata[J].Bioinformatics,2000,16(10):906-914.[23]MourãomirandaJ,BokdeAL,BornC,etal.Classifyingbrainstatesanddeterminingthediscriminatingactivationpatterns:SupportVectorMachineonfunctionalMRIdata.[J].Neuroimage,2005,28(4):980-995.[24]OsowskiS,HoaiLT,MarkiewiczT.Supportvectormachine-basedexpertsystemforreliableheartbeatrecognition.[J].IEEEtransactionsonbio-medicalengineering,2004,51(4):582-9.[25]GuoY,YuL,WenZ,etal.Usingsupportvectormachinecombinedwithautocovariancetopredictprotein–proteininteractionsfromproteinsequences[J].NucleicAcidsResearch,2008,36(9):3025-30.[26]OskoeiMA,HuH.Supportvectormachine-basedclassificationschemeformyoelectriccontrolappliedtoupperlimb[J].IEEETransactionsonBiomedicalEngineering,2008,55(8):1956-1965.[27]MagninB,MesrobL,KinkingnéhunS,etal.Supportvectormachine-basedclassificationofAlzheimer’sdiseasefromwhole-brainanatomicalMRI[J].Neuroradiology,2009,51(2):73-83.[28]李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801.[29]施建宇,潘泉,张绍武,等.基于支持向量机融合网络的蛋白质折叠子识别研究[J].生物化学与生物物理进展,2006,33(2):155-162.[30]BjörnsdotterM,NalinK,HanssonLE,etal.SupportVectorMachineDiagnosisofAcuteAbdominalPain[A].In:FredA,FilipeJ,GamboaHeds.CommunicationsinComputer&InformationScience[C].Portugal:Springer,2009.347-355.59 重庆医科大学硕士研究生学位论文致谢日月既往,不可复追,当我写到这里的时候,我知道,我即将和我的研究生生涯说再见了,三年匆匆而过,但却回味无穷。值此离别之际,对这三年来给予我帮助和温暖的老师和朋友表达最真挚的感谢。感谢我的导师贺向前副教授,谢谢他一直以来对我的谆谆教诲和循循善诱。研究生期间,是贺老师对我时常的督促和教导,才让我的课题完成的如此顺利,让我积累到这么多的专业知识,贺老师严谨踏实的治学态度和严肃认真的专业精神是我学习的榜样。这三年来,贺老师虽然工作繁忙,但在学业上却给我最耐心细致的指导,在生活上也给了我很多的关心和温暖,尤其在我面临人生重要抉择的时候,引导我走向正确的方向,我的每一次进步,都倾注了您的心血,感谢您的悉心栽培,师恩难忘。感谢在我课题完成过程中给予我帮助和专业指导的帅哥于跃老师,他独到的见解,创新的科研思维和严谨的学术态度让我受益匪浅。感谢平易随和的马云峰老师,在教学实践过程中对我的关心和照顾,在掌握了一门编程语言的同时,度过了虽然奔波,但却开心的一段时光。感谢待我如朋友一样的杨美洁老师在数据库方面对我的帮助,为我之后的课题打下了理论基础。感谢韩宝如老师,贾媛媛老师,以及医学信息学院的其他老师,在生活学习上给我的指导和建议。感谢七年同窗好友庆丽,无论开心或是难过都在我的身边,感谢李敏童鞋和室友丁露让我枯燥的研究生生活变得多姿多彩,感谢毛东岳在我学业遇到困难时的热心帮助,感谢文艺青年肖珊师妹的鼓励陪伴,也祝愿你有个美好前程。感谢我的李玲玉、张胜师姐,李哲师弟和刘蕊师妹,作为这个大家庭中的一员,能够认识你们,非常的幸运,感谢闺蜜艳楠,希望我们友谊的小船继续扬帆起航。最应该感谢的是我的父母,你们是我最安心的港湾,在生活方面,一直为我提供最好的物质支持,感谢你们的辛勤付出。还要感谢自己,谢谢你凝视深渊,而未被深渊吞噬。谢谢你看到了夏夜的星空。人生数十载,知易行难,乏善可陈。愿你,总能嬉笑怒骂自得其乐,归来时,仍初心不变,追逐自由。最后衷心的感谢评阅本论文的老师和专家,辛苦了!60 重庆医科大学硕士研究生学位论文攻读学位期间发表的学术论文发表论文:[1]樊楚,贺向前,于跃,田杰,张胜,李哲.基于数据挖掘技术建立的BP神经网络模型鉴别儿童川崎病与发热性疾病的研究[J].中国循证儿科杂志,2017,12(01):22-26.[2]李玲玉,薛锦霞,贺向前,张胜,樊楚.基于机器视觉下的皮肤老化分级研究[J].生物医学工程学杂志,2017(3):449-455.发明专利:[1]贺向前,张胜,田杰,樊楚.川崎病并发冠状动脉病变危险因素管理系统及挖掘方法.专利号:201710154709.0.61

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭