基于电子病历的疾病关联分析和预测

基于电子病历的疾病关联分析和预测

ID:34151486

大小:1.78 MB

页数:85页

时间:2019-03-03

上传者:U-56225
基于电子病历的疾病关联分析和预测_第1页
基于电子病历的疾病关联分析和预测_第2页
基于电子病历的疾病关联分析和预测_第3页
基于电子病历的疾病关联分析和预测_第4页
基于电子病历的疾病关联分析和预测_第5页
资源描述:

《基于电子病历的疾病关联分析和预测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

申请上海交通大学硕士学位论文基于电子病历的疾病关联分析和预测学校:上海交通大学院系:电子信息与电气工程学院班级:B1203492学号:1120349070姓名:赵毅男专业:信息与通信工程导师:孙军上海交通大学电子信息与电气工程学院2014年12月万方数据 ADissertationSubmittedtoShanghaiJiaoTongUniversityfortheDegreeofMasterDISEASECORRELATIONANALYSISANDPREDICTIONBASEDONELECTRICALHEALTHRECORDSAuthor:ZhaoYinanSpecialty:InformationandCommunicationEngineeringAdvisor:SunJunSchoolofElectronicsandElectricEngineeringShanghaiJiaoTongUniversityShanghai,P.R.ChinaDecember,2014万方数据 上海交通大学硕士学位论文摘要基于电子病历的疾病关联分析和预测摘要随着医疗信息化的普及,大型医院以及卫生机构产生了大量的电子医疗记录数据。在这些海量的数据背后蕴含着大量重要的信息,这些信息对于疾病的深层认识、整体健康水平的提高,以及医疗信息领域的研究都有着积极的意义。本文从病人相似性度量、疾病关联分析和疾病趋势预测三个方面开展研究。针对病人相似性度量,文中提出了一种半监督学习算法。我们称该算法为Pairwise算法。Pairwise算法选择真实医疗记录作为训练数据,学习得到病人相似性的度量准则。考虑到现有的监督学习算法难以精确地构建标记方式,我们采用半监督学习,在训练数据中选择性加入少量精确的标记数据。我们用比较两对病人之间相似度大小的方式标记这些数据,并且称这些标记的数据为成对(Pairwise)的监督信息。本文通过对比实验证明了Pairwise算法在判定病人相似性的准确性方面以及合并病人群体的准确性提高幅度方面均优于现有的LocalSupervisedMetricLearning(LSML)算法。针对疾病关联分析,文中应用coupledLatentDirichletAllocation模型对电子医疗记录中的疾病进行聚类。本文中我们将该模型简记为cLDA模型。cLDA模型是耦合的LDA模型,不仅关注患病的种类,同样考虑患病时间。本文从三方面对实验结果进行说明。1).文中说明了疾病种类的聚类结果具有医学可解释性。2).时间模式和季节分布具有一致性。通过计算不同时间模式下疾病发病率的熵,本文有效证明了cLDA模型应用在疾病聚类方面可以得到准确的季节性发病率特征。3).通过和传统LDA模型实验结果的对比,本文证明了cLDA的准确性高于LDA。针对疾病趋势预测,在多维Hawkes模型的基础上,我们提出了I万方数据 上海交通大学硕士学位论文摘要一种改进的多维Hawkes模型。本文中我们称该模型为KLIPI模型。KLIPI模型是基于核函数学习的多维Hawkes模型,并且加入了反映病人体质的体质因子。根据KLIPI模型的实验结果,我们可以得到疾病的自然发病率,也可以获得病史中所有疾病对于将来可能患病的触发机制。本文通过实验结果证明了引入个人体质因子和高斯核函数学习均可以提高模型的预测准确性。同时,通过对比Markov模型的预测结果,本文证明了当时间链较长时,KLIPI模型的预测准确性更高。关键词:电子医疗记录,准则学习,病人相似性度量,疾病关联分析,疾病趋势预测II万方数据 上海交通大学硕士学位论文ABSTRACTDISEASECORRELATIONANALYSISANDPREDICTIONBASEDONELECTRICALHEALTHRECORDSABSTRACTWithwiderspreadofmedicalinformation,largeamountofelectricalhealthrecords(EHR)emergeineveryhospitalandsanitationorganization.Muchinformationremainshiddenbehindthesemedicalrecordsdatawhichmaycontributealottotheoverallunderstandingofdiseasesofhumans,qualityofhealthandstudyonmedicalinformationfieldaswell.Thearticleaimstodosomeresearchonpatientsimilarity,diseasecorrelationanalysisanddiseaseprediction.Formeasuringofthepatientsimilarity,wepurposeasemi-supervisedPairwisealgorithm.ForPairwisealgorithm,wechooseobjectiveexperimentaldataasthefeaturevectorsofdifferentpatients.Pairwisealgorithmimprovesthecurrentworkinlabellingthedata.Consideringtheinaccuracyoflabelingallthedatainsupervisedlearning,wechoosesomelabeleddataselectively,andthelabeleddataiscalledpairwisesupervisiondata.Throughexperiments,PairwisealgorithmperformsbetterthancurrentLocalSupervisedMetricLearning(LSML)inmeasuringthesimilarityofpatientsandhasabetterperformanceinpatientcohortintegration.Fordiseasecorrelationanalysis,coupledLatentDirichletAllocationmodelisappliedindiseaseclustering.WewillusecLDAastheabbreviation.cLDAmodelnotonlyfocusesonthedisease,butalsotheoccurrencetimeofeverydisease.Weexplaintheresultsinthreeaspects.First,throughexperimentresults,somediseasepatternsindicatethetendencyofdiseasesandsomeaccordwiththeanatomicalpriorknowledge.Second,thetimepatternaccordswiththeseasons,whichmeanssomediseasesdohaveseasonalincidenceproperty.Bycalculatingtheentropyoftheincidenceofeverydiseaseindifferenttimepatterns,cLDAhasanIII万方数据 上海交通大学硕士学位论文ABSTRACTaccurateresultonrevealingseasonalpropertyofsomediseases.Third,cLDAperformsbetterthanLDAinprediction-perplexityaswell.Fordiseaseprediction,wepurposeanimprovedmodelbasedonmulti-dimensionalHawkesmodeltodescribethetrajectoryofeverypatient.WecallthismodelKLIPImulti-dimensionalHawkesmodel.KLIPImodelincorporatesGaussiandensitykernellearningandindividualphysiqueindextodenotedifferentresistancetodiseasesofdifferentpatients.Throughexperiments,kernellearningandIPIbothincreasethepredictionaccuracyofthemodel.Meanwhile,KLIPIMulti-DimensionalHawkesModelperformsbetterthanMarkovmodelinpredictionaccuracywhenthetimechainislong.KEYWORDS:electricalhealthrecords(EHR),metriclearning,patientsimilarity,diseasecorrelationanalysis,diseasepredictionIV万方数据 上海交通大学硕士学位论文图录图录[1]图1-1EuroRec中的电子医疗记录....................................................................1[19]图2-1LDA文档生成过程................................................................................9图3-1成对监督信息作用的说明.......................................................................13图3-2算法迭代过程中对偶算子的变化率........................................................20图3-3算法迭代过程中目标函数值....................................................................20图3-4松弛变量对biased实验准确性的影响....................................................21图3-5松弛变量对unbiased实验准确性的影响................................................22图3-6初始损失项为随机数值的算法准确性....................................................23图3-7Pairwise和LSML算法的precision@position对比...............................25图3-8Pairwise算法与典型非监督学习算法在准确性上的对比.....................26图3-9群体合并准则的准确性对比....................................................................27图4-1图形化cLDA生成过程...........................................................................31图4-2实验中125种研究疾病的发病数目统计...............................................34图4-3季节性发病数目统计................................................................................34图4-4患病时间模式............................................................................................38图4-5cLDA和LDAperplexity对比.................................................................41图5-1KLIPI模型图示.........................................................................................46图5-2病人就诊次数统计....................................................................................49图5-3KLIPI模型收敛性的说明..........................................................................50图5-4体质因子𝑏𝑐和就医次数的关联................................................................52图5-5参数𝜇𝑢和自然发病率的关联...................................................................53图5-6高斯核函数密度估计................................................................................54图5-7体质因子𝑏𝑐对预测准确性的提高............................................................56图5-8核函数学习对预测准确性的提高............................................................56图5-9不同比例训练数据的预测准确性对比....................................................57图5-10KLIPI和Markov预测准确性对比........................................................58图5-11预测准确性和训练数据比例的关系......................................................59V万方数据 上海交通大学硕士学位论文表录表录表2-1LDA文档生成过程.....................................................................................9表3-1Pairwise算法中的符号含义.....................................................................12表3-2Pairwise算法参数估计流程.....................................................................18表3-3实验数据统计信息....................................................................................19表3-4Pairwise算法(γ=0)与马氏距离的准确性对比.....................................22表4-1咽喉炎和中耳炎季节性发病率信息........................................................29表4-2cLDA模型符号以及符号含义.................................................................30表4-3实验数据统计信息....................................................................................33表4-4慢性呼吸道疾病类别................................................................................36表4-5急性呼吸道疾病类别................................................................................36表4-6肝病类别以及各疾病在类别中分布的概率............................................36表4-7解剖学疾病类别示例................................................................................37表4-8不同时间模式下发病率示例....................................................................39表4-9升序熵列表中前十种疾病的名称及其熵................................................39表5-1电子医疗记录样例....................................................................................43表5-2KLIPI模型的符号含义.............................................................................47表5-3疾病关联示例............................................................................................51表5-4训练数据和测试数据分配........................................................................55VI万方数据 上海交通大学硕士学位论文目录目录摘要................................................................................................................................IABSTRACT..................................................................................................................III图录...............................................................................................................................V表录.............................................................................................................................VI目录............................................................................................................................VII第一章绪论...................................................................................................................11.1课题研究背景和意义..........................................................................................11.2本文的主要工作..................................................................................................21.3本文结构安排......................................................................................................31.4本章小结..............................................................................................................4第二章研究现状和研究方法的基础理论...................................................................52.1研究现状..............................................................................................................52.1.1疾病关联分析研究现状和不足...................................................................52.1.2疾病趋势预测研究现状和不足...................................................................62.1.3辅助诊断的研究现状和不足.......................................................................72.2研究方法的基础理论..........................................................................................72.2.1LDA主题模型...............................................................................................72.2.1.1LDA模型介绍........................................................................................72.2.1.2Dirichlet分布..........................................................................................82.2.1.3LDA模型生成过程................................................................................82.2.1.4LDA模型参数估计................................................................................92.2.2Hawkes模型数学原理及模型框架............................................................102.2.2.1Hawkes模型介绍.................................................................................102.2.2.2一维Hawkes模型及参数含义...........................................................10VII万方数据 上海交通大学硕士学位论文目录2.2.2.3多维Hawkes模型及参数含义...........................................................112.3本章小结............................................................................................................11第三章基于准则学习的病人相似性度量.................................................................123.1Pairwise算法框架.............................................................................................123.1.1成对病人的监督信息.................................................................................123.1.2算法参数估计.............................................................................................143.2实验数据描述....................................................................................................183.3实验结果分析....................................................................................................193.3.1Pairwise算法收敛性说明........................................................................193.3.2松弛变量的说明.........................................................................................213.3.3损失函数的说明.........................................................................................233.3.4Pairwise算法准确性对比........................................................................243.3.5对比典型非监督学习算法.........................................................................253.3.6病人群体合并的准则.................................................................................263.4本章小结............................................................................................................28第四章疾病关联分析.................................................................................................294.1cLDA模型框架.................................................................................................294.1.1cLDA模型的引入.......................................................................................294.1.2cLDA生成过程...........................................................................................304.1.3cLDA模型参数估计...................................................................................314.2实验数据描述....................................................................................................334.3实验过程和实验假设........................................................................................354.4实验结果分析....................................................................................................354.4.1疾病模式.....................................................................................................354.4.2患病时间模式.............................................................................................374.4.3模型准确性判定.........................................................................................394.4.4医学文献结果对比.....................................................................................40VIII万方数据 上海交通大学硕士学位论文目录4.4.5cLDA准确性对比....................................................................................404.5本章小结............................................................................................................42第五章疾病趋势预测.................................................................................................435.1KLIPI多维Hawkes概述..................................................................................435.2KLIPI多维Hawkes原理及框架.....................................................................445.2.1模型描述.....................................................................................................445.2.2个体体质因子.............................................................................................445.2.3核函数学习.................................................................................................465.2.4KLIPI模型参数估计...................................................................................485.3实验数据描述....................................................................................................485.4实验结果分析....................................................................................................495.4.1模型收敛性.................................................................................................495.4.2案例研究.....................................................................................................505.4.3个人体质因子说明.....................................................................................515.4.4疾病自然发病率说明.................................................................................525.4.5核函数学习.................................................................................................535.5对比实验............................................................................................................545.5.1体质因子.....................................................................................................555.5.2核函数学习.................................................................................................565.5.3模型准确性对比.........................................................................................585.6本章小结............................................................................................................59全文总结.......................................................................................................................60本文主要工作...........................................................................................................60附录APairwise算法检验指标列表...........................................................................61附录BKLIPI多维Hawkes模型研究125种疾病名称列表...................................63参考文献.......................................................................................................................65攻读硕士学位期间发表学术论文情况.......................................................................71IX万方数据 上海交通大学硕士学位论文绪论第一章绪论1.1课题研究背景和意义近年来,随着医疗信息化的普及,大型医院以及社区医院、社区防疫站等卫生医疗机构产生了大量的电子医疗记录。这些电子医疗记录包含病人的病史、诊断报告、检验结果和一些临床信息等。在这些激增的数据背后隐藏着大量重要的信息。根据这些隐藏的信息,我们可以探究病人的分类准则、未知的疾病关联以及疾病的发展趋势等。同时,这些信息对医院管理者的正确决策,医生对病人的诊断和治疗,以及人类健康水平的提高都有着极为显著的意义。然而,道德、法[1]律以及技术上的诸多因素阻碍了相关研究的进展。例如EuroRec、epSOS等开放的医疗数据都只有传统的流行病统计信息,缺乏更深层次的研究。鉴于此,如何从海量的电子医疗记录数据中挖掘出重要信息成为了亟待解决的问题。我们认为,在该研究领域,需要着重关注疾病、发病时间以及患者本身这三方面。因此,本文将分别从病人相似性度量、疾病关联分析以及疾病趋势预测三个方面开展系统深入的研究。图1-1EuroRec中的电子医疗记录[1]Fig.1-1electricalmedicalrecords(EHR)inEuroRec首先,在病人相似性度量方面,目前的研究方法主要存在的问题是标记数据的方式不够精确。针对这个缺陷,本文中提出了一种半监督学习算法加以改进。其次,在疾病关联分析方面,传统医学领域中多数采用解剖学分类,而且大部分研究也只针对某些疾病共存的情形进行分析。针对这些不足,本文将着重研究所1万方数据 上海交通大学硕士学位论文绪论有疾病之间的关联,同时考虑发病时间这一重要因素。最后,在疾病趋势预测方面,目前的研究多数利用马尔科夫过程描述病人的患病轨迹。然而病人当前的发病状态可能与其全部病史有关,不只局限于上一个患病状态。因此本文对现有模型做出改进,从而更加准确地描述病人的患病轨迹。对于本文研究的实际意义,在现实生活中的很多应用中都有所体现。首先,在病人相似性度量方面,目前已经存在一些应用。例如,在美国的某些地区,已经实现了私人医生电子化。当用户向系统输入一些具体症状后,系统会根据以往病例给出最相似病例的初步诊治结果,将其作为参考信息,简化疾病的治疗过程。这类系统的首要目的是提供更加快速、更加可靠和低成本的治疗方案。其次,在疾病关联分析方面,举例来讲,若某患者在2011年10月患胰腺炎入院,通过疾病的关联分析,我们就可以在该患者的个人医疗档案中添加“痛风的患病可能性增加,应尽量减少饮酒”的叙述,从而达到理想的预防效果。最后,在疾病预测方面,同样有一些具体的应用。如一些疾病具有不可逆转的特性。以肝硬化失代偿期为例,上消化道出血以及肝性脑炎在将来的某个时间点是必然出现的附属并发症。因此若能有效预测每个时间节点消化道出血的可能性,就可以有效避免抢救不及时现象的发生。综上所述,本文的研究目标就是分析已有的病例数据,挖掘疾病之间的关联关系、对病人的疾病趋势做出准确预测,以及得到准确的病人相似性度量准则。综合以上三方面,我们就可以达到良好的医疗辅助诊断效果。1.2本文的主要工作本文主要从病人相似性度量,疾病关联分析以及疾病趋势预测三个方面进行研究。1).病人相似性度量方面,我们针对LSML算法的不足提出了改进的Pairwise算法。作为对比的LSML算法是一种监督的准则学习算法,同样应用在病人相似[16]性度量方面。然而,LSML算法在构建监督信息时不够精确,监督信息的选择具有很强的主观性。2).疾病关联分析方面,LDA模型是该部分研究内容的基础模型,当前并没有应用在疾病聚类方面。LDA模型是一种通用的主题模型,广泛应[19]用于文档分类等工作。我们在LDA模型的基础上考虑时间维度,得到的部分疾病类别具有季节性发病率特性。3).疾病趋势预测方面,我们在传统的多维Hawkes模型的基础上提出了改进的KLIPI多维Hawkes模型。考虑到Hawkes模型中的核2万方数据 上海交通大学硕士学位论文绪论函数为负指数函数时,无法准确刻画疾病之间相互影响程度随时间的变化,我们加入了高斯核函数学习的过程。同时,考虑到不同病人的体质差异,我们在模型中加入了体质因子。下面我们将具体叙述每部分的主要工作内容。病人相似性度量方面主要研究准则学习。文中提出了Pairwise算法。Pairwise算法选择具有客观性的医疗检验指标作为病人的特征向量,学习病人相似性的度量准则。Pairwise算法中引入一些成对的监督信息对学习过程进行监督,在不降低模型准确性的前提下,同样可以保证标记数据的精确性。本文通过对比实验证明了Pairwise算法准确性方面优于LSML监督算法。疾病关联分析方面,本文主要研究疾病聚类。文中应用cLDA模型聚类疾病,选取的两维变量分别为病人所患疾病和患病的时间。在传统的LDA模型基础上,cLDA模型不止局限于关注疾病种类,同样关注发病时间。应用cLDA模型的目标是在获得疾病类别的基础上,得到时间类别。实验结果证明了部分疾病种类具有明显的季节性发病率。通过对比实验,本文证明了cLDA模型的准确性高于LDA模型。疾病趋势预测方面,本文研究疾病的发展趋势以及过去疾病对将来可能患病的触发机制。本文提出的模型可以描述疾病的潜在发展过程,并且揭示出多种疾病之间的关联。该部分同样采用来自长宁区卫生信息中心的电子医疗记录作为训练数据,通过一系列的实验结果,证明了KLIPI多维Hawkes模型可以进行疾病趋势预测,并且预测的准确性高于马尔可夫模型。1.3本文结构安排文章的具体组织结构与章节安排如下。第一章为绪论部分,介绍了基于电子医疗记录的疾病关联分析和趋势预测的研究背景和意义,并且简要概述了本文的研究内容。第二章介绍了相关方面的研究现状以及不足。同时,本章介绍了与本文研究有关的基础算法,包括LDA模型、Hawkes模型。第三章针对病人相似性度量,介绍了Pairwise算法。根据学习得到的病人相似性准则,我们可以判定病人是否为相似病人。第四章研究了疾病聚类,应用cLDA模型,在考虑了疾病种类的同时,引入了发病时间维度探究疾病之间的关联关系以及发病时间的特性。第五章主要研究疾病趋势预测,根据提出的KLIPI多维Hawkes模型描述病3万方数据 上海交通大学硕士学位论文绪论人的患病轨迹。第六章是对全文的总结,回顾所有研究的工作。1.4本章小结本章节为绪论部分,主要介绍本课题的研究背景和意义,包括当前利用电子医疗记录的不充分性以及海量医疗记录中所包含信息的重要性。绪论部分主要从病人相似性度量、疾病关联分析、疾病趋势预测三方面介绍,并且简要叙述了本文的主要研究工作和进展,同时在该章节给出了本文的结构安排。4万方数据 上海交通大学硕士学位论文研究现状和研究方法的基础理论第二章研究现状和研究方法的基础理论2.1研究现状本节主要从疾病关联分析、疾病趋势预测和病人相似性度量三方面概述当前的研究现状以及不足。2.1.1疾病关联分析的研究现状和不足[2]目前对于疾病关联分析的研究多数为特定疾病共存的分析。例如,Holmes分析了纽约长老会医院的医疗记录,结合PubMed和Wikipedia记录的医疗信息,采用一种含有多个统计和语言处理算子的模型ADAMS,分析解释疾病之间的共存关系。他根据ADAMS证明了常见疾病之间的关联,同时发现一些稀有疾病如[3]卡波西肉瘤、弓形体病之间的关联。Roque描述了一种通用的系统化方法。该方法可以从结构化的医疗记录中提取描述性信息,构建TF-IDF模型,探寻疾病之间的关联。作为例证,他们采用丹麦一所医院的医疗记录,分析得到93种疾病的关[4]联。Hanauer分析了卫生中心327000个病人的150万条医疗记录,基于分析方法MolecularConceptMaps(MCM),计算oddsratio和p-value作为关联强度的判定准则。他发现了一些已知的疾病关联,包括糖尿病、胰岛素依赖以及视网膜病、心血管疾病的关联等。同时也发现了一些不常见的疾病关联,诸如肠易激综合症和-4-4外阴病(OR=2.9,p=5.6*10)、环状肉芽肿和骨关节炎(OR=4.3,p=1.1*10)的关联。[5]Chen,Deisboeck介绍了癌症转移网络的概念。网络的节点表示肿瘤转移的位置,连接的强度表示两个肿瘤位置的关联性。关联强度由Pearson相关系数计算得到。Pearson相关系数的计算方式为:𝑁𝑋(𝑡)𝐶𝑖𝑗(𝑡)−𝑚𝑖(𝑡)𝑚𝑗(𝑡)𝜑𝑋,𝑖𝑗(𝑡)=(2-1)�𝑚𝑖(𝑡)𝑚𝑗(𝑡)[𝑁𝑋(𝑡)−𝑚𝑖(𝑡)][𝑁𝑋(𝑡)−𝑚𝑗(𝑡)]其中𝐶𝑖𝑗(𝑡)表示时刻𝑡在位置𝑖和𝑗均患有肿瘤的病人数目,𝑁𝑋(𝑡)表示时刻𝑡患有肿瘤的病人总数,𝑚𝑖(𝑡)表示期望。𝑡𝑛∑∑𝜑𝑋,𝑖𝑗(𝑡)𝑖,𝑗∈𝑄𝑡=0𝑝𝑛𝑒𝑡=𝑡𝑛𝑡𝑛(2-2)∑∑𝜑𝑋,𝑖𝑗(𝑡)−∑∑𝜑𝑋,𝑖𝑗(𝑡)𝑖,𝑗∈𝑅𝑡=0𝑖,𝑗∈𝑆𝑡=0在已知的癌症患者记录中,根据肿瘤初始的位置和转移的时间,依据2-2计算𝑝𝑛𝑒𝑡,我们可以得到肿瘤转移到某特定位置的概率。Chen选择了2265167条医[6]疗记录,构建肿瘤转移网络,根据关联共存的强度关系对肿瘤转移做出预测。Cao5万方数据 上海交通大学硕士学位论文研究现状和研究方法的基础理论使用了proportionconfidenceinterval(PCI)的方式衡量两种疾病之间的关联强度。他们证明了根据PCI方法得到的76.8%的关联关系是准确的。对于每对关联二元组(𝑑𝑖,𝑓𝑗),计算CI的方法如下:𝑟𝛼𝑟(𝑛−𝑟)𝐶𝐼=±�𝑥1−��3(2-3)𝑛2𝑛其中𝑟表示在患病总人数𝑑𝑖中𝑓𝑗的频率,𝑛是病例总数。上述疾病关联分析方面的研究多数只分析疾病共存现象,存在明显的缺陷。针对这个缺陷,本文将研究所有疾病的关联关系,并且考虑患病时间这一因素。2.1.2疾病趋势预测研究现状和不足当前疾病趋势预测方面的研究多数采用马尔科夫过程描述病人的患病轨迹。[8]例如,Ohlsson使用隐马尔科夫模型(HMM)刻画疾病发展的轨迹。他利用基于贝叶斯网络的混合蒙特卡洛方法估计HMM模型的参数。Ohlsson假设疾病的持续时间符合指数分布𝐹𝑖(𝑡)=𝑒−𝑞𝑖𝑡,这里𝑞𝑖表示状态𝑖的转移强度。假设𝑇={𝜏𝑛},表示训练数据中的发病时间。最大化似然函数,我们得到估计值如下所示。𝑄∗=𝑎𝑟𝑔𝑚𝑎𝑥�𝑙𝑜𝑔𝑓(𝑇,𝑆|𝑄)�=𝑎𝑟𝑔𝑚𝑎𝑥[𝑙𝑜𝑔𝑓(𝜏0,𝑠0)+∑𝐿𝑛=1𝑙𝑜𝑔𝑓(𝜏𝑛,𝑠𝑛|𝑠𝑛−1,𝑄)](2-4)[10]测试集由真实的疾病发展轨迹记录构成,预测结果准确性良好。Pairwisettekari[11]和Sudha依据病人的特征症状等进行疾病趋势预测。根据输入的特征向量,包[12]括血压、年龄、性别等信息得到将来患病的可能性。Beck根据病人的患病时间序列提出了决策制定的模型。他们考虑病人的患病历史,将病史视为时间序列进行预测。但是,该方法需要时间为离散变量,因此并不能够将时间以不同的尺度[9]进行处理。Jose使用了隐马尔可夫模型进行疾病之间关系的探究,并且将时间考虑为连续变量。但是有一点不足的是,在这部分隐马尔可夫模型中,他们只考虑了一阶马尔可夫过程。因此这个模型并不能描述不连续相关的疾病之间的关联关系。这些相似的模型有一个共同的缺陷,即只能根据病人当前的特征症状进行预测,并不能预测长期时间的疾病发展趋势。针对这个缺陷,本文提出改进的模型,更加准确地描述病人的患病轨迹,对疾病趋势作出更为准确的预测。6万方数据 上海交通大学硕士学位论文研究现状和研究方法的基础理论2.1.3病人相似性度量的研究现状和不足本文研究基于准则学习的病人相似性度量,因此在这一节中主要总结了准则学习方面的相关研究。目前关于准则学习(DML)的相关研究非常多,但是应用在[13]医学领域的比较少。例如,Duda采用全局线性判别分析法对原始数据进行分类。但是,由于数据分布复杂,线性判别分析方法无法使不同类别的数据更好地分离。[14][15]Weinberger,Goldberger采用了局部的监督准则学习方法。很显然,这些局部的监督学习方式比全局的方法更加准确,但是对所有数据进行标记的方式不够精[16]确。Sun提出了一种监督的准则学习方法。医师对基于准则学习的相似强度进行评判,作为监督信息。但是对于这种方法,医师的主观意见和监督信息的选取都[17]有很强的主观性。Davis根据信息论的方法提出了一种ITML的准则学习方法,将相似对象定义为距离小于阈值𝜇的对象,并且将不相似对象定义为大于阈值𝑙的[18]对象。Guillaumin通过线性罗切斯特回归的方法学习出一种基于马氏距离的相似性度量准则。这个方法试图通过所有的成对数据找出临界值,作为判断的临界点。当对象之间的距离小于该临界值时即判定为相似对象,大于该临界值则判定为不相似对象。上述方法中多数为监督学习算法,标记数据的方式不够精确。同时,这些准则学习算法没有考虑医学应用的特点。针对这些不足,本文提出的半监督学习算法可以增加标记数据的精确性,并且会考虑医学领域建模的具体特点做出改进。2.2研究方法的基础理论本节将介绍本文中应用到的LDA模型及Hawkes模型,为后续章节的研究做好铺垫。2.2.1LDA主题模型本小节主要介绍LDA模型的意义,概述传统LDA的原理以及LDA的文档生成过程。最后,本节会介绍LDA参数估计的Gibbs采样方法。2.2.1.1LDA模型介绍LDA模型是一种主题模型,多用于自然语言处理(NaturalLanguageProcessing)中的文档分类。LDA是一种通用的生成模型,利用引入的一系列主题(Topics),生成文档。主题由不同的单词来描述。LDA的用途比较广泛,可自动发现大量文本中的规律性。比如对大量科学论文进行LDA建模,可以将生物相关的主题发掘7万方数据 上海交通大学硕士学位论文研究现状和研究方法的基础理论出来,并且给出主题词,如“动物”、“植物”、“基因”等。并且这个主题发现过程是非监督的,不需要人工干预的,很适合处理海量网络文本信息。LDA主题模型的另一个优势在于可以有效的降低特征向量的维数。对于一篇很长的文档,如果使用文档的词语作为信息处理的单元,显然信息量太大。而LDA主题模型正是一个良好的降维模型。比如可以将主题定为100个,对文档进行建模,就可以将一篇文档的信息降成100维。2.2.1.2Dirichlet分布Dirichlet分布是LDA模型中重要的概念,本节将做简要介绍。首先,我们给出二项分布的概率分布公式。二项分布又称为伯努利试验,是一系列独立的试验过程。每次试验的结果用yes/no表示,yes的概率记为𝑝。𝑃(𝑋=𝑥|𝑛,𝑝)=�𝑛�𝑝𝑥(1−𝑝)𝑛−𝑥(2-5)𝑥𝐵𝑒𝑡𝑎分布可看做二项分布的分布,可以表示为如下形式。1𝛼−1𝛽−1𝑝(𝑝|𝛼,𝛽)=𝑝(1−𝑝)(2-6)𝐵(𝛼,𝛽)Γ(𝛼+𝛽)𝛼−1𝐵(𝛼,𝛽)=≃��(2-7)Γ(𝛼)Γ(𝛽)𝛼+𝛽−2𝐵𝑒𝑡𝑎分布是二项分布的共轭先验分布。这里给出多项式分布的离散概率分布。假设每次试验有k个可能的输出结果,每个结果的概率表示为𝑝1,𝑝2,…,𝑝𝑘,试验次数为𝑁。应该说,多项分布可以看做二项分布的通用形式。Dirchlet分布作为多项分布的分布,也可以看做是多项分布的共轭先验分布。𝑁!𝑥𝑖𝑃�𝑥1,𝑥2,…,𝑥𝑘�𝑛,𝑝1,𝑝2,…,𝑝𝑘�=∏𝑘𝑥𝑝𝑖,∑𝑖𝑥𝑖=𝑁,𝑥𝑖≥0(2-8)𝑖=1𝑖!}|𝛼)=∏𝑖Γ(𝛼𝑖)∏𝑝𝛼𝑖−1𝑝(𝑃={𝑝𝑖𝑖Γ(∑𝛼𝑖𝑖(2-9)𝑖𝑖)2.2.1.3LDA模型生成过程本节将详细介绍LDA的文档生成过程,如图2-1所示。LDA生成模型根据不同的主题产生一篇文档。在生成过程中,对于每个文档𝑑,从参数为𝛼的Dirichlet分布中随机采样一个“主题-文档”的多项分布,记为𝜃𝑑。为了生成每个单词,从这个主题分布中采样一个主题,记为𝑧𝑑𝑖。这样,一个单词𝑤𝑑𝑖就可以通过随机采样一个多项分布𝜙𝑧而得到。文档生成过程归纳如表2-1所示。𝑑𝑖8万方数据 上海交通大学硕士学位论文研究现状和研究方法的基础理论图2-1LDA文档生成过程[19]Fig.2-1generatingprocessofLDAmodel表2-1LDA文档生成过程Table.2-1LDAgeneratingprocessInitialization:Dirichlet分布(a).由Dirichlet先验分布求topic的多项式分布参数,即𝜃𝑑~𝐷𝑖𝑟(𝛼).(b).根据𝜃𝑑生成一个topic𝑧𝑑𝑖,即𝑧𝑑𝑖~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜃𝑑).(c).根据已有的topic𝑧𝑑𝑖,从分布𝜙𝑧𝑑𝑖中选择一个word𝑤𝑑𝑖.(d).重复步骤(b),(c),即可生成文档𝑑。2.2.1.4LDA模型的参数估计通过统计文档中的词频,我们可以得到“单词-文档”矩阵。根据贝叶斯全概率公式有如下的关系:𝑃(𝑤𝑜𝑟𝑑=𝑣|𝑑𝑜𝑐=𝑚)=�𝜑𝑘𝑣𝜃𝑚𝑘𝑘=∑𝑘𝑝(𝑘|𝑣)𝑝(𝑚|𝑘)(2-10)其中𝜑𝑘𝑣表示“单词−主题”分布,𝜃𝑚𝑘表示“主题−文档”分布。根据2-10,LDA模型的参数估计就转化为𝜑𝑘𝑣以及𝜃𝑚𝑘矩阵的学习过程。LDA模型的参数估计不能完全准确进行,在实际估计参数的过程中常采用Gibbs采样近似得到LDA模型的参数估计值。9万方数据 上海交通大学硕士学位论文研究现状和研究方法的基础理论2.2.2Hawkes模型数学原理及模型框架本节主要介绍一维Hawkes模型和多维Hawkes模型的原理,并且介绍模型中各个参数的含义。2.2.2.1Hawkes模型介绍Hawkes模型主要由两部分构成,一部分称为基础性,即不受其它事件的影响,事件自然发生的可能性;另一部分称为激发性,即历史其它时刻发生的事件对当前事件是否发生的影响程度。Hawkes模型属于时间点过程(temporalpointprocess),主要由随时间变化的条件强度函数(conditionalintensityfunction)来表征。与经典的点过程(pointprocess)泊松过程不同的是,Hawkes模型中的条件强度函数与过去时刻是相关的,因此适合于描述当前时刻发生的事件与之前事件相关的随机过程。另外,如果表征激发性的核函数选择随时间递减的函数(例如负指数函数),那么该模型可用于描述具有聚集效应(clusteringeffect)的事件,即事件往往在较短的时间内相继出现。2.2.2.2一维Hawkes模型及参数含义Hawkes模型是一种特殊的点过程,一维Hawkes模型的条件强度函数的基本形式如下所示。𝜆∗(𝑡)=𝜇(𝑡)+𝛼∑𝑡𝛾(𝑡−𝑡𝑖;𝛽)(2-11)𝑖<𝑡𝜇(𝑡)≥0表示基础性的条件密度,即不受过去事件影响的自然条件密度;𝛼>0表示自激发的系数。𝛼越大则过去时刻的事件对当前时刻事件的影响越大;𝑡𝑖表示该随机过程中发生在𝑡时刻以前的事件的发生时刻;𝛾(𝑡;𝛽)是定义在(0,∞)的自激发核函数。在这一小节中主要关注核函数为指数函数的情形,即用衰减的负指数函数描述一维Hawkes模型的自激发特性。𝜆∗(𝑡)=𝜇(𝑡)+𝛼∑𝑡𝛽𝑒𝑥𝑝�−𝛽(𝑡−𝑡𝑖)�(2-12)𝑖<𝑡每当一个新的事件发生时,条件概率密度增加𝛼,然后随时间按负指数递减逐渐接近𝜇。10万方数据 上海交通大学硕士学位论文研究现状和研究方法的基础理论2.2.2.3多维Hawkes模型及参数含义多维Hawkes模型是对一维Hawkes模型的延伸和拓展,它是由多个一维Hawkes过程相互影响形成的。在本节接下来的讨论中均以U表示多维Hawkes模型的维数。我们可以把多维Hawkes模型看作是一个U维的随机过程𝑁𝑢,u=𝑡1,…,U。其第u维的条件强度函数可表示为如下:𝜆𝑢(𝑡)=𝜇𝜇+∑𝑖:𝑡𝑖<𝑡𝑎𝑢𝑢𝑖𝛾(𝑡−𝑡𝑖)(2-13)其中𝜇𝑢≥0表示Hawkes模型中第u维的基础密度;𝑎𝑢𝑢𝑖表示发生在第𝑢𝑖维与发生在第u维事件的互激发特性。直观的理解为,其表示了第𝑢𝑖维发生的事件对第u维发生事件的影响。𝑎𝑢𝑢𝑖越大表示第𝑢𝑖维发生的事件对第u维发生的事件的影响越大,其关联性就越大。为了进一步讨论的方便,本文将上述参数矩阵化,记为𝝁=𝜇𝑢,表示每个维度的基础强度。𝑨=𝑎𝑢𝑢𝑖表示不同维度之间相互影响的强度系数。需要指出的是,𝝁和𝑨均为非负实数。2.3本章小结本章节为相关研究的研究现状和基础算法介绍部分,从病人相似性度量、疾病关联分析和疾病趋势预测三方面介绍了相关研究的研究现状和不足,并且详细介绍了基础模型LDA模型和Hawkes模型,为后续研究工作的介绍做好铺垫。11万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量第三章基于准则学习的病人相似性度量病人相似性度量方面,目前研究方法LSML算法的一个主要问题为标记数据的方式不够精确。针对这个不足,我们在本章提出了基于成对监督信息的半监督学习算法加以改进。本章的内容安排如下。在3.1中介绍Pairwise算法的框架以及算法流程。在3.2中针对在实验中使用的数据,对数据的整体统计特性进行了说明。在3.3中结合不同实验的设计过程,分别阐述各个实验的结果并且进行分析。在3.4中我们给出这一章节的结论。3.1Pairwise算法框架本节主要介绍Pairwise算法的数学基础和理论框架。首先,我们会介绍Pairwise算法的具体含义。3.1.1中我们着重介绍Pairwise算法中成对的监督信息。在3.1.2中详细介绍模型参数的估计过程。表3-1中列举了本章节中所使用的符号和各个符号对应的含义。表3-1Pairwise算法中的符号含义Table.3-1NotationsinPairwiseAlgorithm(PA)符号符号含义𝑋病人集合𝒙𝟏,𝒙𝟐,…,𝒙𝑵病人的特征向量𝑆相似病人集合𝐷不相似病人集合𝑀相似性度量准则𝑀0初始马氏距离𝐷𝑀�𝒙𝒊,𝒙𝒋�准则𝑀下病人之间的距离𝐷𝐵(∙)Burgman散度𝜉0初始损失项𝑀𝑡迭代过程中当前的准则𝜋𝑡拉格朗日对偶算子𝛼𝑡对偶算子修正量3.1.1成对病人的监督信息对于某个特定数据集,存在很多看似可行的相似性度量准则。但是,若选取非监督学习方式,就会使得结果很不准确,对用户没有实际意义。相反,若选取监督学习方式,以本文中研究的病人相似性度量为例。我们可以将病人是否患有12万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量糖尿病作为监督信息,也可以选择将病人是否患有良性高血压作为监督信息。很显然,按照这两种不同的监督信息将会学习得到不同的相似性度量准则。我们可以主观上随意确定监督信息,因此这些学习得到的准则都不够准确。概括来讲,在监督学习中,我们难以构建精确的标记方式。针对上述问题,本文中将采用半监督的学习方式,在训练数据中选择性地加入少量精确的标记数据。我们按照比较两对病人之间相似度大小的方式标记数据,将这些标记数据称为成对的监督信息。例如,一对病人均患有高血压,而另外一对病人中一个病人患有高血压,另一个病人无高血压病史。这样,前面一对病人之间的相似性一定高于后面一对病人。比较两对病人之间相似性的大小具有客观性,可以有效避免无法精确标记全部数据的缺陷。这里引用一个事例说明成对的监督信息对于分类[21]学习的显著作用。图3-1(a)中三种颜色的点表示原始数据中的三个类别,(b)表示将颜色去除后进行待分类的数据。可以估计的是,若不引入任何监督信息,分类的结果可能会出现正好相反的情形,即按照水平方向分类,得到一个水平方向的分类结果。(c)中表示引入的四对监督信息。在这四对信息的监督下,水平分类的情况将会避免。可以看出,成对监督信息的数量很小,却具有很强的针对性。(a)(b)(c)图3-1成对监督信息作用的说明Fig.3-1explanationonpairwisesupervision根据上文所述的思想,在训练数据集中加入一些两对病人之间相似度比较的信息,作为成对的监督信息。假设当前的相似性度量准则记为𝑀,病人集合记为𝑋={𝒙𝟏,𝒙𝟐,…,𝒙𝑵}。其中每个病人的特征向量维数为𝑑,即𝒙𝑵为𝑑维向量。相似的病人集合记为𝑆,不相似的病人集合记为𝐷。这样,准则的学习过程就转化为学习一个半正定矩阵𝑀∈𝑅𝑑×𝑑的过程。该矩阵𝑀描述了两个特征向量之间的距离,并且该距离具有马氏距离的形式。这样,我们就得到两个病人之间的距离表示形式如下:𝐷�𝒙,𝒙�=|�𝒙−𝒙�|=(𝒙−𝒙)𝑇𝑀(𝒙−𝒙).(3-1)𝑀𝒊𝒋𝒊𝒋𝑀𝒊𝒋𝒊𝒋13万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量对于3-1中的准则,若病人A和病人B之间的相似度大于病人A和病人C之间的相似度,则有𝐷𝑀(𝒙𝑨,𝒙𝑩)<𝐷𝑀(𝒙𝑨,𝒙𝑪)。若成对监督信息为相似病人对象时,则有𝐷𝑀�𝒙𝒊,𝒙𝒋�≤𝜇𝐿�𝒙𝒊,𝒙𝒋�∈𝑆(3-2)若成对监督信息为非相似病人时,则有𝐷𝑀�𝒙𝒊,𝒙𝒋�≥𝜇𝐻�𝒙𝒊,𝒙𝒋�∈𝐷(3-3)其中𝜇𝐿和𝜇𝐻是算法迭代过程中不断变化的上下界阈值,表示当两个病人的距离小于下界𝜇𝐿时,这两个病人相似。当两个病人的距离大于上界𝜇𝐻时,他们属于不相似病人。3.1.2算法参数估计本节中介绍Pairwise算法的参数估计方法,沿用表3-1中的符号用来说明。我们采用“正则式(regularizer)+损失函数(lossfunction)”的方法估计参数。该方法优化问题的一般形式为:𝑚𝑖𝑛𝑀,𝜉𝑟𝑒𝑔(𝑀)+𝐶⋅𝑙𝑜𝑠𝑠(𝜉)𝐬.𝐭.𝐷𝑀�𝒙𝒊,𝒙𝒋�≤𝜉𝑖𝑗�𝒙𝒊,𝒙𝒋�∈𝑆,𝐷𝑀�𝒙𝒊,𝒙𝒋�≥𝜉𝑖𝑗�𝒙𝒊,𝒙𝒋�∈𝐷,𝜉𝑖𝑗≥0,∀(i,j)(3-4)其中𝑟𝑒𝑔(𝑀)表示关于准则𝑀的正则式,用于规范准则𝑀的形式。𝑙𝑜𝑠𝑠(𝜉)表示关于损失项矩阵𝜉的损失函数,用于表示模型和实际数据之间误差的大小。𝐶为松弛变量(slackvariable),调节目标函数中两函数之间的相对大小。该方法的优化目标是最小化误差,同时根据正则式规范形式。考虑到在Pairwise算法中,待估计的准则𝑀具有马氏距离的形式,而传统的马氏距离(用𝑀0表示)无法满足引入的监督信息。因此待优化问题的目标函数即为在满足监督信息的情况下(约束条件),最小化损失函数,即最小化根据准则𝑀计算的距离与马氏距离之间的差异(最小化待学习准则与马氏距离的差异),同时规范准则𝑀的形式。我们利用矩阵的散度表示矩阵之间的差异。在Pairwise算法的参数估计过程[31]中,我们采用Burgman散度作为正则式和损失函数。本文中Burgman散度用𝐷𝐵(∙)表示,这样我们就得到了该优化问题的具体表示形式如下:𝑚𝑖𝑛𝑀,𝜉𝐷𝐵(𝑀,𝑀0)+𝛾∗𝐷𝐵(𝝃,𝝃𝟎)𝐬.𝐭.𝐷𝑀�𝒙𝒊,𝒙𝒋�≤𝜉𝑖𝑗�𝒙𝒊,𝒙𝒋�∈𝑆,14万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量𝐷𝑀�𝒙𝒊,𝒙𝒋�≥𝜉𝑖𝑗�𝒙𝒊,𝒙𝒋�∈𝐷,𝜉𝑖𝑗≥0,∀(i,j)(3-5)其中𝑀0表示初始准则,在实验中为协方差矩阵。𝝃,𝝃𝟎均为矩阵。𝝃中的元素用𝜉𝑖𝑗表示。𝝃𝟎表示初始损失项矩阵,其中元素𝝃𝟎(𝑖,𝑗)在实验中设定为病人𝒙𝒊和𝒙𝒋之间马氏距离的值。𝛾代表松弛量,我们会在实验中探究松弛变量对算法准确性的影响。其中约束条件对应着引入的监督信息。这样,和上文中叙述的一致,3-5的优化目标即为在满足监督信息的条件下,最小化准则𝑀与马氏距离的差异,同时规范𝑀的形式。我们从Burgman散度的推导开始,详细介绍3-5中目标函数的优化过程。[32]首先,我们给出矩阵的散度定义式如下:𝐷𝜙(𝑿,𝒀)=𝜙(𝑋)−𝜙(𝑌)−(𝑋−𝑌)𝑇∇𝜙(𝑌)(3-6)在3-6的散度定义中,𝜙(𝑋)有很多种形式。例如当𝜙(𝑋)=||𝑋||2时(2-范数),𝐷𝜙(𝑿,𝒀)=||𝑋−𝑌||22(3-7)类似地,当𝜙(𝑋)=||𝑋||𝐹时(F-范数),𝐷𝜙(𝑿,𝒀)=||𝑋−𝑌||2𝐹(3-8)我们在本节参数估计的推导过程中,选择Burgman散度作为正则式。值得指[35]出的是,Burgman散度具有尺度不变特性,表示为如下关系:𝐷𝐵(𝑿,𝒀)=𝐷𝐵(𝑺𝑻𝑿𝑺,𝑺𝑻𝒀𝑺)(3-9)根据尺度不变特性,当特征的维度很高即待学习的准则𝑀维度很高时,若需要进行线性变换的降维处理(变换线性空间,例如PCA主成分分析用于降维)时,采用Burgman散度可以保证降维后的散度数值不变。目标函数仍可以取得最优解。当𝜙(𝑋)=−∑𝑖𝑙𝑜𝑔𝜆𝑖时(𝜆𝑖表示𝑋的特征值),我们便可以得到Burgman散度的[34]表示形式,化简形式如下:𝐷𝐵(𝑿,𝒀)=𝑡𝑟(𝑋𝑌−1)−∑𝑖𝑙𝑜𝑔𝜆𝑖(𝑋𝑌−1)−𝑛(3-10)其中𝑡𝑟(∙)表示矩阵的迹,𝑛代表方阵𝑋和𝑌的维度。在给出Burgman散度的计算方式后,我们继续讨论3-5中优化目标函数的推[31]导问题。为了解决3-5中关于矩阵散度的优化问题,我们采用循环投影的方式(cyclicprojection)更新准则。我们根据不断加入的监督信息更新准则𝑀。每加入一对监督信息,准则𝑀更新一次。每一次更新过程可以解释为当前的准则𝑀向此次[31]引入的监督信息的方向上做投影(projection),以保证满足这对引入的监督信息。这里我们将详细推导更新准则𝑀的具体方法。假设当前学习得到的准则为𝑀𝑡,此次更新准则加入的为第𝑖组成对的监督信息。15万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量这里我们仅给出监督信息中相似病人的推导过程,不相似病人的推导中仅需要变换正负号,过程相似,在此不加赘述。当前更新过程中待优化的目标函数和约束条件表示如下:𝑓(𝑀,𝝃)=𝑚𝑖𝑛𝑀,𝜉𝐷𝐵(𝑀,𝑀0)+𝛾∗𝐷𝐵(𝝃,𝝃𝟎)𝐬.𝐭.𝐷𝑀𝑡�𝒙𝒊,𝒙𝒋�≤𝜉𝑖𝑗�𝒙𝒊,𝒙𝒋�∈𝑆(3-11)其中𝐷�𝒙,𝒙�=(𝒙−𝒙)𝑀(𝒙−𝒙)𝑇=𝑡𝑟(𝑀(𝒙−𝒙)(𝒙−𝒙)𝑇)。我们简𝑀𝑡𝒊𝒋𝒊𝒋𝑡𝒊𝒋𝑡𝒊𝒋𝒊𝒋记(𝒙−𝒙)(𝒙−𝒙)𝑇为𝑍。这样,3-11中的约束条件便可以重写为:𝒊𝒋𝒊𝒋𝑖𝑗𝐬.𝐭.𝑡𝑟�𝑀𝑡𝑍𝑖𝑗�≤𝜉𝑖𝑗�𝒙𝒊,𝒙𝒋�∈𝑆(3-12)结合3-12中的约束条件,在引入拉格朗日对偶乘子后,我们得到无约束条件的拉格朗日函数优化问题,表示形式如下:𝑔(𝜋𝑡)=𝑚𝑖𝑛𝑀,𝝃ℒ(𝑀,𝝃,𝜋𝑡)(3-13)ℒ(𝑀,𝝃,𝜋𝑡)=𝐷𝐵(𝑀,𝑀0)+𝛾∙𝐷𝐵(𝝃,𝝃𝟎)+〈𝜋𝑡,𝑡𝑟�𝑀𝑡𝑍𝑖𝑗�−𝜉𝑖𝑗〉(3-14)其中〈∙〉表示矩阵的内积。根据KKT必要条件,我们可以得到如下两个关系式:∇𝑀ℒ(𝑀,𝝃,𝜋𝑡)=0(3-15)∇𝝃ℒ(𝑀,𝝃,𝜋𝑡)=0(3-16)3-15和3-16分别对应3-5目标函数中两项Burgman散度的KKT条件,我们可分别推导优化𝑀𝑡和𝜉𝑖𝑗的过程。两个推导过程相同,我们将详细推导𝑀𝑡的更新方式并且给出𝜉𝑖𝑗的更新方式。将3-14代入3-15中,我们可以得到如下关系:∇𝑀𝑡(𝐷𝐵(𝑀𝑡,𝑀0)+𝛾∙𝐷𝐵(𝝃,𝝃𝟎)+〈𝜋𝑡,𝑡𝑟�𝑀𝑡𝑍𝑖𝑗�−𝜉𝑖𝑗〉)=∇𝑀𝑡𝐷𝐵(𝑀𝑡,𝑀0)+𝛾∙∇𝑀𝑡𝐷𝐵(𝝃,𝝃𝟎)+∇𝑀𝑡〈𝜋𝑡,𝑡𝑟�𝑀𝑡𝑍𝑖𝑗�〉(𝑀)+𝑍𝑇=∇𝑀𝑡𝐷𝐵𝑡,𝑀0𝑖𝑗𝜋𝑡=0(3-17)因此有(𝑀)=−𝑍𝑇∇𝑀𝑡𝐷𝐵𝑡,𝑀0𝑖𝑗𝜋𝑡(3-18)[32]我们采用迭代原始-对偶算法(iterativeprimal-dualalgorithm)进行优化。原始优化问题(primal)为3-11。该优化问题中含有约束条件,我们简记约束条件为𝑀𝑠𝑢𝑏。在介绍迭代过程的推导前,我们首先给出算法中对偶问题(dual)的形式。有如下关系式:𝑓(𝑀𝑡,𝜉𝑖𝑗)𝑀𝑠𝑢𝑏=𝑔(𝜋𝑡)𝑀𝑠𝑢𝑏≥𝑔(𝜋𝑡)(3-19)3-19中“=”两侧即表示引入拉格朗日对偶乘子后得到的等效优化问题。3-19中的不等号“≥”可以解释为,不等式左侧优化问题中含有约束条件,因此左侧最小化问题仅可能获得局部最优解,将大于或等于右侧优化问题得到全局最优解的情形(若𝑀𝑠𝑢𝑏满足全局最优解,则为相等情形)。这样,3-19等效为:16万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量𝑓(𝑀𝑡,𝜉𝑖𝑗)𝑀𝑠𝑢𝑏≥max(𝑔(𝜋𝑡))(3-20)进而有:𝑓(𝑀𝑡,𝜉𝑖𝑗)𝑀𝑠𝑢𝑏=𝑠𝑢𝑝(𝑔(𝜋𝑡))(3-21)其中sup(∙)表示上确界。所以,求解3-11中最小化问题的过程可以转化为最大化𝑔(𝜋𝑡)的过程,即原始问题的对偶问题。具体表示为:max�𝑔(𝜋𝑡)�(3-22)迭代原始-对偶算法(Iterativeprimal-dual)的关键为在迭代过程中不断修正对偶算子𝜋𝑡,以保证迭代过程中𝑔(𝜋𝑡)单调递增。我们将第𝑡轮迭代过程中对偶算子的修正量记为𝛼𝑡。当对偶算子不再变化或变化比例小于设定阈值时,3-22中对偶问题的迭代过程结束,即原始问题3-11的优化过程结束,算法达到收敛。对偶算子在迭代过程中修正的关系如下:𝜋𝑡+1=𝜋𝑡+𝛼𝑡(3-23)3-23表示对偶算子的线性修正,我们会在后文中推导修正量的计算方式。根据3-18和3-23,我们可以得到如下更新准则的关系式:(𝑀)−∇(𝑀)=−𝑍𝑇𝑇∇𝑀𝑡+1𝐷𝐵𝑡+1,𝑀0𝑀𝑡𝐷𝐵𝑡,𝑀0𝑖𝑗(𝜋𝑡+1−𝜋𝑡)=−𝑍𝑖𝑗𝛼𝑡(3-24)其中𝑀𝑡+1表示迭代后更新的准则。我们将3-10中Burgman散度的表达式代入3-24中,化简可得如下关系:𝑀=(𝑀−1−𝛼𝑍𝑇)−1(3-25)𝑡+1𝑡𝑡𝑖𝑗[31]定理3.1Sherman逆矩阵计算公式:−1𝑇−1(𝐴+𝑢𝑣𝑇)−1=𝐴−1−𝐴𝑢𝑣𝐴�(3-26)1+𝑣𝑇𝐴−1𝑢由定理3.1,我们可以将3-25转化为如下的计算形式:𝑇𝛼𝑡𝑀𝑡𝑍𝑖𝑗𝑀𝑡𝑀𝑡+1=𝑀𝑡+�(3-27)1−𝛼𝑡𝐷𝑀𝑡�𝑥𝑖,𝑥𝑗�根据3-27,我们就得到了每一轮更新准则的计算方式。在第𝑡轮更新过程中引入第𝑖组成对的监督信息并更新准则后,更新的准则𝑀𝑡+1满足上一轮3-12中的约[31]束条件,即𝑇𝑡𝑟�𝑀𝑡+1𝑍𝑖𝑗�=𝜉𝑖𝑗(3-28)将3-27代入3-28中,化简可得对偶算子的修正量计算方式如下:11𝛼𝑡=𝛾+1(1�𝐷�𝑥,𝑥�−�𝜉)(3-29)𝑀𝑡𝑖𝑗𝑖𝑗值得指出的是,3-16中拉格朗日乘子函数的KKT必要条件同样满足17万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量∇𝝃ℒ(𝑀𝑡,𝝃,𝜋𝑡)=0。推导𝜉𝑖𝑗的更新方式和𝑀𝑡+1过程相同,在此我们直接给出计算结果如下:𝛾∙𝜉𝑖𝑗𝜉𝑖𝑗=�(𝛾+𝛼𝑡𝜉𝑖𝑗)(3-30)我们在迭代过程中根据拉格朗日对偶算子的变化率作为判定算法是否达到收敛的依据。可以解释为3-22中对偶优化问题的目标函数值不再变化,即达到最大值。我们假设当𝜋𝑡的变化率低于0.1%时,算法达到收敛。同时,我们会在实验分析部分给出更新过程中目标函数的变化作为对比。综合上述推导过程,我们归纳Pairwise算法的参数估计方法如表3-2所示。表3-2Pairwise算法参数估计流程Table.3-2processofPairwisealgorithmInitialization:初始化𝑴𝟎,相似病人集合𝑺,不相似病人集合𝑫特征向量集合𝑿,初始化𝝃𝟎(1).引入第𝑖组成对的监督信息作为约束条件。(2).计算当前距离𝐷�𝒙,𝒙�=(𝒙−𝒙)𝑀(𝒙−𝒙)𝑇𝑀𝑡𝒊𝒋𝒊𝒋𝑡𝒊𝒋(3).计算𝑍=(𝒙−𝒙)(𝒙−𝒙)𝑇𝑖𝑗𝒊𝒋𝒊𝒋(4).计算修正量𝛼𝑡𝛾∙𝜉𝑖𝑗(5).更新损失项𝜉𝑖𝑗,𝜉𝑖𝑗=�𝛾+𝛼𝑡𝜉𝑖𝑗𝑇𝛼𝑡𝑀𝑡𝑍𝑖𝑗𝑀𝑡(6).更新准则𝑀𝑡,𝑀𝑡+1=𝑀𝑡+�1−𝛼𝑡𝐷𝑀𝑡�𝑥𝑖,𝑥𝑗�(7).更新对偶算子𝜋𝑡,𝜋𝑡+1=𝜋𝑡+𝛼𝑡(8).重复(1),(2),(3),(4),(5),(6),(7)至收敛(𝜋𝑡变化率低于0.1%)(9).输出:准则𝑀3.2实验数据描述实验数据来源为上海市长宁区卫生信息中心,时间范围为2009.1.1至2013.12.31,共计1300万余条记录。根据本章节中实验对于数据的具体需求,我们选取了具有检验指标统计信息的病人共计360个,电子医疗记录的数目为15万余条。病人所涉及的所有检验指标共1369个。我们在实验中主要研究的特征指标共计117个,详细标号和检验指标名称列举在附录A中。检验指标为检查组的形式,例如血细胞分析,肝功能检查等。在对比实验中为了保证实验的完整性,我们选取50%病人涉及的248个检验指标,所有病人均含有的125个检验指标(按照18万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量检验指标在数据中出现的次数选择),分别作为对比来进行说明。在3.3.6的实验中,数据中共涉及4个不同的大类别科室(内科、外科、急诊、住院部)。实验中假设每个科室的诊治特点相同。表3-3中列举了实验数据的整体统计数据。表3-3实验数据统计信息Table.3-3statisticsforexperiments电子医疗记录数目157326病人数目360科室数目4检验指标136950%病人检验指标248全部病人检验指标1253.3实验结果分析3.3.1Pairwise算法收敛性说明本节实验中说明Pairwise算法的收敛性。在Pairwise算法中,我们采用迭代原始-对偶算法更新准则。在本节实验中,我们分别从对偶问题以及原始问题的优化两方面对算法的收敛性进行说明。对偶问题方面,考虑到3-22中的对偶问题为单调递增问题,我们在迭代过程中根据拉格朗日对偶算子(𝜋𝑡)的变化率作为判定算法是否达到收敛的依据。可以解释为3-22中对偶优化问题的目标函数值不再变化,即达到最大值。我们假设当𝜋𝑡的变化率低于0.1%时,算法达到收敛。实验结果如图3-2所示。原始问题方面,我们直接将目标函数的数值作为算法是否达到收敛的依据。当目标函数的数值不再降低时,我们认为优化过程结束,算法达到收敛。实验结果如图3-3所示。对比实验结果,如图3-2和图3-3所示,当对偶算子的变化率趋近为零,即对偶算子不变,对偶问题达到最大值时,目标函数的数值基本达到最小值,即迭代过程结束,算法达到收敛。19万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量0.50.40.30.2changingrateofdualoperator0.10050100150200250300350400iterationround图3-2算法迭代过程中对偶算子的变化率Fig.3-2changingrateofdualoperatoriniterationprocess-40-60-80-100-120valueofobjectfunction-140-160050100150200250300350400iterationround图3-3算法迭代过程中目标函数值Fig.3-3valueofobjectfunctioniniterationprocess20万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量3.3.2松弛变量的说明本节实验说明3-5目标函数中的松弛变量γ对于Pairwise算法准确性的影响。松弛变量的大小可以体现正则项和损失函数之间的权重。松弛变量越大,损失函数在目标函数中所占有的权重越大,也就意味着在最小化目标函数时,损失函数的减小程度越大。理论上,算法的准确性会有一定程度上的提高。然而,考虑到目标函数中同样存在正则项,当松弛变量增大到一定数值时,Pairwise算法的准确性会产生一定程度的下降,直到达到稳定的准确性。在本节实验中,我们分别对具有偏倚特性(biased)的测试数据和不具有偏倚特性(unbiased)的测试数据两种情形进行探究。我们将高血压病人的比例为10%、糖尿病病人比例为90%的测试数据作为biased测试数据,将两种病人比例均为50%的测试数据作为unbiased测试数据。在实验过程中,对于两种不同的测试情形,我们保证训练数据(监督信息)不变。标记数据的比例设定为10%。对于每组实验,我们分别进行交叉验证,求取平均值得到实验结果。我们选取precision@position作为衡量算法准确性的指标。0.75Pairwise(biased)0.70.650.6precision@position0.550.50.45-5-4-3-2-1012log(γ)10图3-4松弛变量对biased实验准确性的影响Fig.3-4effectofslackvariableonaccuracyofbiaseddata21万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量表3-4Pairwise算法(γ=0)与马氏距离的准确性对比Table.3-4accuracycomparisonbetweenpairwise(γ=0)andMahalnobisprecision@positionPairwise(𝛾=0)0.47778Mahalnobis0.450.760.750.740.73Pairwise(unbiased)precision@position0.720.710.7-5-4-3-2-1012log(γ)10图3-5松弛变量对unbiased实验准确性的影响Fig.3-5effectofslackvariableonaccuracyofunbiaseddata实验结果分别如图3-4和图3-5所示。在biased实验中我们保留了直接利用马氏距离作为准则的情形作为对比。我们从两方面分析实验结果。首先,通过biased实验和unbiased实验的结果,我们可以看出两种情况下松弛变量对于算法准确性的影响在整体趋势上是相同的。即松弛变量越大,损失函数在目标函数中所占有的权重越大,也就意味着在最小化目标函数时,损失函数的减小程度越大。理论上,算法的准确性会有一定程度上的提高。然而,考虑到目标函数中同样存在正则项,当松弛变量增大到一定数值时,Pairwise算法的准确性会产生一定程度的下降,直到达到稳定的准确性。值得指出的是,在biased实验中,由于测试数据比例分配存在很大程度上的不均衡性,当松弛变量增加时,损失函数在目标函数22万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量中的影响相对更加明显,具体表现为算法的准确性指标显著升高。其次,在表3-4中我们同样进行了γ=0与马氏距离的对比实验。可以看出,当目标函数中不含有损失函数时,在满足监督信息的基础上,学习得到的准则准确性略高于马氏距离的准确性结果。3.3.3损失函数的说明本节实验说明损失函数中初始损失项的设定问题。在除本节外的所有实验中,我们均设定初始损失项𝜉0为马氏距离的数值。优化的目标是在满足全部监督信息的同时,尽可能地使病人之间的距离接近马氏距离计算数值。我们已在3.3.2节中阐述了正则项的影响,本节实验我们将对损失函数的影响作出简要叙述。我们将初始损失项𝜉0设定为符合均匀分布的随机数值(其余实验假设保持不变),将此种情况下优化得到的准则作为对比。实验结果如图3-6所示。0.8Pairwise0.75random0.70.650.60.55precision@position0.50.450.40.35-6-5-4-3-2-10123log(γ)10图3-6初始损失项为随机数值的算法准确性Fig.3-6theaccuracyoftherandominitiallossterm23万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量可以明显地看出,当初始损失项为随机数值时,算法的准确性随松弛变量的增加变化不大,基本接近于马氏距离作为准则的准确性结果。当松弛变量不断减小时,损失函数的权重逐渐减小,即初始损失项为随机数值的影响逐渐降低,因此初始损失项为随机值的算法准确性(图3-6中random)与初始损失项为马氏距离(图3-6中Pairwise)的准确性逐渐趋近。当松弛变量不断增大时,损失函数的权重不断增加,初始损失项为随机数值的影响不断升高,图3-6中random情形的算法准确性下降明显。同时,通过图3-6,我们可以看出当初始损失项为马氏距离计算值时,算法的准确性均明显高于初始损失项为随机数值的情况。3.3.4Pairwise算法准确性对比本节实验中我们对比Pairwise算法和LSML算法的准确性。这里应该指出的是,由于LSML为监督学习算法,而Pairwise为半监督学习算法,因此为保证实验的可对比性,在进行准确性对比时,LSML算法和Pairwise算法中标记相同的数据。具体标记数据的方式为若在LSML算法中随机选定n个病人进行标记,则Pairwise算法中的成对监督信息由这n个病人中任意选取两个不同的病人产生。这部分对比实验中,我们采用precision@position指标进行准确性对比。[16]Precision@position的定义为在某个特定位置之前,所有和目标病人具有相同监督信息的病人数目与病人总数的比值。我们在本节对比实验中计算模型的准确性随监督信息数目增加的变化趋势。我们采用交叉验证的方式对比验证模型的准确性,求取平均值作为准确性结果。实验结果如图3-7所示。24万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量0.8PairwiseLSML0.750.70.65precision@position0.60.55050100150200250300350400numberoflabeledpatients图3-7Pairwise和LSML算法的precision@position对比Fig.3-7precision@positioncomparisonbetweenPairwiseandLSML对于实验结果,如图3-7所示,我们可以明显地看出当Pairwise和LSML收敛后,若两个算法的数据中标记的病人数目相同时,Pairwise算法的准确性基本优于LSML算法。对于Pairwise算法,当标记病人数目较少时,增加标记比例可以使准确性明显增加。3.3.5对比典型非监督学习算法在这部分对比实验中,训练数据中的标记比例设定为10%。这组对比实验中我们对比了几种常用的用于降维以及分类的非监督学习算法,如PrincipleComponentAnalysis(PCA),K-Means等方法,采用RandIndex作为准确性指标。从图3-8结果图中可以看出,Pairwise算法在特征向量选取的维度数目分别为117、248和1369时的准确性效果均明显高于这些方法,这表示Pairwise算法可以学习得到更加准确的准则。25万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量PCA1K-Means(Euclidean)Pairwise0.80.6RandIndex0.40.20Dimension=117Dimension=248Dimension=1369图3-8Pairwise算法与典型非监督学习算法在准确性上的对比Fig.3-8Pairwisecomparisonwithunsupervisedlearningalgorithmsonaccuracy3.3.6病人群体合并的准则现实情况中,训练数据往往不完整或不具有充分的代表性。具体表现为医生具有不同的医疗诊断习惯,如对病情诊断的叙述特点,或者对于症状严重程度的描述不同等,以及病人群体不同的特征。例如,病人于不同的治疗科室就诊或者门诊和住院部之间病人群体的特征均存在差异。在这种情况下学习得到的准则不够精确,无法反映所有患病记录的特征。因此本节实验的目的是证明在初始数据只覆盖少量科室的情况下,合并其他科室的数据后可以提高Pairwise算法的准确性。实验中假定一些病人群体具有一定的不规则特性,不能代表病人整体的特点,根据这些初始群体的数据将会学习得到不准确的相似性度量准则。我们称这些病人群体为biasedcohorts。本节实验希望探究biased群体的准则在合并其他群体后准确性是否增加以及增加的幅度。设计的实验过程如下文所示。Biasedcohort根据数据中病人的就诊科室(实验26万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量中假设每个科室内部的诊治特点相同)进行群体的分类,每个cohort只能代表相应科室的特征,无法代表全体病人的特征。数据中共涉及4个大类别的医疗科室(内科、外科、急诊、住院部),因此分成4个不同的biased群体,分别编号为𝑏1,𝑏2,𝑏3𝑏4。测试数据在实验过程中保持不变,实验过程中变换的是重新学习得到的准则。根据𝑏1学习得到基准的距离准则,记为basemetric。这里值得指出的是,本实验的目的为验证合并其他科室数据后准确性是否具有增加的趋势,因此合并群体的顺序不是实验中首要考虑的因素。同时,为保证准则合并的准确性结果不是由某特定合并病人群体顺序得到的偶然结果,本实验中在未合并的病人群体中随机选择某个群体进行合并。同时,每个准确性结果由五次实验取平均值得到。实验结果图中所示的4个准确性结果,表示不断合并新的biased群体后得到新的准则的准确性结果。PA:prec@100.75PA:prec@30LSML:prec@10LSML:prec@300.70.650.6precision@position0.550.511.522.533.54numberofcohortsincorporated图3-9群体合并准则的准确性对比Fig.3-9accuracycomparisonincohortintegration通过实验结果可知,Pairwise算法具有病人群体合并后准确性升高的特性。在实验中我们对比了LSML算法相同训练数据和测试数据的实验结果。如图3-9所示,我们可以看出biased群体学习的准则在合并其他群体时准确性提高明显。27万方数据 上海交通大学硕士学位论文基于准则学习的病人相似性度量同时,实验结果说明在训练数据相同并且训练数据标记比例相同时,LSML算法准确性没有明显的提高(increase(Pairwise)=15.94%)>increase(LSML)=3.88%),并且Pairwise的biasedcohorts合并后的准确性始终高于LSML。因此Pairwise的病人群体合并的效果优于LSML算法。3.4本章小结这一章节中主要研究基于准则学习的病人相似性度量。本章提出了Pairwise算法。该算法选择真实医疗记录作为训练数据,学习得到相似度准则。Pairwise算法选择半监督学习,采用比较两对病人相似度大小的方式标记数据,准确性良好。本章中通过对比实验证明了Pairwise算法在判定病人相似度的准确性方面以及合并病人群体的准确性提升幅度方面均优于LSML算法。28万方数据 上海交通大学硕士学位论文疾病关联分析第四章疾病关联分析疾病关联分析方面,传统医学领域中通常采用解剖学分类。目前相关研究多数只针对某些疾病共存进行分析。针对这些不足,本章着重研究所有疾病之间的关联,同时考虑发病时间这一重要因素。本章节同样使用来自上海市长宁区卫生信息中心的电子医疗数据进行模型参数的估计。这一章节的内容分布如下。在4.1中介绍cLDA的原理框架,生成过程以及参数的估计方法。在4.2中会结合疾病关联分析中对于数据的需求,介绍长宁区电子医疗记录数据的统计特性。在4.3中我们介绍实验中参数的整体假设。4.4部分会列举实验结果图并分析结果,同时我们会对比传统LDA模型在同样训练数据上的实验结果。在4.5中我们给出这一章节的结论。4.1cLDA模型框架4.1.1cLDA模型的引入电子医疗记录整合记录了在某个特定时间段中所有医疗方面的数据。除去按照InternationalCodedDiseases9(ICD9)编码的疾病信息,病人每次患病的患病时间和病人的年龄、性别信息同样非常重要。在疾病关联分析这一章节中,我们只关注疾病种类和患病时间。此处我们介绍cLDA的一些模型假设。(a).一个病人在四年的时间里入院就医的次数超过一次,并且我们假设这是由于患有不同疾病或者疾病病情变化导致的。在cLDA模型假设下,不同的疾病可能来自于不同的疾病种类。(b).一些疾病具有季节性发病率特征,即发病率在不同季节有显著的差异。表4-1咽喉炎和中耳炎季节性发病率信息Table.4-1seasonaldiseaseincidencespringsummerautumnwinter咽喉炎0.0520.0210.0350.032中耳炎0.00380.00440.00340.0076本章采用耦合的二维LDA模型来表示上述两个特性。在cLDA模型中,每个病人的全部疾病记录类比于传统LDA模型中的某个文档。疾病的类别模式类比于主题模型中的主题,不同的疾病种类由特定的疾病分布表示。在cLDA模型中,我们强调疾病发病率具有一定的季节特性。表4-1中列举了实际生活中的两29万方数据 上海交通大学硕士学位论文疾病关联分析种具有季节性发病率特征的疾病。咽喉炎和中耳炎在春季和冬季的发病率相对较高。在cLDA模型中,一个病人随时间季节变化患有的不同疾病可能属于不同的疾病种类。利用cLDA模型,我们可以将具有关联的疾病聚类到一个疾病类别中,并且可以将相似的患病时间聚类到同一个时间模式中。4.1.2cLDA生成过程在第二章提到的LDA模型基础上,cLDA引入时间维度,每个主题对应一组信息,即疾病种类和季节信息。我们认为每种疾病的发病规律以及发病时间具有一定的统计性规律,并且每个病人每次入院就医的疾病和患病时间总体服从该模型描述的统计规律,因此利用生成模型来表征二元组医疗记录是合理的。表4-2中介绍了本章中所使用的符号以及符号含义。表4-2cLDA模型符号以及符号含义Table.4-2notationsincLDAmodel符号符号描述𝜶,𝜷,𝜸Dirichlet先验变量𝜽𝒑病人𝑝的疾病种类的多项分布𝝋𝒅疾病种类𝑑的多项分布𝝍𝒕时间模式𝑡的多项分布𝑫疾病种类的数目𝑻时间模式的数目𝑷病人数目𝑽𝒅数据中不同类型的疾病数目𝑽𝒕数据中不同时间戳的数目𝑵𝒑病人𝑝入院的次数𝒛𝒑𝒊病人𝑝疾病的第𝑖个类别标号𝒅𝒑𝒊病人𝑝第𝑖种疾病标号𝒕𝒑𝒊病人𝑝第𝑖个看病时间的标号根据cLDA模型,一个二元组产生的过程可分为四步。第一步,对于某个病人,通过Dirichlet分布采样一个疾病类别的分布。第二步,对于该病人的每次医疗记录,采样得到一个疾病的类别和时间模式。第三步,根据选定的疾病类别和疾病-类别多项分布,选择一个特定的疾病。第四步,根据选定的时间模式和时间-模式多项分布,选定一个特定的时间戳,作为患病时间。以上四步即可得到一个二元组(𝑑𝑝𝑖,𝑡𝑝𝑖)。对于病人𝑝,二元组(𝑑𝑝𝑖,𝑡𝑝𝑖)产生过程可以概括如下。1)选择𝜃𝑝~𝐷𝑖𝑟(𝛼),其中𝑝∈{1,…,𝑃},𝐷𝑖𝑟(𝛼)是参数为𝛼的狄利克雷分布。2)选择𝜙𝑑~𝐷𝑖𝑟(𝛽),其中𝑑∈{1,…,𝐷}30万方数据 上海交通大学硕士学位论文疾病关联分析3)选择𝜓𝑡~𝐷𝑖𝑟(𝛾),其中𝑡∈{1,…,𝑇}4)对于每个符号𝑖,𝑖∈{1,…,𝑁𝑝}a)选择𝑧𝑝𝑖~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙�𝜃𝑝�b)选择时间戳𝑡𝑝𝑖~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜓𝑧𝑝𝑖)c)选择一种疾病𝑑𝑝𝑖~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜙𝑧𝑝𝑖)图4-1表示cLDA模型中疾病二元组产生过程的图形化描述。图4-1图形化cLDA生成过程Fig.4-1cLDAgraphicalgeneratingprocess4.1.3cLDA模型参数估计我们将在本节介绍cLDA模型的参数估计过程。在推导过程中,我们沿用表4-2中的符号。cLDA的参数估计方法与LDA相似,我们同样选择常用的Gibbs[22]sampling的方法得到近似的估计值。Gibbssampling的具体过程如下所示:在cLDA模型中,隐变量是𝑧𝑝𝑖。在每一轮迭代过程中,我们根据除去(𝑑𝑝𝑖,𝑡𝑝𝑖)以外,其他的就诊记录𝒛¬𝒑𝒊,对第p个病人的第i次就诊记录(𝑑𝑝𝑖,𝑡𝑝𝑖)的模式𝑧𝑝𝑖进行采样(sampling),以得到隐变量𝑧𝑝𝑖。采样过程中的全概率公式𝑃(𝑧𝑝𝑖|𝒅,𝒕,𝒛¬𝒑𝒊,𝛼,𝛽,𝛾)可以通过贝叶斯公式求出。此处我们给出全概率公式的计算方式如下:31万方数据 上海交通大学硕士学位论文疾病关联分析𝑃�𝑧𝑝𝑖�𝒅,𝒕,𝒛¬𝒑𝒊,𝛼,𝛽,𝛾�∝(𝑑𝑝𝑖)(𝑡𝑝𝑖)(𝑧𝑝𝑖)𝑛𝑧𝑝𝑖+𝛽𝑑𝑝𝑖−1𝑛𝑧𝑝𝑖+𝛾𝑡𝑝𝑖−1�𝑛+𝛼−1�××(4-1)𝑝𝑉𝑑�𝑣𝑑�𝑉𝑡(𝑣𝑡)∑𝑣𝑑=1�𝑛𝑧𝑝𝑖+𝛽𝑣𝑑�−1∑𝑣𝑡=1�𝑛𝑧𝑝𝑖+𝛾𝑣𝑡�−1(𝑣𝑑)𝑣𝑡𝑧𝑝𝑖其中𝑛𝑧𝑝𝑖表示疾病𝑣𝑑的数目。𝑛𝑧𝑝𝑖表示时间模式中时间戳𝑣𝑡的数目。𝑛𝑝表示疾病类别𝑧𝑝𝑖中病人𝑝的数目。根据4-1求得𝒏𝒑,𝒏𝒅,𝒏𝒕后,我们可以求出Θ:𝑃�𝜃𝑝,𝑧𝑝�𝛼�𝑃�𝜃𝑝�𝑧𝑝,𝛼�=𝑃�𝑧𝑝�𝛼�𝑃(𝑧𝑝|𝜃𝑝)𝑃(𝜃𝑝|𝛼)=𝑃�𝑧𝑝�𝛼�𝑁𝑝∏𝑖=1𝑃(𝑧𝑝𝑖|𝜃𝑝)𝑃(𝜃𝑝|𝛼)=𝑃�𝑧𝑝�𝛼�𝐾𝐿(𝑧𝑝𝑖)1𝑛+𝛼−1𝑝=�𝜃𝑍𝑝,𝑖𝜃𝑝𝑖=1=𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡�𝜃𝑝�𝒏𝒑+𝛼�(4-2)同理,对于Φ,Ψ,有如下公式:𝑃�𝜑𝑑�𝑧𝑝,𝑑,𝛽�=𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡�𝜑𝑑�𝒏𝒅+𝛽�(4-3)𝑃�𝜓𝑡�𝑧𝑝,𝑡,𝛾�=𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡�𝜓𝑡�𝒏𝒅+𝛾�(4-4)通过求解4-2、4-3和4-4中Dirichlet分布的期望,我们可以得到cLDA模型参数的估计值,表示如下:𝑛𝑝𝑖+𝛼𝜃𝑝,𝑖=∑𝐾𝐿(𝑛𝑖′(4-5)𝑝+𝛼)𝑖′=1𝑣𝑑𝑛+𝛽𝑑𝜑𝑑,𝑣𝑑=𝑉𝑑𝑣′𝑑(4-6)∑′(𝑛𝑑+𝛽)𝑣=1𝑑𝑣𝑡𝑛+𝛾𝑡𝜓𝑡,𝑣𝑡=𝑉𝑡𝑣′𝑡(4-7)∑′(𝑛𝑡+𝛾)𝑣𝑡=132万方数据 上海交通大学硕士学位论文疾病关联分析4.2实验数据描述本课题的数据来源仍为上海市长宁区卫生信息中心,利用该数据进行模型的参数估计。医疗记录中总共包含有1034816个病人和13214827条记录,覆盖了长宁区各大医院以及不同卫生组织的四年的完整电子医疗记录,时间范围为2009年10月到2013年10月。在本文的cLDA模型中,由于某些慢性疾病的初始发病时间并不在这四年时间范围内,我们在实验中移除掉医疗记录中年龄在80岁以上老年病人的数据记录。同时,鉴于孩童的疾病多为突发性的疾病,我们同样不考虑这些记录。最后,我们得到整体数据集包含834598个病人以及10786943条记录,平均每个病人在四年的时间中患病次数为11次。在整个数据集中,共涉及的疾病种类为5401,大概为ICD9中所有疾病的三分之一。在实验中,为了避免产[19]生LDA模型中的stopwords,实验中移除一些没有明显季节性发病率特征的慢性疾病,例如高血压和糖尿病等慢性疾病。这里将该实验中的统计数据列举在表4-3中。针对全体数据集,我们同样统计了发病数目处于前125位的疾病,每种疾病利用简单的数字进行编码,方便实验过程。这125种疾病编号对应的疾病名称详见附录B。该实验部分在考虑疾病种类的基础上,同时引入患病时间维度,因此我们将训练数据进行了季节性统计,春季的疾病发病数所占比例最高,为37%。见图4-3所示。表4-3实验数据统计信息Table.4-3statisticsforexperiments医疗记录总数10786943病人总数834598疾病种类540133万方数据 上海交通大学硕士学位论文疾病关联分析5x10121086statisticalamounts420020406080100120140diseasecodenumber图4-2实验中125种研究疾病的发病数目统计Fig.4-2statisticof125diseasesfortheexperimentwinter:18%spring:37%autumn:31%summer:14%图4-3季节性发病数目统计Fig.4-3seasonalstatisticalresults34万方数据 上海交通大学硕士学位论文疾病关联分析4.3实验过程和实验假设在实验部分,我们利用4.2中所介绍的训练数据进行模型参数的估计。得到估计的cLDA模型后,我们会利用测试数据计算每种疾病在不同时间模式中的发病率。测试数据中包含31396个病人。然后,我们将通过引入熵的概念解释不同疾病种类所具有的季节性发病率特征。同时,根据训练数据和测试数据的统计属性,通过计算统计数据之间的斯皮尔曼相关系数,我们说明了模型的疾病季节性发病率结果与测试数据统计特性之间的关联强于和训练数据统计信息的关联。这也证明了cLDA模型应用在疾病聚类中得到的疾病季节发病率特性的准确性。在这些定量验证的基础上,我们同样在权威的医学索引PubMed上的经典文献中得到了相应疾病的相同特性。总结上述实验内容,我们将实验中的一些假设列举如下。(1).本文将实验的参数设定如下。𝐾=50,𝐿=5,𝛼=1,𝛽=0.1,𝛾=0.01(2).cLDA模型的实验中,考虑到80岁以上病人所患疾病多为慢性疾病并且初始发病时间可能不在研究的时间范围内,10岁以下儿童的患病多为突发性疾病,不具有研究性,我们在实验中移除年龄大于80岁以及年龄小于10岁病人的电子医疗记录。(3).在实验中我们仅考虑四年时间内入院就医次数超过8次的病人。(4).实验中,我们采用半个月的形式记录时间,意味着时间戳总共有24个不同的值,为0~23。如二月10日时间戳记录为2,二月19日为3。4.4实验结果分析4.4.1疾病模式根据上述实验假设进行实验,结果中每个疾病种类的模式是由具体的疾病描述的。我们得到的疾病种类模式中有一些具有显著的医学意义。首先,当疾病种类模式的预设数目由30增加到50时,结果中慢性呼吸道疾病和急性呼吸道疾病将处于不同的疾病种类模式中,而不是位于同一疾病种类模式下,如表4-4和表4-5所示。然而,当增加模式预设数目到80时,在疾病种类模式中本文会得到一些重复的模式。第二方面,在疾病种类模式中存在一些揭示疾病发展趋势的类别,在表4-6中显示了肝病的该种模式。这意味着当一个病人感染了HBV病毒后,可能会在将来患上肝炎,肝硬化甚至在某些情况下恶化为肝癌。根据疾病趋势的类35万方数据 上海交通大学硕士学位论文疾病关联分析别,我们可以预知某些病人将来可能患何种疾病。表4-6中给出了描述该模式的具体疾病的分布概率。第三方面,我们在疾病模式中得到一些和解剖学分类一致的疾病模式。这里只给出了两种疾病种类模式,分别为胆囊部位疾病和甲状腺部位疾病。可以看出,每种疾病在相应的疾病模式中分布概率是比较平均的,并没有出现过度集中的情况。表4-4慢性呼吸道疾病类别Table.4-4chronicrespiratorydiseases“慢性呼吸道疾病”慢性支气管炎慢性阻塞性肺疾病慢性支气管哮喘慢性肺气肿慢性肺结核表4-5急性呼吸道疾病类别Table.4-5acuterespiratorydiseases“急性呼吸道疾病急性咽炎急性支气管炎急性咽喉炎急性呼吸道感染急性支气管哮喘表4-6肝病类别以及各疾病在类别中分布的概率Table.4-6liverdiseasesandprobabilityinpattern疾病名称模式中分布概率肝损害0.2957HBV感染0.2232肝功能不全0.1116肝硬化0.0512慢性肝炎0.0447肝功能缺陷0.0243肝脏疾病(K76.901)0.0207肝癌0.0186肝腹水0.010936万方数据 上海交通大学硕士学位论文疾病关联分析表4-7解剖学疾病类别示例Table.4-7examplesoftheanatomydiseasepatterns(a)胆囊类别疾病名称模式中分布概率胆囊炎0.2245胆结石0.0693胆囊息肉0.0408胆囊切除术0.0292急性胆囊炎0.0238(b)甲状腺类别疾病名称模式中分布概率甲状腺功能衰退0.2853甲状腺炎0.0983甲状腺肿0.0759甲状腺结节0.0571桥本甲状腺炎0.05514.4.2患病时间模式实验结果中同样可以得到明显的时间模式。通过计算时间模式的分布概率,我们可以得到5个明显的时间模式。当𝐿增加时,增加的时间模式被采样得到的概率很小,因此在患病时间模式部分,我们主要关注这五个明显的时间模式。时间模式的分布如图4-4所示,图示中属于相同时间模式下的时间用同一颜色表示,例如十月和十一月均用红色表示,属于时间模式1。根据上文实验假设所述,在实验中将一年的时间线平均分为24个时间段,每个时间段代表半个月,这也就意味着时间单位总数为24。图4-4中每个月份用连续的两个时间戳表示。从图中可以看出,每种时间模式都具有明显的季节特性。结合不同时间模式中疾病类别的发病率,我们将分别讨论这五个时间模式。时间模式1(图4-4中红色表示)代表了每年中的秋末冬初。考虑到上文中提到的不同季节的疾病发病数目,冬季的疾病发病数目占比例31%,可以很容易发现,由于秋末冬初温度的突变情况较多,一些胃肠类的疾病和支气管炎类疾病的发病数目会增加明显。在表4-8中我们利用急性阑尾炎作为事例进行说明。根据模型计算得到急性阑尾炎在秋季的发病率最高,与4.4.4中相应疾病的发病率数据相同。表4-8中,我们采用P1代表时间模式pattern1,其余缩写以此类推。37万方数据 上海交通大学硕士学位论文疾病关联分析seasonmonthtimestamptimepattern122301winter1timepattern32234356timepattern2spring4785910611timepattern412summer7131481516timepattern591718autumn10192011timepattern121winter1222图4-4患病时间模式Fig.4-4timepattern时间模式2(图4-4中橙色表示)表示该模式为春季。很明显该时间模式下呼吸道疾病发病数急剧增加,如肺炎等。在春季,由于人们没有意识到温度和湿度的变化,致使呼吸道疾病的发病数目增加。根据不同季节发病数的统计数据,春季的发病次数占比例最高,为37%。因此,该时间模式有效解释了这一现象。时间模式3(图4-4中黄色表示)主要覆盖深冬这一季节。深冬季节导致心脑血管疾病的高发病率。我们利用脑溢血来说明该结论。另一个有意义的时间模式为夏天,图4-4中用绿色来表示,对应了某些高温下频发的疾病,如湿疹类疾病。同时,一些疾病如肝部肿瘤具有一些地域性的特征。在江苏地区和上海崇明地区,肝癌在夏天经常恶化,导致病人入院检查,这也间接地增加了相应疾病的医疗记录数目。38万方数据 上海交通大学硕士学位论文疾病关联分析表4-8不同时间模式下发病率示例Table.4-8diseaseincidenceindifferenttimepatternsP1P2P3P4P5阑尾炎0.00770.00050.00040.000270.0005瘘管炎0.000290.00350.00020.00170.0013脑溢血0.00710.00390.00480.00280.0020肝部肿瘤0.00120.00220.00270.00350.00184.4.3模型准确性判定在上文定性分析疾病种类模式和时间模式的基础上,这部分我们定量分析cLDA模型应用在疾病聚类方面的模型准确性。首先,我们引入信息论中熵的概念来表征不同时间模式中疾病发病率的差异程度。熵越小,混乱度越大,表示在不同时间模式下疾病的发病率差异越大。这里我们采用bit作为熵的基准单位。1𝑒𝑛𝑡𝑟𝑜𝑝𝑦(𝑏𝑖𝑡𝑠)=∑𝑖𝑝𝑖×𝑙𝑜𝑔2(4-2)𝑝𝑖∑𝑖𝑝𝑖=1(4-3)根据4-2,我们可以计算不同时间模式下发病率的熵。根据估计的模型参数,我们计算测试数据中不同类别的疾病在五个时间模式下的发病率。我们将计算得到的发病率进行归一化,用于计算熵。然后,我们将计算的熵按照升序排序,用做进一步讨论。表4-9中列举了按照升序排序的前十种疾病及其熵。在后文中我们将着重针对这些疾病进行说明。表4-9升序熵列表中前十种疾病的名称及其熵Table.4-9toptendiseasesinascendingentropy疾病名称升序熵急性阑尾炎1.0592瘘管炎1.1897闭经1.5291慢性肾炎1.6452前列腺癌1.7551肝癌1.7919脉管炎1.8023扁桃体发炎1.8256复合型溃疡1.8464脑出血1.9023这里我们用𝑟𝑎𝑛𝑘1表示根据cLDA模型计算的测试数据中疾病发病率的熵,用升序排列。同样地,我们分别统计训练数据和测试数据中相应疾病在各个时间模式下的发病数目,在进行归一化后,分别得到这些疾病在不同时间模式下发病39万方数据 上海交通大学硕士学位论文疾病关联分析率的升序熵,分别记为𝑟𝑎𝑛𝑘2和𝑟𝑎𝑛𝑘3。通过说明𝑟𝑎𝑛𝑘1和𝑟𝑎𝑛𝑘3之间的关联强于𝑟𝑎𝑛𝑘2和𝑟𝑎𝑛𝑘3之间的关联,我们可以证明cLDA模型应用在疾病聚类方面得到的疾病季节性发病率特征的准确性。此处我们采用斯皮尔曼相关系数衡量每个升序熵之间的关联强度。∑𝑖(𝑥𝑖−𝑥̅)(𝑦𝑖−𝑦�)𝜌(𝑥,𝑦)=(4-4)�∑𝑖(𝑥𝑖−𝑥̅)2∑𝑖(𝑦𝑖−𝑦�)24-4中给出了斯皮尔曼相关系数的计算方法。我们可以得到计算结果为𝜌(𝑟𝑎𝑛𝑘1,𝑟𝑎𝑛𝑘3)=0.6017>𝜌(𝑟𝑎𝑛𝑘2,𝑟𝑎𝑛𝑘3)=0.5574这个结果表示根据cLDA模型计算测试数据集的季节性发病率结果比训练数据统计特性本身更加接近于测试数据的季节性发病率统计结果。这样,我们就可以验证cLDA模型应用在疾病聚类方面可以准确得到疾病的季节性发病率特性。4.4.4医学文献结果对比为了进一步说明实验结果具有一定的医学意义,我们在医学论文索引PubMed上查找了一些医学知识作为实验结果的对比。表4-9中列举的疾病在季节发病率[24]特性方面与医学文献中基本一致。例如MansoorKhan关于急性阑尾炎的统计结果和cLDA的计算结果一致。MansoorKhan统计了连续十五年急性阑尾炎在四季[58]的发病率。统计结果显示,急性阑尾炎在秋季发病率最高。Alebiosu根据流行病学理论,证明了慢性肾炎在一月份的统计发病率最高。这和cLDA模型得出的在时间模式3(用黄色表示)下发病率最高的结论是一致的。对于疾病闭经,[59]Boczek-Leszczyk和cLDA的结论一致,表明闭经在夏天的发病率最高。我们同[60]样查询到一些肝部肿瘤的发病率信息。YoshioUeno在论文中提到,在中国江苏省海门市,由于微囊藻类的滋生,当地的男性患有肝部肿瘤的人数很多。调查结果显示该地区男性在夏季病情恶化明显,因此就医次数显著增加。其余的季节发病率特性明显的如骨折、脉管炎、扁桃体炎、复合性溃疡在文献中的记录也都和本文的结果一致。4.4.5cLDA准确性对比对比实验中,我们选择只考虑疾病种类的LDA模型对疾病进行聚类。为保证对比实验结果的合理性,LDA实验的实验假设与cLDA保持一致,即𝛼=1,𝛽=0.1。由于cLDA引入时间维度并且时间以一年为周期,在该实验部分,我们以年为基本单位分配训练数据和测试数据,保证cLDA和LDA的可对比性。40万方数据 上海交通大学硕士学位论文疾病关联分析我们利用计算预测困惑度(prediction-perplexity)的方式,比较cLDA和LDA应用在疾病聚类方面准确性的优劣。对于cLDA,我们会计算在某一时间模式下某种疾病的患病概率。对于LDA模型,由于不存在时间维度,我们只计算病人群体在将来患该疾病的概率,不考虑时间。假设测试的病人数目为𝑀𝑡𝑒𝑠𝑡,我们给出cLDA和LDA计算perplexity的方式如下所示:𝑀𝑡𝑒𝑠𝑡∑𝑚=1𝑙𝑜𝑔𝑝�𝑑𝑚,𝑁𝑚��𝒅⎯⎯⎯⎯⎯⎯⎯⎯⎯�,�𝒕𝒎⎯⎯,⎯𝟏⎯:⎯𝑵⎯�𝒎,𝟏:𝑵𝒎−𝟏𝒎𝑝𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑐𝐿𝐷𝐴)=exp{−}(4-5)𝑀𝑡𝑒𝑠𝑡𝑀𝑡𝑒𝑠𝑡∑𝑚=1𝑙𝑜𝑔𝑝�𝑑𝑚,𝑁𝑚��𝒅⎯⎯⎯⎯⎯⎯⎯⎯⎯�𝒎,𝟏:𝑵𝒎−𝟏𝑝𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝐿𝐷𝐴)=exp{−}(4-6)𝑀𝑡𝑒𝑠𝑡1200LDA-2yearstrainingcLDA-2yearstraining1150LDA-3yearstrainingcLDA-3yearstraining11001050predict-perplexity1000950900101520253035404550topicnumber图4-5cLDA和LDAperplexity对比Fig.4-5cLDAperplexitycontrastwithLDAPerplexity值越小,表示对应模型的准确性越高。我们在实验中依次选择𝐾=20,30,40,50的情况。为了更好地体现对比性,我们依次利用50%的数据(两年数据)和75%的数据(三年数据)作为训练数据,进行cLDA和LDA模型的参数估计。实验结果如图4-5所示。可以看出,在整体情况下,cLDA在准确性上表现优于LDA。随着疾病模式数目的增加,两种模型的perplexity都有所减少,证明41万方数据 上海交通大学硕士学位论文疾病关联分析了疾病种类模式的细分可以有效提高某种疾病的模式定位,提高准确度。另一方面,在增加训练数据时,由于时间的周期性更加充分,我们可以看出cLDA的准确性稍有提高。4.5本章小结本章主要介绍了cLDA应用在疾病聚类方面的工作,应用cLDA模型对电子医疗记录中的疾病进行聚类。cLDA是耦合的LDA模型,不仅关注患病的种类,同样考虑患病时间。本章从三方面对实验结果进行说明。首先,文中说明了疾病种类的聚类结果具有医学可解释性。其次,时间模式和季节分布具有一致性。通过计算不同时间模式下疾病发病率的熵,我们有效证明了cLDA模型应用在疾病聚类方面可以得到准确的季节性发病率特征。最后,通过和传统LDA模型实验结果的对比,我们证明了cLDA的准确性高于LDA。42万方数据 上海交通大学硕士学位论文疾病趋势预测第五章疾病趋势预测对于疾病趋势预测,目前的研究多数利用马尔科夫过程描述病人的患病轨迹。而本课题中我们考虑到病人的发病与其全部病史有关,不只局限于上一个患病状态,因此提出的模型可以更加准确地描述病人的患病轨迹。这一章节的结构如下所示。在5.1中概述KLIPI多维Hawkes模型。5.2中会详细介绍提出的KLIPI多维Hawkes模型,包括引入体质因子的概念和高斯核函数估计的方式,介绍模型中各个不同参数的意义。在5.3中主要阐述本章节中实验的数据统计特性。5.4中结合实验结果,我们将给出该模型的分析结果。在5.5中我们将对比不同模型的实验结果并在5.6中做出整个章节的总结。5.1KLIPI多维Hawkes模型概述本章着重改进的是从医学的角度为疾病的发展过程建模,并且以医学的观点解释模型的实际意义。同时,这样的模型也可以促进基础医学的发展和疾病防治,并且可以使人们对疾病有更加深入透彻的理解。但是根据查阅的资料,目前以医学观点解释的相关工作寥寥无几。基于这些不足,我们提出了可以描述疾病发展过程并且显示多种疾病之间关系的模型,利用真实的电子医疗数据进行实验。每个记录如前文所述,包含病人的标识、性别、年龄、就医时间和所患疾病名称。所有的疾病名称已用ICD9进行编码表示,这里我们给出一份样例的数据列举在表5-1中。表5-1电子医疗记录样例Table.5-1exampleoftheEHRdataID性别年龄就医时间疾病编号808210女592009.1.1I25.101526855女512009.1.1J06.903765972男612009.1.2E14.901这份电子医疗数据记录某个病人一次入院的就医记录。我们根据该病人的ID将记录重新排布,这样就得到同一个病人的所有医疗记录,即为一个患病的时间序列。可以推断这些疾病的时间序列中包含潜在的疾病发展过程的信息。例如某个病人在不同的时间点患有两种疾病,而且相同的疾病共存情形发生在一定数量的其他病人身上时,那么我们认为在这两种疾病之间存在某种关联关系。根据时间序列挖掘疾病之间的潜在关系可以达到预测效果。我们假设有三方面原因导致43万方数据 上海交通大学硕士学位论文疾病趋势预测一个病人会患上一种疾病,分别用模型的三方面的参数来描述,分别为疾病的自然发病率,个人的体质以及过去所患的疾病。基于上述这些情形与假设,我们在这一章节将介绍提出的带有个人体质因子和核函数估计的多维Hawkes模型,即KLIPI多维Hawkes模型。根据这个模型的参数,我们描述了潜在的疾病发展过程。KLIPI多维Hawkes模型描述了基础的事件发生强度和相互之间激发的强度,依次对应了医学中疾病的自然发病率以及个体的既往病史对当前患病的触发机制。KLIPI多维Hawkes模型是一个通用的模型,因此在模型的建立过程中我们并没有考虑诸如基因、环境等因素。为了使模型可以更加准确地描述疾病发展过程,我们采用高斯核函数估计学习模型的核函数。5.2KLIPI多维Hawkes原理及框架5.2.1模型描述考虑到一个病人过去所患的疾病可能对将来所患疾病产生影响,因此我们采用了多维Hawkes模型。这里需要指出的是,我们仅考虑不同个体自身疾病的影响,将不会考虑环境、传染病等一系列因素。而且,按照常识,不同的人群对于不同的疾病表现出了程度分明的抵抗力,因此我们在传统的多维Hawkes模型的基础上引入了个体体质因子这个概念。同时,许多已有的基于多维Hawkes模型的工作均采用预设核函数和𝛽的方式,为了更好的拟合模型,我们同样引入了高斯核密度估计的方式来学习核函数。这部分中我们将详细描述改进的KLIPI多维Hawkes模型。5.2.2个体体质因子众所周之,个体体质的差异将引起其对疾病的抵抗能力产生差异。对应于Hawkes模型,病人体质的强弱将影响其条件强度函数。而体质在很长一段时间内是不会改变的,因此在本节中引入常量𝑏𝑐,其中c=1,2,…,n来表征病人体质的强弱。𝑏𝑐称为体质指标因子,在后文中简记为IPI。𝑏𝑐的引入将改变条件强度。对于不同的个体来说,引入𝑏𝑐后条件强度的计算将发生变化。KLIPI模型的基本条件强度的形式如下所示。𝑏𝑐越大表示条件函数值越大,意味着该个体将比𝑏𝑐更小的个体更加容易患病。𝑐𝑐𝜆𝑢(𝑡)=𝑏𝑐�𝜇𝜇+∑𝑖:𝑡𝑖<𝑡𝑎𝑢𝑐𝑢𝑖𝑐𝛾(𝑡−𝑡𝑖)�(5-1)44万方数据 上海交通大学硕士学位论文疾病趋势预测结合2.2.2.3中提到的多维Hawkes模型中各参数的意义,此处给出在KLIPI模型中各个参数的具体意义:u(u=1,…,U)代表KLIPI模型中的维度,对应于模型中某种具体的疾病,如糖尿病(diabetes)。𝑐𝑐𝜆𝑢(𝑡)表示第u个事件中样本𝑐的条件强度。在KLIPI模型中𝜆𝑢(𝑡)表示在某一𝑐时刻𝑡病人𝑐的患病强度,也就是意味着𝜆𝑢(𝑡)越大,在某一时刻𝑡病人𝑐的患病𝑐风险越大。通过计算𝜆𝑢(𝑡)的值,我们可以得到在某一时刻𝑡病人𝑐患第u种疾病的相对患病风险。𝜇𝑢表示基础条件强度,同样称作第u维的自然强度。在KLIPI模型中,𝜇𝑢代表疾病u的自然发病率。𝑎𝑢𝑢代表第𝑢𝑖维事件对第u维事件的影响强度系数。在我们提出的模型中对应𝑖第𝑢𝑖种疾病和第u种疾病之间的相互影响特性。这也就意味着𝑎𝑢𝑢𝑖越大第𝑢𝑖种疾病和第u种疾病之间的关联性越大。可以解释为当病人患有第u种疾病时,他在过去患有第𝑢𝑖种疾病的可能性很大或者当病人有第𝑢𝑖种疾病的病史时,将来有可能患第u种疾病。𝛾(𝑡)表示疾病之间相互影响强度随时间变化的衰减函数。在KLIPI多维Hawkes模型中,一种疾病对其他疾病的影响随着时间强度衰减。𝑏𝑐如上文所述代表个人体质因子(IPI)。𝑏𝑐越大,相应地表示对疾病的抵抗力越差。KLIPI多维Hawkes模型的图形化描述如图5-1所示。图5-1(a)表示某个病人真实的疾病时间链,其中a,b,c,d,e代表真实疾病。通过对观察的疾病时间链进行建模,图5-1(b)揭示了每种疾病之间内在的关联。图中的箭头则表示KLIPI模型中的𝑎𝑢𝑢𝑖,每个圆圈表示了自然发病率𝜇𝑢,圆圈的面积表示每种疾病的自然发病率的大小。45万方数据 上海交通大学硕士学位论文疾病趋势预测Diseaseabcachain1cbdDiseasechain2eaDiseasechain3(a)Diseasechainbaced(b)Underlyingnetwork图5-1KLIPI模型图示Fig.5-1graphicalexplanationofKLIPImodel5.2.3核函数学习已有的基于多维Hawkes模型的工作中,核函数多强制设定为负指数函数𝛾(𝑡)。𝛾(𝑡)=𝛽exp(−𝛽𝑡)(5-2)在实际的疾病模型中,一些实际的疾病可能不会如负指数函数的形式产生对其他疾病的影响。因此我们采用了无参数化的核函数学习的方式来实现衰减核函数的学习过程。首先应该指出的是,参数化核函数估计的方式有一个明显的缺陷,即选定的概率密度函数可能是实际数据分布的一个近似的描述,从而导致预测的准确性效果欠佳。这里我们简要地介绍高斯核密度估计。在该估计方法中,我们假设核函数是高斯分布的。假设训练数据样本表示为𝐴={𝑥1,𝑥2,…,𝑥𝑁},这样我们就可以得到估计的高斯核函数表示如下:1𝑁1‖𝑥−𝑥𝑛‖2𝑓(𝑥)=𝑁∑𝑛=1(2𝜋ℎ2)1/2exp(−2ℎ2)(5-3)这里ℎ是一个预设的参数。参数ℎ是一个具有平滑作用的参数。因此针对数据中的噪声问题,选择ℎ需要折中考虑。如果ℎ过小,则发生欠拟合,使得核函数对[20]噪声过于敏感;如果ℎ过大,则会使核函数过度平滑。因此在参数ℎ的选择上需要适度,这方面在实验过程中有所体现,关于参数ℎ将在实验过程中提到。46万方数据 上海交通大学硕士学位论文疾病趋势预测5.2.4KLIPI模型参数估计本节主要介绍KLIPI模型的参数估计过程。假设数据中共有m条疾病记录的时间链,这m条时间链是按照时间顺序排列的,表示为{𝑐1,𝑐2,…,𝑐𝑚},每条时间链的长度记为𝑛。我们将每条患病记录的时间链表示为{(𝑡𝑐,𝑛𝑐)}𝑛𝑐。估计参数的𝑐𝑖𝑖𝑖=1推导过程中涉及的符号详见表5-2。表5-2KLIPI模型的符号含义Table.5-2notationsinKLIPIestimation符号符号描述𝑐病人𝑐的时间链𝑛𝑐时间链𝑐的长度u第u种疾病𝜇𝑢第u种疾病的自然发病率𝑇𝑐时间链𝑐的时间长度𝑐(𝑡)病人𝑐患第u种疾病的强度𝜆𝑢𝑎𝑢𝑖𝑢𝑗第𝑢𝑗种疾病对第𝑢𝑖种疾病的影响强度𝛾(.)不同疾病之间影响的衰减函数我们利用极大似然法(MLE)估计KLIPI模型的参数。此处我们给出待优化似然函数的表达式,其中待估计的参数记为Θ={𝑨,𝝁,𝑏𝑐}。𝑛𝑐𝑐𝑐𝑈𝑛𝑐𝑙(Θ)=∑𝑐(∑𝑖log(𝜆𝑢𝑐(𝑡𝑖))+𝑛𝑐𝑙𝑜𝑔𝑏𝑐−𝑏𝑐(𝑇𝑐∑𝑢𝜇𝑢+∑𝑢=1∑𝑗=1𝑎𝑢𝑢𝑐Γ�𝑇𝑐−𝑡𝑗𝑐�))(5-4)𝑖𝑗𝑡其中Γ(𝑡)=∫𝛾(𝑠)𝑑𝑠.0观察5-4中似然函数的形式,我们发现该优化问题的维数和研究的疾病数目相同,属于高维优化问题。考虑到MM算法(最小最大算法)常用于高维问题的优[23]化,在这个优化问题中我们采用MM算法最大化似然函数。MM算法优化问题的方式分为两步。1).最小化过程,找到似然函数的某一个下界。2).最大化过程,最大化这个下界。首先,对于MM算法的最小化过程,根据Jensen不等式,我们计算似然函数5-4的下限如下所示:𝑛𝑐𝑐𝑐𝑙(Θ)=���log(𝑢𝑢𝑐+�𝑎𝑢𝑐𝑢𝑐𝛾�𝑡𝑖−𝑡𝑗�)𝑖𝑖𝑗𝑐𝑖𝑗:𝑡𝑐<𝑡𝑐𝑗𝑖𝑈𝑛𝑐−(𝑇𝑐�𝜇𝑢+��𝑎𝑢𝑢𝑗𝑐Γ�𝑇𝑐−𝑡𝑗𝑐�)�𝑢𝑢=1𝑗=147万方数据 上海交通大学硕士学位论文疾病趋势预测𝑛2𝑖−1𝑐𝑐𝜇𝑐𝑎𝑢𝑐𝑢𝑐𝛾�𝑡𝑖−𝑡𝑗�𝑐𝑢𝑖𝑐𝑖𝑗≥���(𝑝𝑖𝑖𝑙𝑜𝑔𝑐+�𝑝𝑖𝑗𝑙𝑜𝑔𝑐)�𝑝𝑖𝑖𝑝𝑖𝑗𝑐𝑖𝑗=1𝑈𝑛𝑐−�(𝑇𝑐�𝜇𝑢+��𝑎𝑢𝑢𝑗𝑐Γ�𝑇𝑐−𝑡𝑗𝑐�)𝑐𝑢𝑢=1𝑗=1=𝒬(Θ|Θ(𝑘))(5-5)其中(𝑘−1)𝑐𝑐𝑎𝑢𝑐𝑢𝑐𝛾�𝑡𝑖−𝑡𝑗�𝑐𝑖𝑗𝑝𝑖𝑗=(𝑘−1)𝑖−1(𝑘−1)𝑐𝑐,𝑗=1,…,𝑖−1𝜇𝑢𝑐+∑𝑗=1𝑎𝑢𝑐𝑢𝑐𝛾�𝑡𝑖−𝑡𝑗�𝑖𝑖𝑗(𝑘−1)𝜇𝑐𝑝𝑐=𝑢𝑖(5-6)𝑖𝑖𝜇(𝑘−1)+∑𝑖−1𝑎(𝑘−1)𝛾�𝑡𝑐−𝑡𝑐�𝑢𝑐𝑗=1𝑢𝑐𝑢𝑐𝑖𝑗𝑖𝑖𝑗我们用𝒬(Θ|Θ(𝑘))表示5-4中似然函数的下界值。第二步,对于MM算法中的最大化过程,我们最大化下界𝒬(Θ|Θ(𝑘)),这样就得到了每轮迭代后的下界值。我们可以通过直接计算偏微分的方式得到最大化𝒬(Θ|Θ(𝑘))的参数估计值。𝜕(𝒬(Θ|Θ(𝑘)))=0(5-7)𝜕𝜇𝑢𝜕(𝒬(Θ|Θ(𝑘)))2=0(5-8)𝜕𝑎𝑢𝑢′𝜕(𝒬(Θ|Θ(𝑘)))=0(5-9)𝜕𝑏2𝑐当似然函数的值不再变化或变化比例小于预先设定的阈值时,我们认为迭代过程达到收敛,即得到模型的最优化参数估计。每轮迭代的结果如下:∑∑𝑐𝑝𝑐(𝑘)𝑐𝑖:𝑖≤𝑛𝑐,𝑢𝑖=𝑢𝑖𝑖(𝑘−1)𝜇𝑢=�(𝑘−1)𝜇𝑢(5-10)∑𝑐𝑏𝑐𝑇𝑐∑∑𝑐∑𝑐𝑝𝑐(𝑘)𝑐𝑖:𝑢𝑖=𝑢𝑗:𝑗<𝑖,𝑢𝑗=𝑢′𝑖𝑖(𝑘−1)𝑎𝑢𝑢′=�∑∑𝑏(𝑘−1)(𝐺�𝑇𝑐�−𝐺(0))𝑎𝑢𝑢′(5-11)𝑐𝑖:𝑢𝑐=𝑢′𝑐𝑐−𝑡𝑗𝑗(𝑘)𝑛𝑐(𝑘−1)𝑏𝑐=�𝑇(𝑘−1)+∑∑𝑛𝑐𝑎(𝑘−1)𝑐�−𝐺(0))𝑏𝑐(5-12)𝑐∑𝑢𝜇𝑢𝑗=1𝑢𝑢𝑐(𝐺�𝑇𝑐−𝑡𝑗𝑗5.3实验数据描述本章实验采用的数据依然来自上海市长宁区卫生信息中心。针对不同模型的48万方数据 上海交通大学硕士学位论文疾病趋势预测实验,我们对数据进行不同方式的预处理。值得指出的是,如果一条记录中含有多个疾病记录,则按照多条记录处理。在这部分实验中,共包含1034816个病人,时间范围为2009年1月到2013年12月,共涉及5401种疾病。我们根据每种疾病的发病数目统计数据,选取数目排在前125位的疾病作为研究对象,每种疾病的统计数目和图示4-2中相同。每个病人的就医次数统计如图5-2所示,其中x轴表示病人的入院次数,y轴表示对应入院次数的病人数目。和cLDA实验中预处理的数据特性相同,多数病人集中于十次左右的就医次数。35003000250020001500numberofpatients1000500001002003004005006007008009001000numberofmedicalvisits图5-2病人就诊次数统计Fig.5-2medicalvisits5.4实验结果分析这一部分中,我们利用上文所述的电子医疗数据进行实验。首先我们会解释模型的收敛性,其次我们会依次分析模型中不同参数的意义,并且与传统的多维Hawkes模型与Markov模型的结果对比分析得出结论。5.4.1模型收敛性这一部分我们说明KLIPI模型的收敛性。我们采用MM算法最大化似然函数。49万方数据 上海交通大学硕士学位论文疾病趋势预测这里我们假设当连续两次迭代过程中似然函数值的增加比例小于阈值0.02%时,我们认为似然函数的值已达到稳定,即算法达到收敛。在图5-3中显示了迭代过程中似然函数值的变化过程。当迭代的次数不断增加时,似然函数的值单调递增,当收敛条件达到时,迭代过程自动终止。7x10-6.15-6.2-6.25-6.3-6.35-6.4valueoflog-likelihood-6.45-6.5-6.55-6.605101520253035404550iterationround图5-3KLIPI模型收敛性的说明Fig.5-3KLIPImodelconvergence5.4.2案例研究在这部分中,我们主要关注结果矩阵𝑨。根据之前的讨论,𝑨描述了两种疾病之间相互影响的强度,如果系数的值越大则表示两种疾病之间的关联越大。这样也就可以解释当某个病人已患有某种疾病时,若两种疾病的关联强度很大,则表示该病人在将来患其他疾病的风险将会很大。为了更好地说明结果,我们计算矩阵𝑨中元素的平均值并且选择一些远大于平均值的元素进行说明。在案例研究中我们将定性地说明结果。我们将选择一些从医学角度很明显的关联关系以作定性说明。相关关系如表5-3所示。50万方数据 上海交通大学硕士学位论文疾病趋势预测表5-3疾病关联示例Table.5-3diseasecorrelationexamples先前疾病后续疾病高血压糖尿病白内障结膜炎I型高血压冠状动脉疾病乙型肝炎高血压心脑血管疾病高血脂症尿毒症II型高血压良性高血压良性高血压为了更加清晰地说明结果,我们将分三方面说明关联结果矩阵𝑨。首先,我们可以获得一些医学上非常直接的关联,例如高血压和糖尿病等,这些关联和我们的常识也是相一致的。这些直接的关联关系可以有效解释一些发生在病人身上的疾病共存的现象。第二点,我们可以得到一些间接的疾病关联。以乙型肝炎和高血压为例,就医学理论而言乙型肝炎的病人经常伴随有胰岛素分泌混乱的症状,而这无疑会增加病人患糖尿病的可能性。因此我们可以推断在乙型肝炎和糖尿病之间有一种间接的关联。第三点,以良性高血压为例,一些𝑨的元素表示一些疾病的自激发特性,表示病人相应疾病的恶化情况。5.4.3个人体质因子说明根据前文所述,我们引入𝑏𝑐表示个体的体质因子,当𝑏𝑐越小表示该个体有更加好的体质,对疾病的抵抗能力更强。假设病人的体质和五年内的就医次数是相关的。我们认为这个假设是合理并且具有可解释性的。如果某个人的体质相对较差,那么他将容易被不同种类的疾病影响从而导致同期更多的医院就医次数。因此,在同一段时间内某个病人的就医次数可以从某种程度上反映该病人的体质。换句话说,为了说明我们引入的参数𝑏𝑐具有实际意义,我们需要证明参数𝑏𝑐和病人的就医次数呈现正相关。应该指出的是,𝑏𝑐和就医次数在数量级上是无法比较的,因此我们和第四章一样引入Spearman相关系数计算参数𝑏𝑐和就医次数的关联,从而证明了参数𝑏𝑐具有预测个体体质的准确性。根据实验结果我们计算得出相关系数为0.9013,这表示参数𝑏𝑐和个体体质之间具有强相关的关系。这里我们使用最小二乘法分析100个病人的就医次数。参数𝑏𝑐的排序和就医次数的回归曲线如图5-4所示。51万方数据 上海交通大学硕士学位论文疾病趋势预测120rankofrealvisitsregressionline100c8060rankofphysiqueb402000102030405060708090100rankofmedicalvisits图5-4体质因子𝑏𝑐和就医次数的关联Fig.5-4correlationbetweenphysique𝑏𝑐andmedicalvisits5.4.4疾病自然发病率说明在前文中我们已经说明参数𝜇𝑢表示疾病的自然发病率,并且和我们数据集中相应疾病的统计发病数目呈现正相关。通过统计数据集中每种疾病的发病次数,并且进行归一化,我们即可得到代表每种疾病自然发病率的统计数据。参数𝜇𝑢同样需要进行归一化。之后我们采用Pearson相关系数计算参数𝜇𝑢和统计自然发病率的关联,计算结果为0.9579,表示强相关关系。因此可以证明我们对𝜇𝑢表示自然发病率的结论的准确性。和5.4.3中相同的方式,我们利用最小二乘法,用图5-5表示二者的关联。其中x轴表示疾病的自然发病率,y轴表示归一化后的参数𝜇𝑢。52万方数据 上海交通大学硕士学位论文疾病趋势预测0.09realdata0.08regressionline0.070.060.050.04predictedfrequency0.030.020.01000.010.020.030.040.050.060.070.08statisticalfrequency图5-5参数𝜇𝑢和自然发病率的关联Fig.5-5correlationbetweendiseaseincidenceand𝜇𝑢5.4.5核函数学习我们利用高斯核函数密度估计学习核函数。核函数的形式描述了随时间变化的触发机制。如果某种疾病在某时刻对另一种疾病具有十分显著的触发作用,那么我们认为疾病之间的转移概率很大。在数据集中,许多病人在时间段的开始阶段患有某种疾病,在一段时间间隔后患有另一种疾病。我们根据在时间间隔𝑡内有疾病转移的病人数目进行核函数的估计。在实验中我们将最小的时间间隔设定为一天。两种不同疾病之间的间隔时间用天数来表示。通过统计,疾病之间转移的最大时间间隔为1822天。这样,在核函数估计中,时间间隔范围为0到1822.根据时间间隔的具体分布,我们将标准差ℎ设定为10。估计的核函数和实际时间间隔数据的分布如图5-6所示。其中x轴表示时间轴,y轴表示疾病之间转移的强度。通过图示我们可以看出估计的核函数和实际数据的模式一致。核函数学习结果可以表示转移强度随时间的变化趋势。53万方数据 上海交通大学硕士学位论文疾病趋势预测-3x105timeintervalfrequency4.5estimatedkernel43.532.52transferintensity1.510.50020040060080010001200140016001800timeinterval图5-6高斯核函数密度估计Fig.5-6Gaussiankernelestimation5.5对比实验在这一节中,我们将比较提出的KLIPI多维Hawkes模型和传统Hawkes模型应用在相同训练数据中的准确性,并分析结果。实验结果表明我们提出的模型预测疾病趋势的准确性高于普通Hawkes模型。然后我们将比较提出的模型和Markov模型在预测疾病发病率方面的准确性。在这个过程中,为了保证实验的结果准确性和全面性,我们将变换训练数据的比例作为对比。同时,为了保证选择训练数据的客观性,我们进行了交叉验证,分别选取总数据集的50%,60%,70%和80%分别作为每次实验的训练数据,对应的剩余数据分别作为测试数据以验证模型在预测疾病发病率方面的准确率。在表5-4中我们给出了医疗记录数据集作为训练数据和测试数据的分配情况。54万方数据 上海交通大学硕士学位论文疾病趋势预测表5-4训练数据和测试数据分配Table.5-4allocationofthetrainingandtestdata分配比例训练数据集测试数据集50%6502753693522060%7657573578040070%8969991446798280%103091663128807模型预测疾病发病率的方法如下所示。(a).根据训练数据学习模型参数,这一步我们得到模型的参数Θ。(b).根据模型参数计算每种疾病在测试时间点的条件强度。这一步我们获得预测疾病的相对发病率强度。(c).计算模型预测疾病的相对发病率和测试数据中相应疾病统计发病率之间的Pearson相关系数。根据这一步我们获得模型的预测准确性。5.5.1体质因子这一节我们对比是否具有体质因子𝑏𝑐的模型预测准确性的优劣。为了保证对比实验的客观性,我们将其他的可变条件固定,选取核函数为负指数衰减函数。我们分别设定𝛽=0.005,𝛽=0.05,𝛽=0.5。同时,按照上文所述,分别选取训练数据比例为50%,60%,70%,80%。是否具有体质因子𝑏𝑐的模型预测准确性的对比结果如图5-7所示。如图5-7所示,三个子图中(𝛽=0.005,𝛽=0.05,𝛽=0.5)白色柱状图表示没有体质因子𝑏𝑐的模型预测准确度,蓝色的柱状图对应具有体质因子𝑏𝑐的模型预测结果。很明显具有𝑏𝑐的模型预测结果高于无体质因子模型。我们可以看出,当𝛽=0.005时,预测准确性的提高最明显。因此我们可以得出结论,通过引入体质因子𝑏𝑐,模型在预测疾病发病率方面更准确。55万方数据 上海交通大学硕士学位论文疾病趋势预测111modelwithoutIPImodelwithoutIPImodelwithoutIPImodelwithIPImodelwithIPImodelwithIPI0.980.980.980.960.960.960.940.940.940.920.920.920.90.90.90.880.880.88predictionaccuracypredictionaccuracypredictionaccuracy0.860.860.860.840.840.840.820.820.820.80.80.850%60%70%80%50%60%70%80%50%60%70%80%trainingpercenttrainingpercenttrainingpercent图5-7体质因子𝑏𝑐对预测准确性的提高Fig.5-7effectofphysiqueonpredictionaccuracy5.5.2核函数学习这一节我们证明引入核函数学习比固定核函数为负指数函数在模型的预测准确性方面表现更好。我们在对比实验中均考虑了体质因子。对于固定核函数的实验,我们将核函数依然设定为负指数函数并且依然预设𝛽=0.005,𝛽=0.05,𝛽=0.5。和前述对比实验相同,我们将按照四种方式对数据集进行分配得到模型的预测准确性,结果列举在图5-8中。111modelwithfixedβ=0.005modelwithfixedβ=0.05modelwithfixedβ=0.50.98modelwithlearnedkernel0.98modelwithlearnedkernel0.98modelwithlearnedkernel0.960.960.960.940.940.940.920.920.920.90.90.90.880.880.88predictionaccuracypredictionaccuracypredictionaccuracy0.860.860.860.840.840.840.820.820.820.80.80.850%60%70%80%50%60%70%80%50%60%70%80%trainingpercenttrainingpercenttrainingpercent图5-8核函数学习对预测准确性的提高Fig.5-8effectofkernellearningonpredictionaccuracy56万方数据 上海交通大学硕士学位论文疾病趋势预测三个子图按照𝛽=0.005,𝛽=0.05,𝛽=0.5排序。白色柱状图代表固定核函数的预测准确性,蓝色柱状图代表按照高斯核函数学习的方式得到的模型预测准确性。按照我们的核函数学习方式,预测结果显著提高。具有核函数学习的模型在大部分情况下预测的准确性高于固定核函数的方式。唯一的特例为𝛽=0.005同时训练数据比例为50%时的情形。我们认为这是由于算法的随机性造成的。根据结果所示,随着训练数据的比例增加,具有核函数学习的模型预测准确性增加。当训练数据集足够大时,预测准确性保持稳定。但固定核函数的模型在训练数据比例增加时预测准确性呈现下降趋势。这表明固定核函数的模型更加容易受到数据集中噪音的影响。也就是说当测试数据集很小时,预测结果的准确性很容易受到测试数据中的噪音影响而降低准确度。相反的,我们的模型受噪音的影响不大。因此从这个方面来讲,学习核函数的方式可以有效降低数据中噪音的影响,提高模型的预测准确性。1modelwithfixedkernelβ=0.0050.99modelwithfixedkernelβ=0.05modelwithfixedkernelβ=0.50.98modelwithgaussianlearnedkernel0.970.960.950.94predictionaccuracy0.930.920.910.90.50.550.60.650.70.750.8trainingpercent图5-9不同比例训练数据的预测准确性对比Fig.5-9predictionaccuracywithdifferenttrainingpercent57万方数据 上海交通大学硕士学位论文疾病趋势预测5.5.3模型准确性对比这一节中我们比较KLIPI多维Hawkes模型和一阶Markov模型的预测准确性。一阶马尔可夫模型在时序预测中应用广泛,并且经常应用在疾病预测和疾病关联关系的探索方面。比较一阶Markov的结果如图5-10所示。图5-10中白色柱状图代表Markov模型的预测准确性,蓝色柱状图代表KLIPI多维Hawkes模型。很显然我们的方法比Markov的预测准确性更高。我们将根据不同比例的训练数据得到的预测结果列举在图5-11中。图5-11显示了当训练数据集比较小时,一阶Markov模型的预测准确性相对更低。当训练数据集变大时,意味着测试数据变小,Markov模型的预测准确度更高一些。这表明Markov模型不适用于预测长时间链的情况。然而相反的是,无论训练数据的比例和时间链的长短,我们提出的KLIPI多维Hawkes模型在预测准确度方面十分平均。从这个方面看,我们提出的方法可以克服一阶Markov模型在预测长时间链方面的不足。1Markovmodel0.98KLIPIHawkesmodel0.960.940.920.90.88predictionaccuracy0.860.840.820.850%60%70%80%trainingpercent图5-10KLIPI和Markov预测准确性对比Fig.5-10KLIPIcontrastwithMarkov58万方数据 上海交通大学硕士学位论文疾病趋势预测1HawkeslearnedkernelmodelMarkovmodel0.980.960.94predictionaccuracy0.920.90.880.50.550.60.650.70.750.8trainingpercent图5-11预测准确性和训练数据比例的关系Fig.5-11predictionaccuracywithdifferenttrainingpercent5.6本章小结本章主要研究疾病趋势预测,提出了KLIPI多维Hawkes模型描述病人的患病轨迹。KLIPI是基于核函数学习的多维Hawkes模型,并且加入了反映病人体质的体质因子。根据KLIPI模型的实验结果,我们可以得到疾病的自然发病率,也可以获得病史中所有疾病对于将来可能患病的触发机制。通过实验结果,我们证明了引入个人体质因子和高斯核函数学习均可以提高模型的预测准确性。同时,通过对比Markov模型的预测结果,我们证明了当时间链较长时,KLIPI模型的预测准确性更高。59万方数据 上海交通大学硕士学位论文全文总结全文总结本章将对我们的主要工作和贡献进行总结,根据三个主要章节分别进行阐述。本文主要工作病人相似性度量的章节主要研究基于准则学习的病人相似性度量。本章提出了Pairwise算法。该算法选择真实医疗记录作为训练数据,学习得到相似度准则。Pairwise算法选择半监督学习,采用比较两对病人相似度大小的方式标记数据,准确性良好。本章通过对比实验证明了Pairwise算法在判定病人相似度的准确性方面以及合并病人群体的准确性提升幅度方面均优于LSML算法。疾病关联分析的章节首先总结了当前的研究工作,应用cLDA模型对电子医疗记录中的疾病进行聚类。cLDA是耦合的LDA模型,不仅关注患病的种类,同样考虑患病时间。本章从三方面对实验结果进行说明。首先,文中说明了疾病种类的聚类结果具有医学可解释性。其次,时间模式和季节分布具有一致性。通过计算不同时间模式下疾病发病率的熵,我们有效证明了cLDA模型应用在疾病聚类方面可以得到准确的季节性发病率特征。最后,通过和传统LDA模型实验结果的对比,我们证明了cLDA的准确性高于LDA。疾病趋势预测的章节中提出了KLIPI多维Hawkes模型描述病人的患病轨迹。KLIPI是基于核函数学习的多维Hawkes模型,并且加入了反映病人体质的体质因子。根据KLIPI模型的实验结果,我们可以得到疾病的自然发病率,也可以获得病史中所有疾病对于将来可能患病的触发机制。通过实验结果,我们证明了引入个人体质因子和高斯核函数学习均可以提高模型的预测准确性。同时,通过对比Markov模型的预测结果,我们证明了当时间链较长时,KLIPI模型的预测准确性更高。由于项目时间及作者水平有限,本文中还有许多需要改进和进一步研究的地方。对于本论文涉及的研究内容,希望大家能够提出宝贵的意见,谢谢。60万方数据 上海交通大学硕士学位论文附录A附录APairwise算法检验指标列表特征编号检验指标特征编号检验指标1全血还原粘度:高切60尿透明度2全血还原粘度:低切61颜色3红细胞刚性指数62尿糖GLU4甘油三酯63镜检白细胞5高密度脂蛋白胆固醇64镜检红细胞6低密度脂蛋白胆固醇65尿酮体KET7促甲状腺激素66镜检颗粒管型8三碘甲状腺原氨酸67尿白细胞LEU9甲状腺激素68镜检蜡样管型10血清尿酸69尿亚硝酸盐NIT11总胆固醇70粘液丝12高切指数71尿PH13血沉(肝素抗凝血)72尿蛋白PRO14血沉方程K值73其他15血沉最大沉降率74尿比重SG16血沉最大沉降率时间75镜检上皮细胞17钙测定76镜检透明管型18血清肌酐77尿胆原URO19红细胞压积78镜检细胞管型20血浆粘度79白细胞(镜检)21全血粘度切变率(5/S)80夏雷氏结晶22全血粘度切变率(30/S)81血液23全血粘度切变率(200/S)82性状24红细胞变形指数83颜色25全血粘度切变率(1/S)84脂肪滴26卡松粘度85滋养体27低切指数86红细胞(镜检)28红细胞聚集指数87其他29低密度脂蛋白胆固醇88不消化食物30高密度脂蛋白胆固醇89粘液31红细胞压积90巨噬细胞32白细胞91酵母菌33红细胞分布宽度CV92便隐血34红细胞93钩虫卵(镜检)35血小板94包囊36大型血小板比率95鞭虫卵(镜检)37血小板分布宽度96蛔虫卵(镜检)38中性粒细胞比率97卡松粘度39中性粒细胞数98低切相对指数61万方数据 上海交通大学硕士学位论文附录A40低密度脂蛋白胆固醇99碱性磷酸酶41中间细胞数100钾测定42平均血小板体积101钠测定43红细胞平均体积102氯测定44血红蛋白103丙氨酸氨基转移酶45淋巴细胞数104天门冬氨酸氨基转移酶46淋巴细胞比率105红细胞电泳指数47平均血红蛋白量106糖化血红蛋白48平均血红蛋白浓度107乙型肝炎病毒表面抗体49淋巴细胞数108乙型肝炎病毒e抗体50中值细胞数109乙型肝炎病毒表面抗原51红细胞110乙型肝炎病毒e抗原52C反应蛋白111乙型肝炎病毒核心抗体53大型血小板比率112γ-谷氨酰转肽酶54平均血小板体积113总蛋白55血小板分布宽度114白蛋白56红细胞分布宽度115葡萄糖测定57尿微量白蛋白116收缩压58尿胆红素BIL117舒张压59尿隐血BLD62万方数据 上海交通大学硕士学位论文附录B附录BKLIPI多维Hawkes模型研究125种疾病名称列表疾病编号疾病名称疾病编号疾病名称1冠心病64脑血管供血不足2糖尿病65结肠炎3良性高血压66幽门螺旋杆菌感染4高血压II67皮肤感染5高血压68带状疱疹6胃炎69耳鸣7上呼吸道感染70甲状腺结节8脑梗塞71过敏性皮炎9支气管炎72高血压I10咽炎73肠炎11高脂血症74肝损害12失眠75肠功能紊乱13腰痛76残冠14皮炎77肺部感染15类风湿性关节炎78脑动脉硬化16结膜炎79胃肠炎17感冒80急性咽炎18牙病81过敏性鼻炎(变应性鼻炎)19脑动脉供血不足82胸痛20骨关节病83颈椎退行性变21呼吸道感染84慢性支气管炎急性发作22骨质疏松85膝关节病23白内障86肢体疼痛24关节痛87颈痛25慢性支气管炎88甲状腺机能减退26眩晕89支气管哮喘27气管炎90胃溃疡28咳嗽91尿毒症29脑梗塞后遗症92甲状腺机能亢进30慢性胃炎93中耳炎31乏力94外耳道炎32腹痛95荨麻疹33关节炎96HBV34宫颈炎性疾病97颈椎骨质增生35头晕和眩晕98腹泻36脂肪肝99慢性咽炎37胆囊炎100脑坏死38肾功能不全101血尿39关节病102肝炎63万方数据 上海交通大学硕士学位论文附录B40湿疹103脑血管病41心律失常104支原体感染42鼻炎105根尖牙周炎43感染106原发性高血压44牙周炎107扁桃体炎45心悸108浮肿46消化不良109淋巴结炎47冠状动脉狭窄110手外伤48胸闷111肩关节周围炎49肺炎112结膜干燥症50头痛113下肢感染51脑梗死114急性支气管炎52足癣115其他神经症性障碍53软组织损伤116强直性脊柱炎54帕金森病117胃肠功能紊乱55牙髓炎118腰肌劳损56蛋白尿119龋(齿)57混合痔120口腔粘膜溃疡58腰椎间盘脱出121椎基底动脉供血不足59哮喘122骨质增生60慢性肾功能不全123慢性乙型肝炎61痛风124肾结石62心脏病125银屑病63龈炎64万方数据 上海交通大学硕士学位论文参考文献参考文献[1]Jensen,P.B.,Jensen,L.J.&Brunak,S.Miningelectronichealthrecords:towardsbetterresearchapplicationsandclinicalcare.Nat.Rev.Genet.13,395–405(2012).[2]Holmes,A.B.etal.Discoveringdiseaseassociationsbyintegratingelectronicclinicaldataandmedicalliterature.PLoSONE6,e21132(2011).[3]Roque,F.S.etal.UsingelectronicPairwisetientrecordstodiscoverdiseasecorrelationsandstratifyPairwisetientcohorts.PLoSComput.Biol.7,e1002141(2011).[4]Hanauer,D.,Rhodes,D.R.&Chinnaiyan,A.M.Exploringclinicalassociationsusing“-omics”basedenrichmentanalyses.PLoSONE4,e5203(2009).[5]Chen,L.L.,Blumm,N.,Christakis,N.A,Barabsi,A.-L.&Deisboeck,T.S.CancermetastasisnetworksandthepredictionofprogressionPairwisetterns.Br.J.Cancer101,749–758(2009).[6]CaoH,MarkatouM,MeltonGB,ChiangMF,HripcsakG(2005)Miningaclinicaldatawarehousetodiscoverdisease-findingassociationsusingco-occurrencestatistics.AMIAAnnuSympProc106–110.[7]Delen,D.,Walker,G.&Kadam,A.Predictingbreastcancersurvivability:acomPairwiserisonofthreedataminingmethods.Artif.Intell.Med.34,113–127(2005).[8]Ohlsson,M.,Peterson,C.&Dictor,M.UsinghiddenMarkovmodelstocharacterizediseasetrajectories.Proc.NeuralNetworksandExpertSystemsinMedicineandHealthcareConference2001,324–326(2001).[9]SudhaandS.DiseasePredictioninDataMiningTechnique–ASurvey.IJCAIT,2(1):17–21,2013.[10]Pairwisettekari,A.Shadab,andA.Pairwiserveen.PredictionSystemForHeartDiseaseUsingNaiveBayes.InternationalJournalofAdvancedComputerandMathematicalSciencesISSN,Pairwiseges2230–9624.[11]RobertA.F.deLindvanWijngaarden,HypothesesontheEtiologyofAntineutrophilCytoplasmicAutoantibody–AssociatedVasculitis:TheCauseIsHidden,buttheResultIsKnown,CJASNJanuary2008vol.3no.1237-252.[12]J.R.BeckandS.G.Pairwiseuker.Themarkovprocessinmedicalprognosis.MedDecisMaking,3(4):419–458,1983.[13]R.O.Duda,P.E.Hart,andD.H.Stork.PairwisetternClassification(2nded.).WileyInterscience,2000.[14]K.Q.WeinbergerandL.K.Saul.Distancemetriclearningforlargemargin65万方数据 上海交通大学硕士学位论文参考文献nearestneighborclassification.TheJournalofMachineLearningResearch,10:207–244,2009.[15]J.Goldberger,S.Roweis,G.Hinton,andR.Salakhutdinov.Neighbourhoodcomponentanalysis.InAdvancesinNeuralInformationProcessingSystems17,Pairwiseges513–520,2005.[16]SunJ,WangF,HuJ,etal.SupervisedPairwisetientsimilaritymeasureofheterogeneousPairwisetientrecords[J].ACMSIGKDDExplorationsNewsletter,2012,14(1):16-24.[17]Davis,J.V.,Kulis,B.,Jain,P.,Sra,S.,Dhillon,I.S.:Informationtheoreticmetriclearning.In:ICML(2007).[18]Guillaumin,M.Verbeek,J.Schmid,:Isthatyou?Metriclearningapproachesforfaceidentification.In:ICCV(2009).[19]Blei,D.M.,Ng,A.Y.,&Jordan,M.I.(2003).Latentdirichletallocation.theJournalofmachineLearningresearch,3,993-1022.[20]ZhaoY,QiX,LiuZ,et.al.MiningMedicalRecordswithaKLIPIMulti-DimensionalHawkesModel[J].HI-KDD,2014.[21]ShentalN,Bar-HillelA,HertzT,etal.ComputingGaussianmixturemodelswithEMusingequivalenceconstraints[J].Advancesinneuralinformationprocessingsystems,2004,16(8):465-472.[22]PorteousI,NewmanD,IhlerA,etal.Fastcollapsedgibbssamplingforlatentdirichletallocation[C]//Proceedingsofthe14thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2008:569-577.[23]HunterDR,LangeK.AtutorialonMMalgorithms[J].TheAmericanStatistician,2004,58(1):30-37.[24]Kwang-IlGoh,MichaelE.Cusick,DavidValle,BartonChilds,MarcVidal,andAlbert-LaszloBarabasi.Thehumandiseasenetwork.PNAS,104(21):8685–8690,2007.[25]LawrenceR.Rabiner.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition.ProceedingsoftheIEEE,77(2):257–286,1989.[26]MarcA.Suchard,RobertE.Weiss,andJanetS.Sinsheimer.Bayesianselectionofcontinuoustimemarkovchainevolutionarymodels.MolecularBiologyandEvolution,32(6):1001–1013,2001.[27]J.Leiva-Murillo,A.A.Rodrguez,andE.Baca-Garca,Visualizationandpredictionofdiseaseinteractionswithcontinuoustimehiddenmarkovmodels,2011.[28]BRADBUM,C.(1993)FLORENCE:synthesisofcase-basedandmodel-basereasoninginnursingcareplanningsystem,ComputersinNursing11,20–24.66万方数据 上海交通大学硕士学位论文参考文献[29]Wang,X.,Hripcsak,G.,Markatou,M.&Friedman,C.Activecomputerizedpharmacovigilanceusingnaturallanguageprocessing,statistics,andelectronichealthrecords:afeasibilitystudy.J.Am.Med.Inform.Assoc.16,328–337(2009).[30]Prokosch,H.-U.&Ganslandt,T.Perspectivesformedicalinformatics.Reusingtheelectronicmedicalrecordforclinicalresearch.MethodsInf.Med.1,38–44(2009).[31]Kulis,B.,Sustik,M.,&Dhillon,I.(2006,June).Learninglow-rankkernelmatrices.InProceedingsofthe23rdinternationalconferenceonMachinelearning(pp.505-512).ACM.[32]Censor,Y.,&Zenios,S.(1997).Paralleloptimization.OxfordUniversityPress.[33]Tsuda,K.,R¨atsch,G.,&Warmuth,M.(2005).MatrixexponentiatedgradientupdatesforonlinelearningandBregmanprojection.JournalofMachineLearningResearch,6,995–1018.[34]Bregman,L.(1967).Therelaxationmethodoffindingthecommonpointofconvexsetsanditsapplicationtothesolutionofproblemsinconvexprogramming.USSRComp.MathematicsandMathematicalPhysics,7,200–217.[35]James,W.,&Stein,C.(1961).Estimationwithquadraticloss.InProc.fourthberkeleysymposiumonmathematicalstatisticsandprobability,vol.1,361–379.Univ.ofCaliforniaPress.[36]JaspersMW,KnaupP,SchmidtD(2006)ThecomputerizedPairwisetientrecord:wheredowestand?YearbMedInform29–39.[37]HäyrinenK,SarantoK,NykänenP(2008)Definition,structure,content,useandimPairwisectsofelectronichealthrecords:areviewoftheresearchliterature.IntJMedInform77:291–304.doi:10.1016/j.ijmedinf.2007.09.001.[38]SutherlandJM,HammJ,HatcherJ(2009)AdjustingcasemixPairwiseymentamountsforinaccuratelyreportedcomorbiditydata.HealthCareManagSci13:65–73.doi:10.1007/s10729-009-9112-0.[39]PratherJC,LobachDF,GoodwinLK,HalesJW,HageML,etal.(1997)Medicaldatamining:knowledgediscoveryinaclinicaldatawarehouse.ProcAMIAAnnuFallSymp101–105.[40]MullinsIM,SiadatyMS,LymanJ,ScullyK,GarrettCT,etal.(2006)Dataminingandclinicaldatarepositories:Insightsfroma667,000Pairwisetientdataset.ComputBiolMed36:1351–1377.doi:10.1016/j.compbiomed.2005.08.003.[41]YangJ,LoganJ(2006)AdataminingandsurveystudyondiseasesassociatedwithPairwiseraesophagealhernia.AMIAAnnuSympProc829–833.[42]X.WangandA.McCallum.Topicsovertime:anon-markovcontinuoustimemodeloftopicaltrends.InProceedingsofthe12thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,KDD06,Pairwiseges424–433.67万方数据 上海交通大学硕士学位论文参考文献ACM,2006.[43]ArnoldLD,BachmannGA,RosenR,KellyS,RhoadsGG(2006)Vulvodynia:characteristicsandassociationswithcomorbiditiesandqualityoflife.ObstetGynecol107:617–624.doi:10.1097/01.AOG.0000199951.26822.27.[44]GohKI,CusickME,ValleD,ChildsB,VidalM,etal.(2007)Thehumandiseasenetwork.ProcNatlAcadSciUSA104:8685–8690.[45]GuptaAK,PairwiselLS,”Seasonalbehaviourofhealedduodenalulcer.”JIndianMedAssoc.1998Apr;96(4):106-8.[46]Hunter,D.R,andK.Lange.Atutorialonmmalgorithms.TheAmericanStatistician,56(1):30–37.[47]MitchellandC.E.Semi-MarkovMulti-stateModelingofHumanPairwisepillomavirus.PhDthesis,THEUNIVERSITYOFNORTHCAROLINAATCHAPELHILL,USA,MAY2012.[48]J.M.Leiva-Murillo.VisualizationandPredictionofDiseaseInteractionswithContinuous-timeHiddenMarkovModels.[49]H.O.Geman.Pairwiserkinson’sdiseasepredictionbasedonmultistatemarkovmodels.INTJCOMPUTCOMMUN,8(4):525–537,2013.[50]YoshioUeno,”Detectionofmicrocystins,ablue-greenalgalhePairwisetotoxin,indrinkingwatersampledinHaimenandFusui,endemicareasofprimarylivercancerinChina,byhighlysensitiveimmunoassay”,Carcinogenesisvol.17no.6pp.1317-1321,1996.[51]J.G.Rasmussen.Temporalpointprocesses:theconditionalintensityfunction.2009.[52]COlutayoAlebiosu,OlugbengaOAyodele,AdigunAbbas,andAInaOlutoyin,“ChronicrenalfailureattheOlabisiOnabanjouniversityteachinghospital,Sagamu,Nigeria”,AfrHealthSci.2006September;6(3):132–138.[53]Y.Wei,K.Zhou,Y.Zhang,andH.Zha.Learningthehotnessofinformationdiffusionswithmulti-dimensionalhawkesprocesses.AgentsandDataMiningInteraction,Pairwiseges92–110,2014.[54]K.Zhou,H.Zha,andL.Song.LearningsocialinfectivityinsPairwiserselow-ranknetworksusingmulti-dimensionalhawkesprocesses.InProceedingsoftheSixteenthInternationalConferenceonArtificialIntelligenceandStatistics,Pairwiseges641–649,2013.[55]K.Zhou,H.Zha,andL.Song.Learningtriggeringkernelsformulti-dimensionalhawkesprocesses.Proceedingsofthe30thInternationalConferenceonMachine68万方数据 上海交通大学硕士学位论文参考文献Learning(ICML-13),Pairwiseges1301–1309,2013.[56]StefanoPairwisessero,“DifferingTemporalPairwisetternsofOnsetinSubgroupsofPairwisetientsWithIntracerebralHemorrhage”2000;31:1538-1544doi:10.1161/01.STR.31.7.1538.[57]Degroot,V.,Beckerman,H.,Lankhorst,G.&Bouter,L.Howtomeasurecomorbidity.Acriticalreviewofavailablemethods.J.Clin.Epidemiol.56,221–229(2003).[58]ChenW,ZhangY,ZhaH.MiningIPTVUserBehaviorswithaCoupledLDAModel[J].[59]Boczek-LeszczykE,JuszczakM,”Theinfluenceofmelatoninonhumanreproduction”,PolMerkurLekarski.2007Aug;23(134):128-30.[60]Kurt,I.,Ture,M.&Kurum,A.T.ComPairwiseringperformancesoflogisticregression,classificationandregressiontree,andneuralnetworksforpredictingcoronaryarterydisease.ExpertSyst.Appl.34,366–374(2008).[61]Rosenbloom,S.T.etal.Datafromclinicalnotes:aperspectiveonthetensionbetweenstructureandflexibledocumentation.J.Am.Med.Inform.Assoc.8,181–186(2011).[62]ZhaoK,LiuW,LiuJ.Optimalsemi-supervisedmetriclearningforimageretrieval[C]Proceedingsofthe20thACMinternationalconferenceonMultimedia.ACM,2012:893-896.[63]Baghshah,MahdiehSoleymani,andSaeedBagheriShouraki.Semi-SupervisedMetricLearningUsingPairwiseirwiseConstraints.IJCAI.Vol.9.2009.[64]Wang,Q.,Zuo,W.,Zhang,L.,&Li,P.(2014).ShrinkageExPairwisensionAdaptiveMetricLearning.InComputerVision–ECCV2014(pp.456-471).SpringerInternationalPublishing.[65]Wagstaff,K.,Cardie,C.,Rogers,S.,&Schrödl,S.(2001,June).Constrainedk-meansclusteringwithbackgroundknowledge.InICML(Vol.1,pp.577-584).[66]MansoorKhan,ShaziaNaz,MohammadZarin,Rooh-ul-Muqim,MuhammadSalman,EpidemiologicalobservationsonappendicitisinPeshawar,PairwisekJSurg2012;28(1):30-33.[67]BUCHANAN,B.G.andE.H.SHORTLIFFE(eds)(1984)Case-BasedExpertSystems:TheMYCINExperimentsoftheStanfordHeuristic,ProgrammingProject,NewYork:Addison-Wesley.69万方数据 上海交通大学硕士学位论文致谢致谢感谢副导师张老师在实验过程中的耐心指导,每次遇到问题和张老师交流都会有很多解决的方案,张老师的指导让我一步一步进行下去,让我少走了很多弯路,能够更快更有效地找到问题的解决方法,大大提高了工作效率。同时张老师在科研和生活的很多方面给予我很大的信任和帮助,使我受益良多。感谢导师孙老师在论文写作过程中给予的充分指导。孙老师对一些段落的修改意见帮助我更好地完善论文。感谢长宁区卫生中心老师提供数据,这为论文提供了保障。感谢实验室齐晓娟的讨论,在实验中遇到过很多问题,相互之间的讨论可以更快地找到问题,寻找解决问题的方法。感谢实验室提供了电脑和服务器,让我在实验中能够更高效的处理大规模的数据。感谢在这个过程中一直陪伴我的朋友,当自己遇到困难时,他们的鼓励是我前进的动力。70万方数据 上海交通大学硕士学位论文发表论文情况攻读硕士学位期间发表学术论文情况1.ZhaoY,QiX,LiuZ,MiningMedicalRecordswithaKLIPIMulti-DimensionalHawkesModel.HI-KDD,2014.2.丁正彦,瞿辉,赵毅男,功率放大器非线性特性及预失真建模研究.数学的实践与认识,2014,14:007.71万方数据 万方数据 万方数据 万方数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭