基于智能计算的HBV病毒再激活分类预测模型研究

基于智能计算的HBV病毒再激活分类预测模型研究

ID:76165795

大小:1.58 MB

页数:75页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于智能计算的HBV病毒再激活分类预测模型研究_第1页
基于智能计算的HBV病毒再激活分类预测模型研究_第2页
基于智能计算的HBV病毒再激活分类预测模型研究_第3页
基于智能计算的HBV病毒再激活分类预测模型研究_第4页
基于智能计算的HBV病毒再激活分类预测模型研究_第5页
基于智能计算的HBV病毒再激活分类预测模型研究_第6页
基于智能计算的HBV病毒再激活分类预测模型研究_第7页
基于智能计算的HBV病毒再激活分类预测模型研究_第8页
基于智能计算的HBV病毒再激活分类预测模型研究_第9页
基于智能计算的HBV病毒再激活分类预测模型研究_第10页
资源描述:

《基于智能计算的HBV病毒再激活分类预测模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

10431分类号:TP391单位代码:密级:学号:1043114332濟硕士学位论文基于智能计算的HBV病毒再激活分类预测模型研究作者姓名吴冠朋专业计算机应用技术所在学院信息学院指导教师姓名刘毅慧专业技术职务教授2017年05月25日 分类号:TP391单位代码:10431密级:学号:1043114332硕士学位论文基于智能计算的HBV病毒再激活分类预测模型研究作者姓名吴冠朋专业计算机应用技术所在学院信息学院指导教师姓名刘毅慧专业技术职务教授2017年05月25日 AThesisSubmittedfortheApplicationoftheMaster’sDegreeofScienceStudyontheClassificationPrognosisModelofHBVReactivationBasedonIntelligentComputingCandidate:WuGuanpengSpecialty:ComputerApplicationTechnologySupervisor:ProfessorLiuYihuiQiluUniversityofTechnology,Jinan,ChinaMay,2017 齐鲁工业大学硕士学位论文目录摘要............................................................................................................IABSTRACT...................................................................................................I第一章绪论.................................................................................................11.1引言...................................................................................................................11.2研究背景和现状...............................................................................................11.3课题研究目的和意义.......................................................................................31.4本文的主要工作和创新点...............................................................................31.5本文的组织结构...............................................................................................5第二章基于遗传算法的危险因素特征选择.............................................72.1遗传算法概述...................................................................................................72.2遗传算法的基本思想和原理...........................................................................72.3遗传算法在数据处理上的应用.....................................................................122.4基于遗传算法的肝癌放疗致HBV再激活危险因素特征选择...................132.4.1基因的编码与解码..............................................................................132.4.2适应度函数的选择..............................................................................132.4.3选择策略..............................................................................................142.4.4交叉策略..............................................................................................142.4.5变异策略..............................................................................................152.4.6种群规模和特征子集规模..................................................................152.4.7终止条件..............................................................................................162.5基于遗传算法的肝癌放疗致HBV再激活特征选择实验结果和分析.......162.6本章小结.........................................................................................................24第三章基于BP和RBF神经网络的HBV再激活分类预测模型.......273.1人工神经网络简介.........................................................................................273.2BP神经网络.....................................................................................................271 目录3.2.1BP神经网络的结构和学习规则..........................................................273.2.2BP神经网络的应用..............................................................................303.3RBF神经网络..................................................................................................303.3.1RBF神经网络结构和学习过程...........................................................303.3.2RBF神经网络的应用...........................................................................323.4k折交叉验证和分类性能评估........................................................................323.5基于BP和RBF神经网络的HBV再激活分类预测模型...........................333.6本章小结..........................................................................................................43第四章基于CART算法的HBV再激活分类预测模型........................454.1CART算法简介...............................................................................................454.2构建CART决策树.........................................................................................464.3CART决策树的剪枝.......................................................................................474.4CART算法的应用...........................................................................................484.5基于CART算法的HBV再激活分类预测模型...........................................484.6本章小结..........................................................................................................55第五章结论与工作展望...........................................................................575.1结论..................................................................................................................575.2工作展望..........................................................................................................58参考文献.....................................................................................................59致谢.........................................................................................................65在学期间主要科研成果.............................................................................67一、发表学术论文.................................................................................................67二、获奖情况.........................................................................................................67三、参与科研项目.................................................................................................672 齐鲁工业大学硕士学位论文摘要原发性肝癌(PrimaryLiverCarcinoma,PLC)患者经精确放疗后易致使乙肝病毒(HepatitisBVirus,HBV)发生再激活。目前,原发性肝癌患者精确放疗后乙肝病毒再激活的危险因素有待研究,智能预测模型也亟需建立。本文提出了基于智能计算的HBV病毒再激活分类预测模型研究。对90例原发性肝癌患者精确放疗的临床数据集进行研究,难以直接找出HBV再激活的危险因素和建立分类能力优秀的HBV再激活预测模型。因此我们先采用特征选择算法选择出HBV再激活的危险因素集,然后再建立HBV再激活分类预测模型,这也是本文的重点。本文采用两种思路建立HBV再激活分类预测模型,第一种思路是采用遗传算法从原发性肝癌初始临床数据集中找出HBV再激活的危险因素特征子集,然后建立基于BP和RBF神经网络的HBV再激活分类预测模型。第二种思路是使用CART算法建立HBV再激活分类预测模型。实验结果显示,在BP和RBF神经网络预测模型中,遗传算法选择“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”和“Child-Pugh”的分类预测性能最优,分类正确性分别为82.21%和83.31%,相比初始数据集的分类正确性提高10%和11.1%,且RBF预测模型的分类性能较优于BP。CART算法从初始数据集中选择危险因素构建CART树的结点,选择“HBVDNA水平”、“外放边界”、“放疗总剂量”、“V20”和“KPS评分”时CART的分类性能最好,正确性达到88.51%。CART充分展示了危险因素结点之间的关系,更利于临床医生的理解。本文提出的HBV病毒再激活分类预测模型对于原发性肝癌患者进行指导放疗具有重要意义。关键词:HBV再激活;危险因素;遗传算法;神经网络;CART算法I 齐鲁工业大学硕士学位论文ABSTRACTPrimarylivercarcinomapatientsafterpreciseradiotherapyiseasilyleadtoHBVreactivation.Currently,theriskfactorsforHBVreactivationafterpreciseradiotherapyinprimarylivercarcinomapatientsneedtobestudied,andintelligentprognosismodelalsoneedstobeestablished.WeproposedtheresearchonclassificationprognosismodelofHBVvirusreactivationbasedonintelligentcomputinginthispaper.Theclinicaldatasetof90primarylivercarcinomapatientsafterpreciseradiotherapywasstudied.ItisdifficulttodirectlyidentifytheriskfactorsforHBVreactivationandtoestablishclassificationprognosismodelofHBVreactivationwithexcellentclassificationability.Therefore,weusethefeatureselectionalgorithmtoselecttheriskfactorssetforHBVreactivation,andthenestablishtheHBVreactivationclassificationprognosismodel.Thisisalsothefocusofthisarticle.WeadopttwokindsofideastoestablishclassificationprognosismodelofHBVreactivationinthispaper.ThefirstideaistousegeneticalgorithmtofindouttheriskfactorsofHBVreactivationfrominitialclinicaldatasetofprimarylivercarcinoma,andthentoestablishclassificationprognosismodelofHBVreactivationbasedonBPandRBFneuralnetworks.ThesecondideaisuseCARTalgorithmtoestablishHBVreactivationclassificationprognosismodel.Theexperimentalresultsshowedthatgeneticalgorithmselects"HBVDNAlevel","outermargionofradiotherapy","tumorstagingTNM","KPSscore"and"Child-Pugh"havethebestclassificationprognosisperformanceinBPandRBFneuralnetworksprognosismodels,theaccuracyis82.21%and83.31%especially.Theclassificationaccuracyimproved10%and11.1%thantheinitialdataset.TheclassificationperformanceofRBFprognosismodelisbetterthanBP.TheCARTalgorithmselectstheriskfactorstoconstructthenodesoftheCARTtreefromtheinitialdataset.CARThasthebestclassificationperformancewhenselecting"HBVDNAlevel","outermargionofradiotherapy","Totaldoseofradiotherapy","V20"and"KPSscore".Theaccuracyis88.51%.CARTfullydemonstratedtherelationshipbetweentheriskfactorsofnodes,moreconducivetotheunderstandingforclinicians.TheproposedclassificationprognosismodelofHBVreactivationisgreatsignificanceinguidingradiotherapyforprimarylivercarcinomapatients.KeyWords:HBVReactivation;Riskfactors;GeneticAlgorithm;Neuralnetworks;CARTAlgorithmI 齐鲁工业大学硕士学位论文第一章绪论1.1引言我国是肝癌发病率较高的国家之一,尤其肝癌死亡率高居我国所有癌症死亡[1,2]率第2位。原发性肝癌(PrimaryLiverCarcinoma,PLC)是肝癌中的恶性肿瘤之一,其死亡率达到25%左右。传统上早期的原发性肝癌患者若是肿瘤局限于肝脏[3]某一部位,且患者心肺能力较强,最好的办法是采取切除手术。但因为大半患者受乙型肝炎病毒(HepatitisBVirus,HBV)感染,或者是既往感染等原因,不宜采用切除手术。肝脏是一个具有可修复损伤达到再生的器官,近年来精确放疗为切除为时已晚的原发性肝癌患者提供了一种新的治疗路径,例如采用三维适性放疗(Three-dimensionalconformalradiotherapy,3D-CRT)和强调放疗(Intensity[4]modulatedradiotherapy,IMRT)等精确放疗方法来治疗原发性肝癌。[5-6]肝癌治疗过程中即使采取抗病毒药物也易发生HBV再激活,因此原发性肝癌患者经精确放疗后不可轻忽HBV再激活,而HBV再激活后引起的原发性肝[7-8]癌患者死亡率较高。如何采用计算机智能算法有效的选择出HBV再激活的危险因素和建立HBV再激活智能预测模型,对防治精确放疗后导致的HBV再激活和提高原发性肝癌患者的生活质量,乃至延长生命周期具有重要意义。目前,对于报道PLC患者经精确放疗后导致HBV再激活的高危因素较少,且医学研究者常采用统计分析软件对HBV再激活进行高危因素分析,鲜有将基于计算机智能计算的方法用在分析PLC患者经精确放疗后导致HBV再激活的危险因素上,而对于PLC患者经精确放疗后HBV再激活的智能分类预测模型也亟需建立。因此本文先进性提出基于智能计算的方法,先通过合适的智能算法找出PLC患者经精确放疗后HBV再激活的危险因素,然后再建立精准的HBV再激活分类预测模型。1.2研究背景和现状[9]吴晓安等人对经三维适性放疗的PLC患者进行研究,1例合并有乙型肝炎的肝硬化患者在放疗后的6个月后呈现肝功能损坏而死亡,乙肝HBVDNA量成倍增高,揣度HBVDNA复制再活动与PLC患者死亡有紧密联系。2007年,海[10]外学者Kim等人采纳单因素分析32例经三维适性放疗的PLC患者,未发现与[11]HBV再激活相关的危险因素。2011年,Jang等人对205例肝细胞肝癌患者进行研究,其中62例患者发生了HBV再激活,采用多变量方式确定HBVDNA水1 第一章绪论4[12]平>10拷贝/毫升是HBV再激活的独立危险因素。2012年,Kim等采用多变量方法分析110例已感染乙型肝炎病毒的恶性肿瘤患者,研究由于HBV再激活而导致的乙肝相关性肝炎和死亡率,研究呈现HBVDNA水平>2000UI/ml是导致[13]HBV再激活的危险因素。2013年,黄伟等人对山东省肿瘤医院收治的69例HBsAg阳性PLC肝癌患者进行回顾性研究,并分析其危险因素。临床数据包含年龄、HBVDNA水平和甲胎蛋白AFP等,采用Logistic和BinarysLogisitc向前逐步回归法阐明了基线血清HBVDNA水平是HBV再激活的唯一危险因素,发生HBV再激活的患者即便采用抗肿瘤药物仍然呈现预后不良,15例患者发生了相关性肝炎,其中有3例患者出现肝功能衰竭而导致的死亡,死亡率为20%(3/15),5例在放疗后HBVDNA水平或者ALT水平升高,揣度是因为慢性乙型肝炎病毒引起的,17例患者发生HBV再激活,HBV再激活率为24.6%。由于未将计量学[15]参数引入到实验当中,部分危险因素未被发现。2014年,黄伟等人又将PLC患者放疗中产生的放疗次数、剂量体积直方图(Dose-volumehistogram,DVH)等剂量参数等数据纳入实验当中,发现HBV再激活与HBVDNA水平、计量参数V20、[15]正常肝体积和放疗平均剂量因素有关。姚晖等采用Logistic方法分析PLC患者精确放疗后HBV病毒再激活的危险因素,判断HBVDNA水平是HBV再激活的[16]独立危险因素。2015年,张晶晶等研究56例接受3D-CRT治疗的PLC患者,发现HBV再激活和HBV未激活与Child-Pugh等级、HBVDNA水平具有统计学意义,并且3D-CRT放疗后结合抗病毒治疗能够降低HBV相关性肝炎发生率及[17]HBV再激活率。2016年,吴冠朋等将90例经精确放疗的PLC患者作为研究对象,采用Logistic回归分析方法,发现HBV再激活与HBVDNA水平、外放边界、肿瘤分期TNM有密切关系,并且建立了基于反向传输(BackPropagation,BP)神经网络的智能预测模型,分别对初始数据集和包含3个危险因素的特征集进行了HBV再激活分类预测,特征集正确性达78.89%,随后又建立了基于径向基(RadialBasisFunction,RBF)的HBV再激活分类预测模型,特征集的正确性达80%。[18]2016年,黄伟等对90例经精确放疗的PLC患者建立了Lyman-Kutcher-Burma(LKB)正常组织并发症(NormalTissueComplicationProbability,NTCP)预测模型,预测模型显示剂量参数V20与HBV再激活存在密[19]切联系,并且预测模型具有较强的鲁棒性。2016年,吴冠朋等采用遗传算法(GeneticAlgorithm,GA)的特征选择方法分析90例经精确放疗的PLC患者,遗传算法选择出致HBV再激活的危险因素特征子集,并建立了SVM和贝叶斯预测模型,尤其当危险因素特征子集包含HBVDNA水平、肿瘤分期TNM、Child-Pugh、外放边界和全肝最大剂量时分类性能达到最优,支持向量机的分类正确性为83.34%,贝叶斯的分类正确性为82.89%。2 齐鲁工业大学硕士学位论文1.3课题研究目的和意义基于前期研究成果和科研经验,本文的目的是分析PLC患者放疗后致使HBV再激活的危险因素,解决原发性肝癌放疗致HBV再激活预测模型的问题,为采用精确放疗的原发性肝癌患者提供指导化治疗方案,降低HBV再激活引发的生活质量下降乃至死亡。在放疗过程中产生多种类数据组成的数据集,数据集包含HBVDNA水平、甲胎蛋白AFP、放疗计划、大体肿瘤靶区(Grosstumorvolume,GTV)、正常肝体积、放射总剂量、VD(为超过一定剂量D的体积占正常肝体积的比值,如V5、V10、V15等)、超过某个剂量的绝对体积Dmean和NTCP等数据。选择合适的智能计算方法从这些数据集中去除冗余信息,找出致使HBV再激活的危险因素,进而建立基于智能计算的HBV再激活分类预测模型。本文研究的意义是通过预测模型的建立,对已发生HBV感染的PLC患者在进行精确放疗时进行HBV再激活预判,并指导患者进行个体化治疗,选择有效的抗病毒治疗药物和肝功能保护措施,从而达到抑制HBV再激活的效果,对提高患者的生存质量以及延长生存周期都具有实际意义。1.4本文的主要工作和创新点本文的主要工作涉及两个方面,一方面是致使HBV再激活危险因素的特征选择,即对初始数据集采用基于遗传算法和CART特征选择方法,找出HBV再激活的危险因素特征子集,达到减少冗余信息,降低数据集维度,发现新的危险因素,为建立精准的分类预测模型做准备。另一方面是对初始数据集和危险因素特征子集建立HBV再激活分类预测模型,并分析哪些危险因素建立的HBV再激活分类预测模型具有较好的分类性能,并比较不同HBV再激活分类预测模型之间的预测性能。本文的创新点是研究了基于遗传算法的PLC患者放疗致HBV再激活危险因素的特征选择和建立基于BP和RBF神经网络的HBV再激活分类预测模型,以及研究了基于CART算法的HBV再激活分类预测模型,解决了困扰医学人员的PLC患者精确放疗致HBV再激活预测模型的问题,采用了两种解决方案,并建立了3个HBV再激活预测模型,并对比了预测模型的分类性能。通过对PLC数据集进行特征选择,找出了多组致使HBV再激活的危险因素特征子集,其中发现一些如“KPS评分”、“甲胎蛋白AFP”、VD参数等之前未被发现的危险因素也会被特征选择算法选择出来,这对过少关注或未关注过这些危险因素的医学研究人员提供了参考价值。然后对初始数据集和危险因素特征子集建立了HBV再激活分类预测模型,并对HBV再激活预测模型进行分类性能预测,预测实验结果3 第一章绪论显示,危险因素特征子集的分类性能明显较优于初始数据集的分类性能,证明了特征选择的有效性和重要性。方案1:采用遗传算法对精确放疗后的PLC患者初始数据集进行特征选择,从初始数据集中找出了多组HBV再激活的危险因素特征子集,然后对初始数据集和危险因素特征子集建立基于BP和RBF神经网络的HBV再激活分类预测模型。遗传算法选择危险因素特征子集建立的BP和RBF神经网络预测模型具有良好的分类性能,证明遗传算法特征选择的有效性和预测模型的良好预测性能。并且实验显示危险因素特征子集的分类性能明显优于初始数据集的分类性能,相比初始数据集的分类性能,基于BP神经网络的HBV再激活预测模型的分类性能提高10%,基于RBF神经网络的HBV再激活预测模型的分类性能提高11%,并且RBF神经网络的分类预测准确度要高于BP。方案1的实验设计流程如图1.1所示。初始数据集基于BP和RBFHBV再激活分GA特征选择的HBV再激活类预测分类预测模型危险因素集图1.1方案1实验设计流程方案2:建立基于CART特征选择的HBV再激活分类预测模型。首先通过CART算法划分CART树,然后对所划分的CART树进行剪枝,CART树中的非叶子结点就是HBV再激活的危险因素,建立CART再激活分类预测模型,最后进行HBV再激活分类预测,CART算法建立的HBV再激活预测模型分类性能较好,当选取的危险因素相同时,CART算法的预测性能明显优于BP和RBF,而且CART算法还选择出了遗传算法中未出现过的特征子集。CART算法在选择特征结点时,“放疗总剂量”、“甲胎蛋白AFP”和一些VD(V20,V40等)被选择出来的可能性增加,即CART算法关注到了剂量体积参数等一些因素,这对过少关注或未关注过这些危险因素的医学研究人员提供了参考价值。CART算法的优势是将危险因素之间的关系清晰的展示出来,且得到多组易于医生理解的划分规则,方案2实验设计流程如图1.2所示。4 齐鲁工业大学硕士学位论文基于CARTCARTHBV再激活分初始数据集危险因素集的HBV再激特征选择类预测活预测模型图1.2方案2实验设计流程本文采用的两种解决方案找出了PLC患者经精确放疗后致使HBV再激活的危险因素集,并建立了3个HBV再激活分类预测模型,解决了原发性肝癌精确放疗致HBV再激活预测模型的问题,为HBV再激活分类预测提供了智能计算应用新思路。1.5本文的组织结构本文按照两种实验内容设计了清晰的章节结构,本文共分五章:第一章是绪论,主要内容有引言、研究背景和现状、课题研究目的和意义、主要工作和创新点。重点介绍了本文针对PLC患者精确放疗后HBV再激活危险因素问题的解决方法,并设计了详细的实验方案。第二章是遗传算法相关概念,主要包括遗传算法的概述、遗传算法的思想和基本原理、遗传算法在数据处理上的应用、基于遗传算法的肝癌放疗致HBV再激活特征选择以及实验结果和分析。重点介绍了本文中遗传算法中遗传操作以及参数的选择和设置,详细分析了本文中的实验结果。第三章是BP和RBF神经网络的相关概念,主要有神经网络的起源与发展、BP神经网络的结构和学习规则、BP神经网络的应用、RBF神经网络的结构和学习过程、RBF神经网络的应用、k折交叉验证和分类性能评估和基于BP和RBF神经网络的HBV再激活分类预测模型。介绍了BP和RBF神经网络在本文中的参数设定,重点分析了HBV再激活分类预测结果。第四章介绍了CART算法的相关概念,主要内容有CART树的构建、CART树的剪枝过程、CART的应用和基于CART算法的HBV再激活分类预测模型,重点介绍了CART算法对危险因素特征结点的选择和HBV再激活预测模型,并找出了多组易于医学人员理解的划分规则。第五章是对以上所有内容的总结,在研究过程中发现的问题以及未来工作的展望。5 齐鲁工业大学硕士学位论文6 齐鲁工业大学硕士学位论文第二章基于遗传算法的危险因素特征选择2.1遗传算法概述美国Michigan大学教授Holland与其所带学生J.D.Bagley在1975年创造了基于生物的进化过程和生物遗传结合的复杂自适应寻优算法——遗传算法(Genetic[20]Algorithm,GA)。将GA思想应用于自然和人工自适应系统的研究当中,撰写[21]了著作《AdaptationinNaturalandArtificialSystems》,随后实现了基于GA的分类器系统。随着科学家使用计算机模拟智能生命系统,研究人员在20世纪80年代召开了第一届GA国际会议(FirstInternationalConferenceonGeneticalgorithms),学者们对GA进行了理论与实践的交流。90年代GA的应用研究领域不断扩大,从初期的组合优化逐渐应用到工程优化中,GA逐渐发展的更加完善。1989年Goldberg[22]出版了《GeneticAlgorithmsinSearch,OptimizationandMachineLearning》,较[23]为系统的介绍了GA在寻优和机器学习当中的应用。1999年,Fonseca在第5[24]次GA国际会议上提出了多目标优化的GA。玄光男在GA解决约束优化目标与多目标优化问题上做出突出贡献,他撰写的书籍《遗传算法与工程优化》总结了GA在工业工程相关范围内的前沿发展,应用前沿包括可靠性设计问题、车间作业调度问题、物流运输优化问题和布局合理寻优等方面。GA具有高效的随机全局搜索与优化的特点,模仿了生物进化机制中染色体之间的复制、交叉和变异。学者基于不同的待解问题会设计出差别的GA基因表达方法,差别的复制、再生操作,差别的交叉和变异操作,因而产生了表达方法或者提法不同的GA,但都是为了解决自适应寻优搜索问题,以求得问题的最优解,这些算法都属于基本遗传算法(SimpleGeneticAlgorithm,SGA)。2.2遗传算法的基本思想和原理[25,26]GA的基本思想:将待解问题的每个可行解视为不同染色体,对每个可行解基因编码,可行解的优劣程度视为染色体的适应度,适应度作为下一代个体的选择标准,较优的可行解表明该染色体具有较强的生存竞争力或者适应力。GA首先从随机产生的初始种群中展开寻优搜索,选择适应度较优的可行解视作一组种群,然后对染色体进行基因选择、交叉和变异操作产生新的子代种群,新的子代种群会进化到搜索空间越来越好的区域,该过程重复至一定代数或者满足其它GA的停止要求,最后对收敛到最具适应环境的一代染色体采用解码操作,就得7 第二章基于遗传算法的危险因素特征选择到了待解问题的最优(近似)可行解。按照GA的基本思想,本文中将PLC数据集中可能致使HBV再激活的28个特征作为染色体,首先对每个染色体进行基因编码。设定一定数目的种群规模,然后选择满足适应度条件的初代染色体种群,然后通过选择、交叉和变异操作得到优化后的子代染色体种群,这样每代不断进化后得到最适应环境的染色体,我们将最后一代产生的染色体进行解码操作,得到的就是问题的最优可行解,即选择出影响HBV再激活的危险因素。基于GA基本思想的描述,GA运行的基本步骤已经明确,GA运行过程可以用下面的几个步骤来描述:第一步,编码初代种群:对可行解空间中的解数据选择合适的基因编码方式,对初代种群的每个个体(染色体)进行编码。设置初代种群规模以及随机选取一个初代种群P(0),GA对初代种群进行迭代,并分别设置契合的种群迭代次数计数器t,最大种群迭代次数T。第二步,适应度函数值的评估:适应度函数值评价个体或解的优劣性,对当代种群中的全部个体(染色体)进行适应能力值评估,比较当代种群中的个体是否满足与GA中的寻优条件,若满足则解码输出最优可行解,否则转向执行第三步。第三步,选择、交叉和变异操作:对照当代种群中每个个体的适应度大小,选择操作再生出子代个体,个体被选择的可能性与每个个体的适应度大小呈正相关性。根据编码方式选择出合适的交叉操作并设置一定的交叉概率以再生出子代个体。选择合适的变异操作并设置一定的变异概率,通常变异率是非常小的,一般在0.001~0.1范围内,进行变异操作以产生新的子代个体。GA的搜索能力主要通过选择和交叉操作赋予的,而变异操作可以确保GA能搜索到可行解区域内的每个点,保证了GA全局最优搜索能力。群体P(t)经过三种基本操作得到下一代群体P(t+1)。第四步,算法结束:对当代种群经重新进行适应能力评价,然后继续选择、交叉和变异操作,如此迭代下去,种群中个体的适应能力不断提高,直至个体的适应度值达到某个限值或者达到算法结束的某一条件(如达到最大规定迭代次数),算法终止。GA伪代码描述如下:ProcedureGAbegint=0;%种群代数initializeP(t);%初始化种群evaluateP(t);%评估检测P(t)的适应度值。whilenotfinisheddo%若不满足准则继续运行。8 齐鲁工业大学硕士学位论文begint=t+1;%种群迭代次数增加selectP(t+1)fromP(t)bygeneticoperator;%遗传操作选择子代reproducepairsinP(t);%重新组合P(t)evaluateP(t);%评估检测P(t)的适应度值endend从GA的基本步骤可以得到GA的基本运行框架,如图2.1所示。待解问题基因编码1.位串参数的设置初始种群P(0)2.计算目标函数值3.函数值映射到适应值计算适应度4.调节适应度值三种基本遗传操作遗传操作1.选择操作2.交叉操作种群P(t)3.变异操作否终止条件是得到待解问题最优可行解图2.1遗传算法基本运行框架GA涉及到基因编码,初始种群规模的大小以及种群选取,能适用于寻优的适应度函数,三种基本遗传操作和控制参数的设置。GA的基因编码,待解问题首先是从基因编码开始的,待解问题可行解的表现型可用染色体的基因型来表示,好的编码可以提高GA的寻优效率。待解问题的不同使得编码方式存在多种类型,但要满足两点要求:一是编码要符合待解问题的性质,二是便于机器运算。一般常见的编码类型有二进制编码、符号编码、9 第二章基于遗传算法的危险因素特征选择浮点数编码和格雷编码。二进制编码将待解问题的可行解空间映射到二进制空间上。二进制字符串用{0,1}表达种群中的个体,基因就是个体的每一位二进制上的字符。通常二进制编码的符号串长L与待解问题的精度有关,在变化范围[a,b]内的变量,编码精度为L(a-b)/(2-1)。二进制编码便于交叉和变异操作,且解码简单,具有一定的全局寻优搜索能力。符号编码是用代码符号表示该染色体基因串中的基因,往往采用英文字符表示,但需要根据符合问题可行解约束要求进行设计交叉和变异操作。浮点数编码使用浮点值[c,d]范围内某一个值作为代表基因位上的值,浮点数编码常与待解问题存在一定的相关性,浮点数编码适于求解精度较高的问题,适于在搜索空间较大的范围内寻优搜索,本文中采用的编码便是浮点数编码。格雷编码是相邻的两个整数所对应的基因位上的值仅有一位不同,剩余基因位上的值的完全一致。例如整数12的二进制编码为1100,13的二进制编码为1101;12,13对应的格雷编码分别为1010和1011。格雷编码提高了GA的局部寻优能力。初始种群规模的设定和初始种群选取对决实验结果与GA的效率具有重要影响,选择哪种初始种群的方式需要与待解问题想结合,即待解问题的定义域与可行解的约束条件和初始种群有关系。初始种群要尽量分散在可行解空间中,以保证染色体的取值比较均匀,这样可以保证GA具有较好的寻优搜索潜力。一些改进的GA就是为了保证个体之间存在一定的距离,使个体广泛的分布到可行解空间中,从而更好的获得全局最优解的可能性。合适的适应度函数对个体的存留相当重要,用它来检测可行性解是否优秀或者个体适应能力的强弱。性能较差的适应度函数往往会降低找到全局最优解的概率,一般我们会设定一个目标函数作为GA得到全局最优解的标准。[26]遗传操作规定了GA中的进化机制,其意义是使用遗传操作改变当代种群中的染色体。GA的遗传操作有选择、交叉和变异3种操作。选择操作又称为复制操作(ReproductionOperator),模拟类似于生物进化优胜劣汰原理,根据适应度函数值的大小,适应能力较差的个体很大程度上将会被淘汰。选择操作避免了丢失有利的遗传信息,提高全局寻优搜索能力,种群个体中的适应度值逐步接近最优可行解。坏的选择操作会导致进化局部收敛,误导种群的全局寻优搜索,导致收敛过早,失去遗传多样性。选择操作有很多种,其中常见的选择操作有轮盘赌选择(RouletteWheelSelection)、随机竞争选择(StochasticTournament)、随机联赛选择和最优保存策略等,本文的选择操作为轮盘赌选择。交叉操作(CrossoverOperator)又称为重组操作(RecombinationOperator),是GA模拟生物进化机制中交叉产生下一代种群的重要组成部分。交叉操作根据两10 齐鲁工业大学硕士学位论文个父代染色体上依照某种关系形成了相互配对,然后选择自身基因位上的部分基因与配对染色体基因位上的对位基因进行交叉重组,生成为两个新的子代个体的过程。交叉操作根据交叉点位置的不同和部分基因交换两个方面,将交叉操作分为单点交叉、两点交叉、多点交叉、均匀交叉和算术交叉等。单点交叉的原理是利用配对染色体中一个父代染色体在某交叉点右侧的基因位上的部分基因序列跟另外一个父代染色体在同样的交叉点位置左侧的基因位上的基因序列组合成一个新的子代染色体,而两个父代染色体剩下的基因位上的基因序列组合形成另一个新的子代染色体。两点交叉(Two-pointCrossover)是在染色体中存在两个交叉点,基因位上的部分基因在两个交叉点处进行交叉,其思想原理与单点交叉类似。多点交叉(Multi-pointCrossover)在染色体中存在多个交叉点,基因位上的部分基因在多个交叉点处进行交叉,一般建议不采用多点交叉,因为交叉点过多会破坏原有染色体的结构,难以保存优秀的染色体,降低GA的性能,致使问题的最优解无法找出或者找到的是不可行的解。均匀交叉也称为一致交叉(UniformCrossover),是指相互配对的染色体的基因位置上的基因按照某个概率进行基因的相互交换,以形成两个新的染色体。算术交叉(ArithmeticCrossover)由两个染色体进行线性组合而产生新的两个染色体,交叉过程中要确定两个线性组合时所用的系数,然后按照规定的公式生成新的染色体。GA的收敛性主要取决于交叉操作的收敛性,随着种群不断演化,交叉操作产生的后代的基因逐步独立,且后代一定会被搜索到,交叉操作扩大了群体分布。变异操作(MutationOperator)不同于交叉操作,是父代的染色体的基因位上部分基因发生了某种突变,而产生新的子代染色体,即产生新的基因。变异操作模仿生物遗传和进化机制中的基因突变,变异事件是小概率事件,具有随机性,避免了选择和交叉所丢失重要信息的问题,因此他决定了GA的局部寻优能力。变异操作的使用不但提高了算法的局部寻优能力,也维持了物种的多样性,避免了收敛过早的情况。GA中常用的变异操作有:均匀变异、非均匀变异和高斯变异。均匀变异(UniformMutation)操作过程是对染色体的基因位上的基因值从某个较小概率取值范围内随机值进行替换原有基因值。非均匀变异(Non-UniformMutation)与均匀变异不同点是不采用均匀分布的随机数去替换原有染色体基因位的基因值,而是对原来的基因值进行移动,移动后的结果才视作新的基因值。高斯变异(GaussianMutation),它利用符合高斯正态分布(总体均值为且方差为2的分布)的一个随机值以代替原有染色体基因位的基因值而产生一个新的子代染色体,具体操作过程与均匀变异相类似。本文中采用了均匀变异和高斯变异作为GA的变异操作,变异操作涉及到变异发生的概率,该值比较小,常把变异概率取值范围定在0.001~0.1之间,过大的变异概率导致优良的染色体结构发生破坏,丢失有益信息。11 第二章基于遗传算法的危险因素特征选择GA需要确立的参数主要有:串长l、种群大小n、交叉概率pc值、变异概率p值以及算法达到的终止条件。串长l的设计要满足待解问题要求的精度,精度m要求高,串长就越长。种群大小n与待解问题的非线性程度有关,n值越大,算法寻优能力越强,但也增加了运行时间,一般种群大小n的取值在20至200范围内。交叉概率pc值是基因位上的基因值的交叉频率,交叉概率过高,会导致丢失优良信息,过低可能会影响寻优能力。变异概率pm值是基因位上的基因值的发生变异的可能性,变异概率pm值过低会导致算法无法寻优搜索,变异概率pm值过高导致优良信息丢失。GA的终止条件决定了GA何时停止,一般是GA找出了待解问题的最优解或者达到了设定的终止条件。GA中的参数不是一成不变的,往往需要根据待解问题的类型不断的进行修改,使算法在解决待解问题上具有较强的适应性和鲁棒性。2.3遗传算法在数据处理上的应用GA具有智能的自适应和自学习寻优能力,能够提高搜索速度,扩大搜索范围,更轻易找到待解问题的最优可行解。目前GA已广泛应用于数学组合优化问题、图像模式识别处理、生物医学数据降维处理、特征提取、特征选择方面,本文就是将GA应用在属于医学数据处理方面的PLC数据集的特征选择方面。[27]Rashid将改进型GA应用到氨基酸数量大于150个的蛋白质结构预测中,蛋白质结构视作一种组合优化问题,该作者提出的GA在对蛋白质结构预测有很强的鲁棒性,提出的算法增加了搜索多样化,变异操作增强了搜索能力,每代进行重[28]复消除策略和防止了早期收敛问题。魏辉等研究了遗传算法解决视觉模式识别中的几何图形轮廓对象识别问题,将几何图形轮廓形成视作一个典型的组合优化问题,采用遗传算法解决识别图形轮廓的几何特征的问题,将短线段集成为长轮廓线。遗传算法显著增加了形成长轮廓线的有效性,促进了识别不变性的实现,[29]对对象识别的知识表示以及自顶向下处理的实现有着显著贡献。作者Maria等为描述狂犬病毒的产生问题研究了基于GA的建模方法,将GA用于优化人工神经网络(ArtificialNeuralNetworks,ANN)参数。对于在BHK-21细胞中的狂犬病病毒,病毒感染考虑的参数是温度(34.0℃和37.0℃),感染复数(0.04,0.07和0.1),感染和收获时间(24,48和72小时),产生的病毒为监视输出变量。执行多级因子实验设计,并用于训练,验证和测试ANN。在GA中,神经网络参数构成群体个体,所涉及的步骤是通过交叉和变异的群体创建,选择和替换。通过GA组合算[30]法优化的ANN可以指导研究人员在病毒生产过程的模拟。王帅研究了GA解决HBV再激活危险特征提取的工作,并且采用了贝叶斯和支持向量机(SupportVectorMachine,SVM)分类器进行预测,贝叶斯分类器的识别率达到81.11%,支12 齐鲁工业大学硕士学位论文持向量机分类器的识别率达到了82.22%,证明了GA可有效的选择到HBV再激[31]活的危险因素。作者Paul提出了一种使用GA和深卷积神经网络进行人类行为识别的方法,数据集来源于人类行为数据库UFC50。由GA生成的解决方案初始化卷积神经网络分类器的权重最小化分类误差。梯度下降算法用于在GA染色体的适应性评估期间训练卷积神经网络分类器(以找到局部最小值),使用组合GA[32]的分类器显著提高了卷积神经网络的分类性能。作者Phan提出了使用GA优化SVM参数和特征加权,并设计了一个新的交叉算子,为了评估所提出的GA和SVM结合的设计模型系统在不同分类任务中的有效性,从UCI库中选出真实的乳腺癌数据集、心脏病数据集等11个数据集进行实验,实验结果表明了他所提出组合设计模型增加了的分类性能。同时该方法也同样可以优化其它分类算法的内核参数,为其它分类算法提供了优化借鉴。2.4基于遗传算法的肝癌放疗致HBV再激活危险因素特征选择本文将提出的GA应用到PLC患者精确放疗后致HBV再激活的危险因素特征选择上,PLC数据集可以被表示成一个n维的向量集,其中的每个因素都可看作一个特征和其所对应的特征值,GA就是从n维向量集的特征中搜索出m个具有最优类别区分性的危险因素特征子集。根据本文实验数据的性质,使用了无重复基因和无需解码的浮点数编码方式。适应度函数是线性判别分析(LinearDiscriminationanalysis,LDA)分类器的经验误分率(ExperienceClassificationErrorRate)和后验概率(PosteriorProbability)基础上的线性组合(ECER+PP)。GA的基本操作包括采用了轮盘赌选择策略、均匀交叉策略、均匀和高斯变异策略。种群规模和特征子集规模及GA的终止条件以及GA参数值设置。2.4.1基因的编码与解码本文把PLC患者精确放疗后乙型肝炎病毒再激活的危险因素临床数据集当作研究的初始数据集,把初始数据集中的每个因素看作一个基因,其中每一个基因都有一个对应的浮点值,每个基因在初始数据集中有对应的一个索引。根据本文数据具有真实数值的特性,因此采用不需要解码的浮点数编码作为基因的编码方式,浮点数编码从求解精度以及操作方便上的优势更适合本文的数据。2.4.2适应度函数的选择使用GA进行特征选择时,适应度函数的好坏直接影响到GA的性能,一个较好的适应度函数可使GA具有优秀的寻优搜索能力,要想把PLC患者初始数据集中致使HBV再激活的危险因素选择出来,就需要设计一个好的适应度函数,使选择出的危险因素特征子集能具有优秀的分类识别能力。本文中采用的是在线13 第二章基于遗传算法的危险因素特征选择性判别分析(LinearDiscriminationanalysis,LDA)分类器的经验误分率(ExperienceClassificationErrorRate)和后验概率(PosteriorProbability)基础上的线性组合(ECER+PP)来体现特征子集的优劣。本文选取的特征子集具有较好的类别区分性,能够较准确地判定两种分类结果(HBV再激活与HBV未激活)。定义选择的两个特征子集I和I具有等同的经验误分率,若I得到的后验概率P大于I得到12112的后验概率P,那么I视作比I更适应的个体。212适应度函数定义为:f(x)(100ee)(3.1)cp式中ec为经验误分率,ep为后验概率,其定义公式为:1ntep1max[(|),Pcx1i,(|)]Pcxci(3.2)nti1式中n表示训练样本数量,Pcx(|)表示样本x属于类c的后验概率。tjiij2.4.3选择策略为了保证群体的多样性,选取轮盘赌选择方法作为选取下一代的选择策略,个体被选择的概率与其适应度大小成正比,定义与适应度成正比的概率函数pi():sfi()pi()(3.3)sNfi()i1其中,fi()是个体i的适应度函数值;N为种群规模。用概率函数pi()组成面积s为1的赌轮,赌轮转动时指针指向个体i所占面积的概率就是被选择的概率pi()。s2.4.4交叉策略交叉是染色体产生下一代的重要方式,是种群中的两个染色体个体选取自身染色体基因位上的部分基因进行调换并且组合生成一个新的子代个体的操作。本文中采用的交叉策略是均匀交叉,种群中的两个父代个体按照某个概率随机均匀地选择染色体上的基因进行相应位置的交换得到一个新的子代个体。其原理是子代个体C1产生的位,其掩码对应为1,则来自父代P1;对应位是0则来自父代P2,子代个体C2的产生则相反。假定P1=[1011000111]和P2=[0001111000]为两个父代染色体,M=[0011001100]为标记掩码,则分别产生的子代个14 齐鲁工业大学硕士学位论文体C1=[0011110100]和C2=[1001001011]。2.4.5变异策略变异是指对种群中染色体基因位上的部分基因值因某种原因发生了变化或者替换成新基因,从而产生了一个新的子代个体。本文中选用了两种变异操作:均匀变异和高斯变异。均匀变异的操作过程是对染色体的基因位上的基因值用某个较小概率取值范围内随机值更换原有基因值。假定X代表个体X的第i个特征,在一个较小的范i围[,]abii内产生一个随机数xi来替换Xi,均匀变异公式为:X()abx(3.4)iiii式中是(0.01,0.1)内设置的随机数,文中均匀变异操作设置的变异率为0.05。高斯变异利用契合高斯正态分布(总体均值为2且方差为的分布)的一个随机值以代替原有染色体基因位的基因值,从而产生一个新的子代染色体,高斯变异公式为:2xXV,(3.5)2其中x为子代染色体,X为父代染色体,V(0,)为基于高斯分布的随机向量,它的均值为,标准差是,在进行初始化GA时,被处理后的数据集的特征数量赋予,高斯变异率同样设置为0.05。2.4.6种群规模和特征子集规模算法设置较大的种群规模,其搜索能力也就越强,搜索质量越高,防止GA收敛过早。但是种群规模过大,相应的GA每运行一代所耗费的时间就会过长,一般种群规模设置为20~200之间内。本文根据PLC的数据集的危险因素数量和选择不同规模的危险因素特征子集的比来定义种群规模:mnN/(3.6)式中N为种群规模,n为PLC初始特征集的特征总数,m是GA特征选择的危险因素特征子集的规模。本文中PLC初始特征集的特征总数为28,选取的危险因素特征子集规模为1~5。15 第二章基于遗传算法的危险因素特征选择2.4.7终止条件为了使算法运行简单化,本文选择种群代数到达最大迭代数作为GA的终止条件。本文当种群最大迭代次数为200,如果当前遗传种群代数已经大于定义的最大遗传代数,则算法终止运行。2.5基于遗传算法的肝癌放疗致HBV再激活特征选择实验结果和分析基于GA特征选择的PLC患者精确放疗致HBV再激活危险因素分析:在GA的特征选择中,对HBV再激活影响越大的危险因素被选择出来的可能性就越大,其出现次数就会越多。设置危险因素特征子集规模为1~5和不同的变异操作,每次GA重复运行50次,用以得到更多的危险因素,为第三章危险因素特征子集建立HBV再激活预测模型做基础,这也是本章的主要内容。(1)GA的特征子集规模为1时的实验结果与分析。当设置的GA危险因素特征子集规模为1,变异操作为均匀变异时GA重复运行50次,有32次选择出的危险因素特征子集包含“HBVDNA水平”;18次选出的危险因素特征子集包含“外放边界”。变异操作为高斯变异时GA重复运行50次,有37次选择出的危险因素特征子集包含“HBVDNA水平”;13次选择出危险因素特征子集包含“外放边界”。“HBVDNA水平”被选作危险因素的次数最多,即有最大机会被GA寻找到,这与黄伟的研究中HBVDNA水平是影响HBV再激活的危险因素结果相吻合,证明了GA的有效性。我们后续的预测实验结果中显示“外放边界”也会对HBV再激活产生重要影响。该组GA实验选择出的危险因素特征子集及其出现次数如表2.1所示。表2.1特征子集规模为1时的危险因素特征子集均匀变异高斯变异危险因素特征子集出现次数危险因素特征子集出现次数HBVDNA水平32HBVDNA水平37外放边界18外放边界13(2)GA的特征子集规模为2时的实验结果与分析。如表2.2所示,变异操作为均匀变异时GA重复运行50次,有12次选择出的危险因素特征子集包含“HBVDNA水平”、“外放边界”;12次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”;5次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”;7次选出的危险因素特征子集包含“外16 齐鲁工业大学硕士学位论文放边界”、“KPS评分”;6次选出的危险因素特征子集包含“外放边界”、“肿瘤分期TNM”;8次选出的危险因素特征子集包含“肿瘤分期TNM”、“KPS评分”。变异操作为高斯变异时GA重复运行50次,有13次选择出的危险因素特征子集包含“HBVDNA水平”、“外放边界”;12次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”;9次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”;8次选出的危险因素特征子集包含“外放边界”、“KPS评分”;4次选出的危险因素特征子集包含“外放边界”、“肿瘤分期TNM”;4次选出的危险因素特征子集包含“肿瘤分期TNM”、“KPS评分”。所有被选择到的危险因素中“HBVDNA水平”出现的次数最多,其次是“外放边界”和“肿瘤分期TNM”。表2.2特征子集规模为2时的危险因素特征子集均匀变异高斯变异危险因素特征子集出现次数危险因素特征子集出现次数HBVDNA水平、外放边界12HBVDNA水平、外放边界13HBVDNA水平、肿瘤分期TNM12HBVDNA水平、肿瘤分期TNM12HBVDNA水平、KPS评分5HBVDNA水平、KPS评分9外放边界、KPS评分7外放边界、KPS评分8外放边界、肿瘤分期TNM6外放边界、肿瘤分期TNM4肿瘤分期TNM、KPS评分8肿瘤分期TNM、KPS评分4(3)GA的特征子集规模为3时的实验结果与分析。如表2.3所示,变异操作为均匀变异时GA重复运行50次,有7次选择出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“Child-Pugh”;5次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“外放边界”;5次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”;4次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“V45”;4次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“V45”;4次选出的危险因素特征子集包含“肿瘤分期TNM”、“KPS评分”、“外放边界”;4次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“V45”;4次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“KPS评分”;3次选出的危险因素特征子集包含“肿瘤分期TNM”、“Child-Pugh”、“外放边界”;3次选出的危险因素特征子集包含“HBVDNA水平”、“Child-Pugh”、“V45”;2次选出的危险因素特征子集包含“肿瘤分期TNM”、“外放边界”、“V45”;3次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“Child-Pugh”;1次选出的危险因素特征子集包含“Child-Pugh”、“外放边界”、“V45”;1次选出17 第二章基于遗传算法的危险因素特征选择的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“Child-Pugh”。在本次运行的50次GA中,“HBVDNA水平”被选择到的次数依然最多,次数达到40次,“外放边界”被选择到31次,“Child-Pugh”被选择到18次,“肿瘤分期TNM”被选择到24次,“KPS评分”被选择到20次,“V45”被选择到18次。表2.3特征子集规模为3时的危险因素特征子集均匀变异高斯变异危险因素特征子集出现次数危险因素特征子集出现次数HBVDNA水平、外放边界、HBVDNA水平、外放边界、75Child-PughChild-PughHBVDNA水平、KPS评分、外放HBVDNA水平、KPS评分、外放55边界边界HBVDNA水平、肿瘤分期TNM、HBVDNA水平、肿瘤分期TNM、55外放边界外放边界HBVDNA水平、外放边界、V454HBVDNA水平、外放边界、V455HBVDNA水平、KPS评分、V454HBVDNA水平、KPS评分、V453肿瘤分期TNM、KPS评分、外放肿瘤分期TNM、KPS评分、外放42边界边界HBVDNA水平、肿瘤分期TNM、HBVDNA水平、肿瘤分期TNM、43V45V45HBVDNA水平、肿瘤分期TNM、HBVDNA水平、肿瘤分期TNM、45KPS评分KPS评分肿瘤分期TNM、Child-Pugh、外肿瘤分期TNM、Child-Pugh、外32放边界放边界HBVDNA水平、Child-Pugh、V453HBVDNA水平、Child-Pugh、V454肿瘤分期TNM、外放边界、V452肿瘤分期TNM、外放边界、V451HBVDNA水平、KPS评分、HBVDNA水平、KPS评分、34Child-PughChild-PughChild-Pugh、外放边界、V451Child-Pugh、外放边界、V451HBVDNA水平、肿瘤分期TNM、1KPS评分、Child-Pugh、V453Child-PughKPS评分、Child-Pugh、外放边界2如表2.3所示,变异操作为高斯变异时GA重复运行50次,有5次选择出的18 齐鲁工业大学硕士学位论文危险因素特征子集包含“HBVDNA水平”、“外放边界”、“Child-Pugh”;5次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“外放边界”;5次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”;5次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“V45”;3次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“V45”;2次选出的危险因素特征子集包含“肿瘤分期TNM”、“KPS评分”、“外放边界”;3次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“V45”;5次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“KPS评分”;2次选出的危险因素特征子集包含“肿瘤分期TNM”、“Child-Pugh”、“外放边界”;4次选出的危险因素特征子集包含“HBVDNA水平”、“Child-Pugh”、“V45”;1次选出的危险因素特征子集包含“肿瘤分期TNM”、“外放边界”、“V45”;4次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“Child-Pugh”;1次选出的危险因素特征子集包含“Child-Pugh”、“外放边界”、“V45”;3次选出的危险因素特征子集包含“KPS评分”、“Child-Pugh”、“V45”;2次选出的危险因素特征子集包含“KPS评分”、“Child-Pugh”、“外放边界”。在运行的50次GA中,“HBVDNA水平”被选择到的次数依然最多,次数达到38次,“外放边界”被选择到28次,“Child-Pugh”被选择到21次,“肿瘤分期TNM”被选择到18次,“KPS评分”被选择到22次,“V45”被选择到20次。(4)GA的特征子集规模为4时的实验结果与分析。如表2.4所示,变异操作为均匀变异时GA重复运行50次,有9次选择出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”、“Child-Pugh”;6次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“肿瘤分期TNM”、“外放边界”;6次选出的危险因素特征子集包含“HBVDNA水平”、肿瘤分期TNM”、“外放边界”、“V45”;6次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“外放边界”、“V45”;5次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“Child-Pugh”、“V45”;4次选出的危险因素特征子集包含“HBVDNA水平”、“GTV体积”、“外放边界”、“V45”;3次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“Child-Pugh”、“V45”;3次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“GTV体积”“KPS评分”;3次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“全肝最大剂量”、“V45”;2次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、“Child-Pugh”、“外放边界;1次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、“外放边界”、“KPS评分”;1次选出的危险因素特征子集包含“KPS评分”、“Child-Pugh”、“V45”、“全肝最大剂量”;1次选出的危险因素特征子集包含“Child-Pugh”、“GTV体积”、“外放边界”、“V45”。19 第二章基于遗传算法的危险因素特征选择在运行的50次GA中,“HBVDNA水平”被选择到45,“外放边界”被选择到31次,“Child-Pugh”被选择到21次,“肿瘤分期TNM”被选择到30次,“KPS评分”被选择到20次,“V45”被选择到31次,“GTV体积”被选择到8次,“全肝最大剂量”被选择到4次。表2.4特征子集规模为4时的危险因素特征子集均匀变异高斯变异危险因素特征子集出现次数危险因素特征子集出现次数HBVDNA水平、肿瘤分期TNM、HBVDNA水平、肿瘤分期TNM、910外放边界、Child-Pugh外放边界、Child-PughHBVDNA水平、KPS评分、肿瘤HBVDNA水平、KPS评分、肿瘤68分期TNM、外放边界分期TNM、外放边界HBVDNA水平、肿瘤分期TNM、HBVDNA水平、肿瘤分期TNM、66外放边界、V45外放边界、V45HBVDNA水平、KPS评分、外放HBVDNA水平、KPS评分、外放66边界、V45边界、V45HBVDNA水平、外放边界、HBVDNA水平、外放边界、55Child-Pugh、V45Child-Pugh、V45HBVDNA水平、GTV体积、外HBVDNA水平、GTV体积、外44放边界、V45放边界、V45HBVDNA水平、KPS评分、HBVDNA水平、KPS评分、34Child-Pugh、V45Child-Pugh、V45HBVDNA水平、肿瘤分期TNM、HBVDNA水平、肿瘤分期TNM、32GTV体积、KPS评分GTV体积、KPS评分HBVDNA水平、肿瘤分期TNM、HBVDNA水平、肿瘤分期TNM、31全肝最大剂量、V45全肝最大剂量、V45V45、肿瘤分期TNM、Child-Pugh、V45、肿瘤分期TNM、Child-Pugh、21外放边界外放边界V45、肿瘤分期TNM、外放边界、V45、肿瘤分期TNM、KPS评分、11KPS评分Child-PughKPS评分、Child-Pugh、V45、全Child-Pugh、GTV体积、外放边界、11肝最大剂量V45Child-Pugh、GTV体积、外放边外放边界、KPS评分、Child-Pugh、11界、V45V4520 齐鲁工业大学硕士学位论文如表2.4所示,变异操作为高斯变异时GA重复运行50次,有10次选择出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”、“Child-Pugh”;8次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“肿瘤分期TNM”、“外放边界”;6次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”、“V45”;6次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“外放边界”、“V45”;5次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“Child-Pugh”、“V45”;4次选出的危险因素特征子集包含“HBVDNA水平”、“GTV体积”、“外放边界”、“V45”;4次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“Child-Pugh”、“V45”;2次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“GTV体积”“KPS评分”;1次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“全肝最大剂量”、“V45”;1次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、“Child-Pugh”、“外放边界;1次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、“KPS评分”、“Child-Pugh”;1次选出的危险因素特征子集包含“Child-Pugh”、“GTV体积”、“外放边界”、“V45”;1次选出的危险因素特征子集包含“外放边界”、“KPS评分”、“Child-Pugh”、“V45”。在运行高斯变异的50次GA中,“HBVDNA水平”被选择到的次数依然最多,次数达到46次,“外放边界”被选择到42次,“Child-Pugh”被选择到23次,“肿瘤分期TNM”被选择到29次,“KPS评分”被选择到22次,“V45”被选择到29次,“GTV体积”被选择到7次,“全肝最大剂量”被选择到1次。(5)GA的特征子集规模为5时的实验结果与分析。如表2.5所示。变异操作为均匀变异时GA重复运行50次,有6次选择出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”、“Child-Pugh”;5次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“Child-Pugh”、“V45”;5次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“全肝最大剂量”、“甲胎蛋白AFP”、“V45”;5次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“全肝最大剂量”、“V45”、“V20”;4次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“Child-Pugh”、“全肝最大剂量”;4次选出的危险因素特征子集包含“HBVDNA水平”、“GTV体积”、“外放边界”、“V45”、“V30”;3次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“Child-Pugh”、“V45”、“甲胎蛋白AFP”;3次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”、“全肝最大剂量”;3次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“肿瘤分期TNM”、“全肝最大剂量”、“V45”;2次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、21 第二章基于遗传算法的危险因素特征选择“Child-Pugh”、“外放边界”、“GTV体积”;2次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、“甲胎蛋白AFP”、“外放边界”、“KPS评分”;2次选出的危险因素特征子集包含“KPS评分”、“Child-Pugh”、“V45”、“全肝最大剂量”、“甲胎蛋白AFP”;2次选出的危险因素特征子集包含“Child-Pugh”、“V30”、“全肝最大剂量”、“KPS评分”、“GTV体积”,出现一次的危险因素特征子集不再叙述。在运行的50次GA中,“HBVDNA水平”被选择到的次数依然最多,次数达到40次,“外放边界”被选择到36次,“Child-Pugh”被选择到26次,“肿瘤分期TNM”被选择到28次,“KPS评分”被选择到19次,“V45”被选择到33次,“V20”被选择到5次,“GTV体积”被选择到9次,“全肝最大剂量”被选择到23次,“甲胎蛋白AFP”被选择到14次,“V30”被选择到9次。变异操作为高斯变异时GA重复运行50次,有7次选择出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”、“Child-Pugh”;6次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“Child-Pugh”、“V45”;4次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“全肝最大剂量”、“甲胎蛋白AFP”、“V45”;5次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“全肝最大剂量”、“V45”、“V20”;3次选出的危险因素特征子集包含“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“Child-Pugh”、“全肝最大剂量”;6次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“GTV体积”、“外放边界”、“V45”;3次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“Child-Pugh”、“全肝最大剂量”、“V45”;3次选出的危险因素特征子集包含“HBVDNA水平”、“肿瘤分期TNM”、“GTV体积”、“KPS评分”、“V20”;1次选出的危险因素特征子集包含“HBVDNA水平”、“KPS评分”、“肿瘤分期TNM”、“甲胎蛋白AFP”、“V45”;1次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、“Child-Pugh”、“V20”、“甲胎蛋白AFP”;2次选出的危险因素特征子集包含“V45”、“肿瘤分期TNM”、“KPS评分”、“Child-Pugh”、“V20”,出现一次的危险因素特征子集不再叙述。在运行的50次变异操作的GA中,“HBVDNA水平”被选择到的次数依然最多,次数达到43次,“外放边界”被选择到39次,“Child-Pugh”被选择到25次,“肿瘤分期TNM”被选择到32次,“KPS评分”被选择到20次,“V45”被选择到34次,“V20”被选择到12次,“GTV体积”被选择到14次,“全肝最大剂量”被选择到20次,“甲胎蛋白AFP”被选择到9次,“V30”被选择到1次。当GA危险因素特征子集规模设置为5的时候,GA搜索的范围变得更广,部分表现不明显但对HBV再激活有影响的危险因素也会被选择出来。22 齐鲁工业大学硕士学位论文表2.5特征子集规模为5时的危险因素特征子集均匀变异高斯变异危险因素特征子集出现次数危险因素特征子集出现次数HBVDNA水平、外放边界、肿瘤HBVDNA水平、外放边界、肿瘤67分期TNM、KPS评分、Child-Pugh分期TNM、KPS评分、Child-PughHBVDNA水平、外放边界、肿瘤HBVDNA水平、外放边界、肿瘤56分期TNM、Child-Pugh、V45分期TNM、Child-Pugh、V45HBVDNA水平、外放边界、全肝HBVDNA水平、外放边界、全肝54最大剂量、甲胎蛋白AFP、V45最大剂量、甲胎蛋白AFP、V45HBVDNA水平、外放边界、全肝HBVDNA水平、外放边界、全肝55最大剂量、V45、V20最大剂量、V45、V20HBVDNA水平、外放边界、肿瘤HBVDNA水平、外放边界、肿瘤分期TNM、Child-Pugh、全肝最4分期TNM、Child-Pugh、全肝最3大剂量大剂量HBVDNA水平、GTV体积、外HBVDNA水平、肿瘤分期TNM、46放边界、V45、V30GTV体积、外放边界、V45HBVDNA水平、KPS评分、HBVDNA水平、KPS评分、33Child-Pugh、V45、甲胎蛋白AFPChild-Pugh、全肝最大剂量、V45HBVDNA水平、外放边界、肿瘤HBVDNA水平、肿瘤分期TNM、分期TNM、KPS评分、全肝最大33GTV体积、KPS评分、V20剂量HBVDNA水平、KPS评分、肿瘤HBVDNA水平、KPS评分、肿瘤31分期TNM、全肝最大剂量、V45分期TNM、甲胎蛋白AFP、V45V45、肿瘤分期TNM、Child-Pugh、V45、肿瘤分期TNM、Child-Pugh、21外放边界、GTV体积V20、甲胎蛋白AFPV45、肿瘤分期TNM、甲胎蛋白V45、肿瘤分期TNM、KPS评分、22AFP、外放边界、KPS评分Child-Pugh、V20KPS评分、Child-Pugh、V45、全Child-Pugh、甲胎蛋白AFP、外放21肝最大剂量、甲胎蛋白AFP边界、V45、全肝最大剂量Child-Pugh、V30、全肝最大剂量、全肝最大剂量、外放边界、KPS22KPS评分、GTV体积评分、GTV体积、V45HBVDNA水平、KPS评分、肿瘤V45、肿瘤分期TNM、Child-Pugh、11分期TNM、V30、全肝最大剂量外放边界、GTV体积23 第二章基于遗传算法的危险因素特征选择续表2.5均匀变异高斯变异危险因素特征子集出现次数危险因素特征子集出现次数V45、肿瘤分期TNM、HBVDNA水平、KPS评分、肿瘤1Child-Pugh、外放边界、GTV体1分期TNM、V30、全肝最大剂量积HBVDNA水平、外放边界、肿肿瘤分期TNM、V30、Child-Pugh、1瘤分期TNM、KPS评分、全肝1V45、甲胎蛋白AFP最大剂量HBVDNA水平、KPS评分、甲胎蛋白AFP、V45、甲胎蛋白AFP、GTV体积、1Child-Pugh、外放边界、GTV体1Child-Pugh积HBVDNA水平、V45、V30、HBVDNA水平、外放边界、11肿瘤分期TNM、KPS评分全肝最大剂量、V45、KPS评分HBVDNA水平、肿瘤分期TNM、全肝最大剂量、甲胎蛋白1AFP、V20HBVDNA水平、外放边界、1V45、V30、GTV体积2.6本章小结随着危险因素特征子集的种群规模不断增加,更多的危险因素被选择出来。根据GA寻优结果,无论进行怎么样的危险因素特征选择,“HBVDNA水平”、被选择出来的次数最多,这与多位研究学者的HBV再激活与HBVDNA水平密切相关的结论相吻合,充分表明了本文将GA的特征选择用于PLC数据集可行性和有效性。从GA的角度分析,当设定危险因素特征子集规模为1~5时,不同的变异操作找出了不完全一样特征子集,更多的危险因素被选择出来,就表示还存在有其它因素也会导致HBV再激活,解决了统计分析方法不易解决的HBV再激活相关危险因素的问题,尤其还未报道的致使HBV再激活的危险因素更应该引起医学人员的注意,例如某些危险因素特征子集中出现了“KPS评分”、“甲胎蛋白AFP”、VD(V20,V40等)需要得到更多的关注。特别指出,医生在病人进行治疗过程中可同时监控多个危险因素参数值的变化,尤其是对已经感染HBV但未发生HBV激活的PLC患者,可提前采取抗病毒以及肝保护等治疗方法,减少HBV再激活的发生,对提高患者的生活质量甚至延长生存周期有着重要意义。24 齐鲁工业大学硕士学位论文本组实验中,将GA用在PLC患者数据集中选择HBV再激活的危险因素特征子集,根据特征子集规模以及不同的变异操作得到多组HBV再激活的危险因素特征子集,为第三章建立基于BP和RBF神经网络的HBV再激活分类预测模型做好基础。25 齐鲁工业大学硕士学位论文26 齐鲁工业大学硕士学位论文第三章基于BP和RBF神经网络的HBV再激活分类预测模型3.1人工神经网络简介[33,34]人工神经网络(ArtificialNeuralNetworks,ANN)是模式识别研究领域的重要方法之一,它的发展历程大致经历了三个时期。[35]初步发展时期是20世纪50年代前后。1943年,MaCulloch和Pitts一种叫[36]做神经元生物模型(MP模型),后来1949年D.O.Hebb提出的学习规则为神经网络发展奠定了基础。1954年,Minsky的神经网络博士论文《TheoryofNeural-AnalogReinforcementSystemsandItsApplicationtotheBrain-Model[37]Problem》推动了神经网络的发展。1957年,Rosenblatt提出的感知器理论,解[38]决了模式识别问题监督学习方法。1969年Minsky和Papert指出感知器的处理能力有限,单层感知器的所有局限性在多层感知器中无法被全部克服。发展停滞时期,主要有三个原因导致了神经网络的研究发展停滞十余年,一是由于个人或工作站缺乏高性能计算机,理论研究得不到技术上的支持。二是微电子技术的进步和数学计算机的发展使人们更多的精力投入到数学计算机的研究中。三是大多数人还是停滞在Minsky等人的思想上,缺乏改进神经网络的新思想。直到Hopfield联想记忆和反向传输算法的提出,使得神经网络进入到快速发展时期。[39]1982年,J.J.Hopfield提出了Hopfield网络,将非线性理论成功的运用到Hopfield网络上,使得神经网络得到突破性的发展。1986年Rumelhart等人提出的误差反向传输(ErrorBack-Propagation,BP)神经网络具有强大的计算能力,并且该算法为大多数多层感知器训练提供了学习方法。1988年,Broomhead和Lowe将径向基函数设计反馈神经网络,为多层感知器提供了一种新的方法。目前,神经网络已经得到了稳定的发展,但面对当前大数据和多维数据问题时,对于设计具有庞大数量神经元的神经网络和新的学习算法还需进一步研究。3.2BP神经网络3.2.1BP神经网络的结构和学习规则误差反向传输(ErrorBack-Propagation,BP)是人工神经网络中经典的算法之[40]一,由Rumelhart等人在1986年提出。由于BP神经网络结构简单,模拟性强,27 第三章基于BP和RBF神经网络的HBV再激活分类预测模型可对网络中各层的权系数进行修正,解决了多层神经网络的学习问题,因此BP神经网络已经在智能信息处理中的得到了普遍的应用,是模式识别领域的重要组成部分。[41,42]标准的BP神经网络具有三层结构,采用梯度下降法调整权值、的miij大小,如图3.1所示,BP神经网络三层结构分别包含输入层(Inputlayer)、隐含层(Hiddenlayer)、输出层(Outputlayer)。x1K1Y1x2Y2K2xMYJKmiHij输入层M输出层J隐含层图3.1BP神经网络结构BP神经网络的算法学习规则包括两部分:信号正向传播和误差反向传播。信号正向传播是输入层的输入数据经过隐含层传输到输出层,若满足算法结束条件,则结束;否则,将正向传播过程中的误差按照反向传输计算和调整权值和阈值,来减少误差值,从而达到最终期望输出结果。定义uv和分别为每层的输入和输出,网络的目标输出为:12JYn()[,,vv,v],迭代次数为n的期望输出为:Dn()[,dd,,d],第n次JJJ12JJ的误差信号为:En()Dn()Yn(),误差量为:En()1en2(),传输函数f()jjjj2j1为Sigmoid函数,学习规则为:(1)网络的输入信号为:mv()nxn()(3.1)M(2)隐含层第i个神经元的输入为:28 齐鲁工业大学硕士学位论文MimuH()nmi()nvM()n(3.2)m1(3)隐含层第i个神经元的输出为:iivn()fun(())(3.3)HH(4)输出层第j个神经元的输入为:HjivnJ()ij()nvnH()(3.4)i1(5)输出层第j个神经元的输出为:jjvn()gun(())(3.5)JJ(6)第j个神经元的误差为:jEn()Dn()vn()(3.6)jjJ(7)网络误差总量为:J12En()enj()(3.7)2j1至此,正向传播结束,接下来是误差反向传播。(8)学习率为,计算的梯度值,根据最速下降法调整隐含层至输出层的权ij值:iji()nEnvn()()(3.8)ijjH(nn1)()(3.9)ijijiji(9)误差信号向前传播,为局部梯度,计算输入层至隐含层的权值:Hmiim()nv()n(3.10)miHM调整规则可总结为:权值调整量=学习率局部梯度上层输出信号v。29 第三章基于BP和RBF神经网络的HBV再激活分类预测模型3.2.2BP神经网络的应用[43]目前,BP神经网络已经在各个领域得到了广泛应用。刘建华提出将BP神经网络来预测CT图像肝癌检测技术的研究。根据病灶区边缘纹理特征和形状特征设计了基于BP神经网络的两个肝癌分类器。第一个纹理特征实验显示BP神经网络预测正常肝的识别率为90.00%,预测非正常肝为85.00%。第二个形状特征实验显示BP预测的肝癌识别率为83.33%,预测的囊肿识别率为72.73%,预测的[44]血管瘤识别率为50.00%。刘子翔将BP神经网络用来预测城市空气质量,对城市中某一个站点的SO2和PM10的数据集进行拟合,证明了BP神经网络具有较强的拟合和泛化能力,能够可接受的误差范围内对数据进行良好的预测。杨锦跃[45]通过BP神经网络来预测建筑工程造价,通过BP神经网络来处理工程造价数据(包含建筑面积、建筑高度、钢筋价格、混凝土价格等)以得到工程造价预测,实验结果分析显示,实际工程造价和预测造价的相对误差在10%以内,最小的相[46]对误差在5%以内,达到了良好的预测效果。黄震针对P2P网络信贷103为借款人的基本资料(包括年龄、婚姻、职业、收入、信用等级等)建立BP网络训练和仿真实验,仿真实验以104-108号借款人案例作为测试样本,建立的风险评估模型具有较高的准确度,对5位借款者进行信用风险等级的评价,10次训练中仅有[47]借款者4和借款者5有一次出现评估失误,其余都达到了预测标准。徐学琴等人将改进的BP神经网络用来预测麻疹研究中,选取1996-2010年全国麻疹发病率数据作为训练样本,并将2011-2012年的发病率数据作为检验样本。实验结果显示,无论仿真预测还是检验样本预测结果中的平均误差都很低,并对2013-2017年麻疹发病率进行了预测,建立的BP神经网络在麻疹预测方面有着良好的预测[48]精度。张凡等人将粒子群算法用于优化BP神经网络参数,并应用到腮腺炎发[49]病率预测中,验证了BP神经网络在腮腺炎发病率预测中的良好性能。Han等人提出一种基于BP神经网络的新颖的图像分割方法,将改进后的BP用于视觉图像分割研究中,实验显示BP神经网络在面对图像分割中有良好的分割效果,并且改进后的BP神经网络提高了收敛速度,在避免局部最小值方面表现出了更好的[50]性能。叶华容等人将BP神经网络用在高频彩超特征中来进行乳腺癌的诊断研究中,其研究中BP预测乳腺癌的准确性为96.9%、灵敏度为95.5%、特异度为97.6%,证明了BP神经网络对乳腺癌有着良好的预测性能。3.3RBF神经网络3.3.1RBF神经网络结构和学习过程[51]由Broomhead和Lowe提出了一种结构简单、收敛速度快及能够逼近任意非线性函数的径向基函数(RadialBasisFunction,RBF)神经网络,简称RBF神经30 齐鲁工业大学硕士学位论文网络。RBF神经网络有着同BP类似的三层网络结构,但训练方法快速易行。如[52-54]图3.2所示,RBF神经网络包含三层结构,输入层、隐含层和输出层,[,,xx12,xm]是输入数据矩阵向量,cji是第j个隐含层神经元对应第i个输出神经元的中心分量,dji为与中心cji对应的宽度,wkj是第k个输出神经元与第j个隐含层神经元的调节权重。xcdjiwkj1jiy1x2y2xmyp输入层M输出层J隐含层图3.2RBF神经网络结构RBF神经网络隐含层一般采用高斯函数作为激活函数,因此,径向基核函数也称为高斯核函数,其定义为:2xdiRx()exp(),i1,2,,I(3.11)22RBF的学习过程就是通过输入向量xRx()的非线性映射,输出层实现从mRx()y的映射。其中d和分别表示为核函数的中心和宽度值,xd代表pii了x到d间的欧式距离,则输出层的输出为:ipypwkjRx()(3.12)i1高斯函数的中心确保了高斯函数宽度的确定,宽度定义为:iMaxd()i(3.13)i2M31 第三章基于BP和RBF神经网络的HBV再激活分类预测模型式中,Maxd()代表了d到第i个数据中心与其它数据中心的最大距离,M为定ii义的数据中心数量。3.3.2RBF神经网络的应用目前,RBF已经在普遍应用到模式识别研究中,包括医学生物数据实验结果仿真、图像识别、文本类别判断、工程造价预测、控制系统仿真和网络病毒识别[55]等研究中。武建辉等人将径向基神经网络用在煤工尘肺发病年龄预测当中,其中采用的多重线性回归模型、RBF神经网络模型和引入RBF神经网络的组合模型对煤工发病年龄进行预测,RBF神经网络预测的均方误差结果在6%左右,RBF神经网络具有良好的非线性映射能力,而引入RBF神经网络的组合模型的预测精确度更高,对煤工尘肺发病年龄的预测具有应用价值。文献[56]使用RBF神经网络预测锂电池负荷下的状态,使用RBF神经网络为充电状态的聚合物哩电池建立一个电池等效电路模型,RBF神经网络所建立的模型对聚合物锂电池循环放电电[57]流进行了有效性和准确性的检验。Rosa等人将RBF神经网络应用到检测无线电频谱的信号上并建立识别用户信号的信号分类器,提出的RBF神经网络已经应用于无线麦克风、数字视频广播和地面信号等主要用户信号模块中,结果表明即使在低信噪比和多径场景下,所提出的RBF神经网络也能正确检测和识别主要用[58]户。徐昇等人将RBF网络应用到蛋白质二级结构预测当中,提出把影响蛋白质分类性能的属性贡献因子引入RBF网络中来改进RBF神经网络,然后将RBF网络用来预测蛋白质的二级结构,实验表明添加贡献因子后的RBF网络得到较高的预测精度,而且还揭示了蛋白质序列之间的构态影响关系。3.4k折交叉验证和分类性能评估[59]实验统计结果选择k折交叉验证(k-foldcrossvalidation),把样本n分为k份不相同的子集样本,mnk/,m为每份的容量。定义n为第k份子集样本k(kn1,2,,),从样本n中选取子集样本n作为测试样本,其余子集样本作为训k练样本,预测结果为k折交叉验证结果的平均uˆ,公式如下:kk1uuˆkk(3.14)k1一般来说衡量一个分类器效果的好坏可以通过分类器性能标准来表示出来,本文中的实验选用3个评价标准来评价分类器的分类性能:正确性(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)。正确性是指试样本集内被正确分类的HBV再激活样本和HBV未激活(正常)样本数量之和与总的测试样本集数量之比值。灵32 齐鲁工业大学硕士学位论文敏度是HBV再激活样本的识别率,特异度是HBV未激活的样本识别率。这3个标准定义公式如下:正确性(Accuracy)(TPTN)/(TPTNFPFN)(3.15)灵敏度(Sensitivity)TP/(TPFN)(3.16)特异度(Specificity)TN/(TNFP)(3.17)其中TP,TN,FP和FN分别表示真阳性(HBV再激活),真阴性(HBV未激活),假阳性和假阴性样本的数量,分类正确性作为判断分类性能的主要标准。3.5基于BP和RBF神经网络的HBV再激活分类预测模型以山东省肿瘤医院收治的90例PLC患者数据集作为研究样本,每个样本包含28个特征,20例样本发生HBV再激活,70例样本未激活。实验对初始数据集和第二章GA特征选择得到的危险因素特征子集建立HBV再激活预测模型并进行分类性能预测,为了减少BP和RBF神经网络实验过程中的误差,实验结果取10次10折交叉验证的平均。创建BP神经网络的部分参数设置为:net=feedforwardnet(10,'traingd');net.trainParam.epochs=1000;net.trainParam.show=10;net.trainParam.lr=0.06;net.trainParam.goal=0.02;[net,tr]=train(net,P,T);out=sim(net,P1);建立具备10个隐含层为BP神经网络,调用traingd算法训练BP神经网络,net.trainParam.epochs是训练迭代次数。net.trainParam.show是显示训练迭代过程。net.trainParam.lr是学习率。net.trainParam.goal是训练要求精度。P为输入矩阵,T为目标输出矩阵。测试网络时用out=sim(net,P1),P1为测试输入矩阵,out就是矩阵输出结果。例如,初始数据集是包含28个特征的输入矩阵,10个隐含层,输出矩阵是2个类别结果的BP神经网络如图3.3所示。对于RBF神经网络的创建,本文使用是newrb命令,具体的函数为newrb(P,T,Goal,Spread,MN,DF)其中P为输入样本向量,T为输出样本所对应的输出信号向量,Goal为期望均方误差值,该值的设置会影响到整体网络的准确度以及训练时间,一般情况下,准确度要求越高的网络训练时所耗费的时间久越大,本文设33 第三章基于BP和RBF神经网络的HBV再激活分类预测模型定误差为0。Spread是径向基函数的散布常数,多次试验后灵活性的设定Spread值为3;MN是神经元的最大数目,设定300,DF是每次显示增加的神经元数目,设定1,测试网络和BP类似,也是采用out=sim(net,P1)进行矩阵输出,例如,初始数据集是包含28个特征的输入矩阵,输出矩阵是2个类别结果的RBF神经网络误差性曲线图如图3.4所示。图3.3BP神经网络图3.4RBF误差性能曲线34 齐鲁工业大学硕士学位论文本章对GA不同特征子集规模得到的危险因素特征子集和初始数据集建立BP和RBF神经网络的HBV再激活分类预测模型,实验结果显示,GA选择不同特征子集规模得到的危险因素特征子集的分类预测性能不同,且危险因素特征子集的分类预测性能明显较优于初始数据集的分类预测性能。初始数据集包含全部的28特征,第二章中GA危险因素特征子集规模为1时变异操作无论为均匀变异还是高斯变异,其选取的危险因素特征子集一致,BP神经网络的预测性能如表3.1所示,RBF神经网络的预测性能如表3.2所示。表3.1初始数据集和特征子集规模为1的BP神经网络预测性能初始数据集和危险因素特征子集正确性灵敏度特异度初始数据集71.18%74.21%50.14%外放边界71.44%76.16%53.28%HBVDNA水平73.08%78.24%55.39%如表3.1所示,在BP神经网络中,初始数据集的正确性、灵敏度和特异度分别为71.18%,74.21%和50.15%。“外放边界”的正确性、灵敏度和特异度分别为:71.44%,76.16%和53.28%。“HBVDNA水平”的正确性、灵敏度和特异度分别为:73.08%,78.24%和55.39%。表3.2初始数据集和特征子集规模为1的RBF神经网络预测性能初始数据集和危险因素特征子集正确性灵敏度特异度初始数据集72.21%75.55%51.20%外放边界73.56%77.60%53.98%HBVDNA水平75.42%79.37%59.70%如表3.2所示,在RBF神经网络中,初始数据集的正确性、灵敏度和特异度分别为72.21%,75.55%和51.20%;而当选取的危险因素特征子集为“外放边界”时的正确性、灵敏度和特异度分别为:73.56%,77.60%和53.98%;选取的危险因素特征子集为“HBVDNA水平”时的正确性、灵敏度和特异度分别为:75.42%,79.37%和59.70%。GA选择1个危险因素特征子集时,无论在BP还是RBF神经网络中,“HBVDNA水平”都具有较好的预测性能,这与GA特征子集规模为1时大部分会寻优选择到“HBVDNA水平”的结果一致。选择“HBVDNA水平”建立预测模型其预测性能就已经高出初始数据集的预测性能,显然大大降低了数据维度和实验复杂性,并且RBF的分类性能较优于BP。当GA危险因素特征子集规模为2时,变异操作无论是均匀变异还是高斯变35 第三章基于BP和RBF神经网络的HBV再激活分类预测模型异得到的危险因素特征子集依然一致,然后对危险因素特征子集进行BP和RBF神经网络的分类性能预测,BP神经网络的预测性能如表3.3所示,RBF神经网络的预测性能如表3.4所示。表3.3特征子集规模为2时的BP神经网络预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、外放边界71.37%74.33%58.11%HBVDNA水平、肿瘤分期TNM70.22%74.59%56.61%HBVDNA水平、KPS评分69.98%74.29%54.89%外放边界、KPS评分67.81%66.30%73.04%外放边界、肿瘤分期TNM67.66%65.84%74.04%肿瘤分期TNM、KPS评分66.23%68.73%57.50%如表3.3所示,GA危险因素特征子集规模为2时选择“HBVDNA水平”和“外放边界”组成的危险因素特征子集的BP神经网络预测性能最好,其正确性、灵敏度和特异度分别为:71.37%,74.33%和58.11%,“HBVDNA水平”和“肿瘤分期TNM”的分类正确性也达到了70%。表3.4特征子集规模为2时的RBF神经网络预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、外放边界72.66%74.98%59.34%HBVDNA水平、肿瘤分期TNM71.23%75.21%57.51%HBVDNA水平、KPS评分70.75%75.41%56.50%外放边界、KPS评分69.14%67.70%75.32%外放边界、肿瘤分期TNM68.53%66.11%75.26%肿瘤分期TNM、KPS评分67.43%68.20%60.43%如表3.4所示,GA危险因素特征子集规模为2时选择“HBVDNA水平”和“外放边界”组成的危险因素特征子集的RBF神经网络预测性能最好,其正确性、灵敏度和特异度分别为:72.66%,74.98%和59.34%,危险因素特征子集:“HBVDNA水平”、“肿瘤分期TNM”和“HBVDNA水平”、“KPS评分”的分类正确性也达到了70%以上。对比3.3和3.4的预测性能,面对同样的危险因素特征子集,RBF的预测性能稍优于BP。危险因素特征子集规模为2时GA所选择的特征,相比表3.1中的初始数据集的分类正确性提高不明显,甚至是选择的一些危险因素的预测性能低于初始数据集,可能是由于选取到的2个危险因素在对HBV再激活预测中有一定的相互影响,致使HBV再激活预测性能降低。证明了GA36 齐鲁工业大学硕士学位论文特征子集规模的选取对HBV再激活预测性能存在影响。当GA危险因素特征子集规模为3时,我们把均匀变异和高斯变异得到的危险因素特征子集进行并集形式的整合,共计16组,然后对危险因素特征子集进行BP和RBF神经网络的分类性能预测,BP神经网络的预测性能如表3.5所示,RBF神经网络的预测性能如表3.6所示。表3.5特征子集规模为3时的BP神经网络预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、外放边界、Child-Pugh75.65%77.83%69.34%HBVDNA水平、KPS评分、外放边界76.20%78.40%70.00%HBVDNA水平、肿瘤分期TNM、外放边界78.61%79.26%70.00%HBVDNA水平、外放边界、V4574.71%73.48%70.00%HBVDNA水平、KPS评分、V4575.59%76.33%70.00%肿瘤分期TNM、KPS评分、外放边界72.41%73.16%69.76%HBVDNA水平、肿瘤分期TNM、V4572.19%73.50%67.64%HBVDNA水平、肿瘤分期TNM、KPS评分73.01%74.02%67.00%肿瘤分期TNM、Child-Pugh、外放边界72.00%72.62%69.82%HBVDNA水平、Child-Pugh、V4571.96%75.26%60.42%肿瘤分期TNM、外放边界、V4571.68%75.19%59.39%HBVDNA水平、KPS评分、Child-Pugh71.51%71.90%70.15%Child-Pugh、外放边界、V4571.23%74.18%60.88%HBVDNA水平、肿瘤分期TNM、Child-Pugh71.20%72.98%65.00%KPS评分、Child-Pugh、V4571.02%71.78%68.37%KPS评分、Child-Pugh、外放边界71.00%71.83%68.09%如表3.5所示,GA危险因素特征子集规模为3时选择“HBVDNA水平”、“肿瘤分期TNM”和“外放边界”组成的危险因素特征子集的BP神经网络预测性能最好,其正确性、灵敏度和特异度分别为:78.61%,79.26%和70.00%。在研究GA之前,曾根据PLC数据集的特点,把不同类型的数据分别采用卡方分析、独立样本T检验和秩和分析,然后再带入Logistic分析中提取到的具有显著意义的危险因素特征子集即包含“HBVDNA水平”、“肿瘤分期TNM”和“外放边界”,建立的BP分类预测性能也接近,与本文研究不谋而合,有效性不言而喻。预测性能其次的是危险因素特征子集包含:“HBVDNA水平”、“KPS评分”和“外放边界”,其分类正确性达到了76.20%。总共有5组危险因素特征子集的分类正确性接近或超过75%,当特征子集规模为3时GA所选的危险因素特征子集的分类37 第三章基于BP和RBF神经网络的HBV再激活分类预测模型正确性已经达到了71%,证明了当特征子集规模为3时基于BP的HBV再激活分类预测模型已经具有了良好的分类预测效果。表3.6特征子集规模为3时RBF神经网络的预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、外放边界、Child-Pugh78.90%81.54%69.68%HBVDNA水平、KPS评分、外放边界79.51%81.02%74.24%HBVDNA水平、肿瘤分期TNM、外放边界80.29%83.37%72.69%HBVDNA水平、外放边界、V4578.71%80.20%73.49%HBVDNA水平、KPS评分、V4578.68%79.75%74.95%肿瘤分期TNM、KPS评分、外放边界78.43%82.74%63.34%HBVDNA水平、肿瘤分期TNM、V4577.52%80.52%67.03%HBVDNA水平、肿瘤分期TNM、KPS评分77.38%79.61%69.58%肿瘤分期TNM、Child-Pugh、外放边界76.41%77.79%71.58%HBVDNA水平、Child-Pugh、V4575.99%76.58%73.92%肿瘤分期TNM、外放边界、V4575.53%75.94%74.08%HBVDNA水平、KPS评分、Child-Pugh74.48%77.12%65.23%Child-Pugh、外放边界、V4574.44%74.00%75.96%HBVDNA水平、肿瘤分期TNM、Child-Pugh74.43%74.73%73.38%KPS评分、Child-Pugh、V4574.16%74.74%72.15%KPS评分、Child-Pugh、外放边界72.70%74.86%65.13%如表3.6所示,GA危险因素特征子集规模为3时“HBVDNA水平”、“肿瘤分期TNM”和“外放边界”组成的危险因素特征子集的RBF神经网络预测性能最好,正确性、灵敏度和特异度分别为:80.29%,83.37%和72.69%。分类性能其次的是危险因素特征子集包含:“HBVDNA水平”、“KPS评分”和“外放边界”,其分类正确性达到了79.51%。总共有6组危险因素特征子集的分类正确性超过78%,11组危险因素特征子集的分类正确性超过75%。当特征子集规模为3时GA所选的危险因素特征子集的分类正确性已经超过了72%,已经优于初始特征集的分类性能,充分证明了当特征子集规模为3时基于RBF的HBV再激活分类预测模型已经具有了良好的分类预测效果,并且基于RBF的HBV再激活分类预测模型比BP具有更好的分类预测效果。当GA危险因素特征子集规模为4时,我们把均匀变异和高斯变异得到的危险因素特征子集依然进行并集形式的整合,共计15组,然后对危险因素特征子集进行BP和RBF神经网络的分类性能预测,BP神经网络的预测性能如表3.7所示,38 齐鲁工业大学硕士学位论文RBF神经网络的预测性能如表3.8所示。如表3.7所示,GA危险因素特征子集规模为4时选择“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”和“Child-Pugh”组成的危险因素特征子集的BP神经网络预测性能最好,其正确性、灵敏度和特异度分别为:80.98%,81.86%和74.89%。分类正确性达到80%以上的危险因素特征子集有3组,有11组危险因素特征子集的分类正确性接近或超过75%,当特征子集规模为4时GA所选的危险因素特征子集在BP预测模型中的分类正确性已经超过了73%,证明了当危险因素特征子集规模为4时基于BP的HBV再激活分类预测模型达到了更好的分类预测效果。表3.7特征子集规模为4时BP神经网络的预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、肿瘤分期TNM、外放边界、Child-Pugh80.98%81.86%74.89%HBVDNA水平、KPS评分、肿瘤分期TNM、外放边界80.78%81.37%74.70%HBVDNA水平、肿瘤分期TNM、外放边界、V4580.43%80.69%73.00%HBVDNA水平、KPS评分、外放边界、V4578.96%80.42%71.36%HBVDNA水平、外放边界、Child-Pugh、V4578.92%82.91%67.43%HBVDNA水平、GTV体积、外放边界、V4577.19%80.05%67.18%HBVDNA水平、KPS评分、Child-Pugh、V4576.74%82.36%72.08%HBVDNA水平、肿瘤分期TNM、GTV体积、KPS评分75.88%74.90%79.31%HBVDNA水平、肿瘤分期TNM、全肝最大剂量、V4575.88%81.64%65.72%V45、肿瘤分期TNM、Child-Pugh、外放边界75.67%77.73%68.44%V45、肿瘤分期TNM、外放边界、KPS评分74.90%78.22%63.30%KPS评分、Child-Pugh、V45、全肝最大剂量74.39%78.33%60.59%V45、肿瘤分期TNM、KPS评分、Child-Pugh74.14%75.32%70.00%Child-Pugh、GTV体积、外放边界、V4574.29%77.72%62.31%外放边界、KPS评分、Child-Pugh、V4573.61%79.74%52.13%如表3.8所示,GA危险因素特征子集规模为4时选择“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”和“Child-Pugh”组成的危险因素特征子集的RBF神经网络预测性能最好,其正确性、灵敏度和特异度分别为:81.26%,83.27%和74.25%。分类性能达到80%以上的危险因素特征子集有3组,有13组危险因素特征子集的分类正确性超过75%,剩余的两组接近75%,当特征子集规模为4时GA所选的危险因素特征子集在RBF预测模型中的分类正确性已经接近或超过75%,证明了当危险因素特征子集规模为4时基于BP的HBV再激活分类预测模39 第三章基于BP和RBF神经网络的HBV再激活分类预测模型型达到了更好的分类预测效果。而且,对比表3.7和3.8的分类预测实验结果,基于RBF的HBV再激活分类预测模型比BP具有更好的分类预测效果。表3.8特征子集规模为4时的RBF神经网络预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、肿瘤分期TNM、外放边界、Child-Pugh81.26%83.27%74.25%HBVDNA水平、KPS评分、肿瘤分期TNM、外放边界80.51%83.15%71.28%HBVDNA水平、肿瘤分期TNM、外放边界、V4580.08%81.53%75.00%HBVDNA水平、KPS评分、外放边界、V4579.48%81.45%72.57%HBVDNA水平、外放边界、Child-Pugh、V4579.17%80.56%74.29%HBVDNA水平、GTV体积、外放边界、V4579.15%80.51%74.40%HBVDNA水平、KPS评分、Child-Pugh、V4578.62%79.66%75.00%HBVDNA水平、肿瘤分期TNM、GTV体积、KPS评分78.47%79.59%74.58%HBVDNA水平、肿瘤分期TNM、全肝最大剂量、V4578.43%79.44%74.89%V45、肿瘤分期TNM、Child-Pugh、外放边界78.26%80.62%70.00%V45、肿瘤分期TNM、外放边界、KPS评分78.09%80.30%70.37%KPS评分、Child-Pugh、V45、全肝最大剂量77.87%80.30%69.36%V45、肿瘤分期TNM、KPS评分、Child-Pugh74.88%75.31%73.34%Child-Pugh、GTV体积、外放边界、V4575.23%75.30%75.00%外放边界、KPS评分、Child-Pugh、V4574.76%74.69%75.00%当GA危险因素特征子集规模为5时,我们把均匀变异和高斯变异得到的危险因素特征子集依然进行并集形式的整合,共计29组,然后对危险因素特征子集进行BP和RBF神经网络的分类性能预测,BP神经网络的预测性能如表3.9所示,RBF神经网络的预测性能如表3.10所示。如表3.9所示,GA危险因素特征子集规模为5时选择“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”和“Child-Pugh”组成的危险因素特征子集的BP神经网络预测性能最好,其正确性、灵敏度和特异度分别为:82.21%,87.02%和65.37%,相比初始数据集的分类正确性、灵敏度和特异度分别提高:10%,11.47%和14.17%。预测性能次好的是“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“Child-Pugh”和“V45”组成的危险因素特征子集,其分类正确性达到81.32%。分类正确性达到80%以上的危险因素特征子集有7组,有16组危险因素特征子集的分类正确性超过75%,分类正确性低于75%的危险因素特征子集有13组。当危险因素特征子集规模为5时GA选择出了更多的危险因素特征子集,并且建立的HBV再激活分类预测模型的分类性能也最好。40 齐鲁工业大学硕士学位论文表3.9特征子集规模为5时的BP神经网络预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、外放边界、肿瘤分期TNM、KPS评分、Child-Pugh82.21%87.02%65.37%HBVDNA水平、外放边界、肿瘤分期TNM、Child-Pugh、V4581.32%89.06%54.25%HBVDNA水平、外放边界、全肝最大剂量、甲胎蛋白AFP、V4580.35%82.79%66.82%HBVDNA水平、外放边界、全肝最大剂量、V45、V2080.02%81.87%73.57%HBVDNA水平、外放边界、肿瘤分期TNM、Child-Pugh、全肝最80.80%82.73%74.05%大剂量HBVDNA水平、GTV体积、外放边界、V45、V3080.90%82.07%75.00%HBVDNA水平、KPS评分、Child-Pugh、V45、甲胎蛋白AFP79.72%81.19%74.58%HBVDNA水平、外放边界、肿瘤分期TNM、KPS评分、全肝最78.88%80.61%72.82%大剂量HBVDNA水平、KPS评分、肿瘤分期TNM、全肝最大剂量、V4576.59%77.05%75.00%V45、肿瘤分期TNM、Child-Pugh、外放边界、GTV体积74.83%76.76%68.06%V45、肿瘤分期TNM、甲胎蛋白AFP、外放边界、KPS评分73.94%75.14%69.71%KPS评分、Child-Pugh、V45、全肝最大剂量、甲胎蛋白AFP73.69%74.81%69.76%Child-Pugh、V30、全肝最大剂量、KPS评分、GTV体积73.10%73.91%70.28%HBVDNA水平、KPS评分、肿瘤分期TNM、V30、全肝最大剂量75.16%74.18%68.61%肿瘤分期TNM、V30、Child-Pugh、V45、甲胎蛋白AFP70.71%69.92%73.49%HBVDNA水平、KPS评分、甲胎蛋白AFP、GTV体积、Child-Pugh79.29%80.51%75.00%HBVDNA水平、V45、V30、肿瘤分期TNM、KPS评分74.71%76.08%69.95%HBVDNA水平、肿瘤分期TNM、GTV体积、外放边界、V4573.60%74.35%70.95%HBVDNA水平、KPS评分、Child-Pugh、全肝最大剂量、V4576.98%78.27%71.95%HBVDNA水平、肿瘤分期TNM、GTV体积、KPS评分、V2074.56%75.32%69.89%HBVDNA水平、KPS评分、肿瘤分期TNM、甲胎蛋白AFP、V4580.57%82.38%74.24%V45、肿瘤分期TNM、Child-Pugh、V20、甲胎蛋白AFP72.15%74.33%71.00%V45、肿瘤分期TNM、KPS评分、Child-Pugh、V2073.87%74.97%70.00%Child-Pugh、甲胎蛋白AFP、外放边界、V45、全肝最大剂量73.02%74.10%69.22%全肝最大剂量、外放边界、KPS评分、GTV体积、V4572.79%74.87%65.53%V45、肿瘤分期TNM、Child-Pugh、外放边界、GTV体积72.75%73.89%68.76%甲胎蛋白AFP、V45、Child-Pugh、外放边界、GTV体积75.74%75.95%75.00%HBVDNA水平、外放边界、全肝最大剂量、V45、KPS评分76.64%79.96%73.54%HBVDNA水平、肿瘤分期TNM、全肝最大剂量、甲胎蛋白AFP、76.88%78.26%74.56%V2041 第三章基于BP和RBF神经网络的HBV再激活分类预测模型表3.10特征子集规模为5时的RBF神经网络预测性能危险因素特征子集正确性灵敏度特异度HBVDNA水平、外放边界、肿瘤分期TNM、KPS评分、Child-Pugh83.31%84.26%74.30%HBVDNA水平、外放边界、肿瘤分期TNM、Child-Pugh、V4582.53%83.75%73.58%HBVDNA水平、外放边界、全肝最大剂量、甲胎蛋白AFP、V4581.11%83.46%72.74%HBVDNA水平、外放边界、全肝最大剂量、V45、V2080.97%82.51%73.87%HBVDNA水平、外放边界、肿瘤分期TNM、Child-Pugh、全肝最82.69%84.31%73.92%大剂量HBVDNA水平、GTV体积、外放边界、V45、V3080.90%82.07%75.00%HBVDNA水平、KPS评分、Child-Pugh、V45、甲胎蛋白AFP80.14%81.84%73.64%HBVDNA水平、外放边界、肿瘤分期TNM、KPS评分、全肝最大80.18%81.19%72.46%剂量HBVDNA水平、KPS评分、肿瘤分期TNM、全肝最大剂量、V4577.43%78.24%75.94%V45、肿瘤分期TNM、Child-Pugh、外放边界、GTV体积75.56%76.95%70.61%V45、肿瘤分期TNM、甲胎蛋白AFP、外放边界、KPS评分74.57%76.71%70.76%KPS评分、Child-Pugh、V45、全肝最大剂量、甲胎蛋白AFP74.14%75.61%70.81%Child-Pugh、V30、全肝最大剂量、KPS评分、GTV体积73.89%74.41%70.78%HBVDNA水平、KPS评分、肿瘤分期TNM、V30、全肝最大剂量77.24%75.43%69.73%肿瘤分期TNM、V30、Child-Pugh、V45、甲胎蛋白AFP72.56%73.54%71.51%HBVDNA水平、KPS评分、甲胎蛋白AFP、GTV体积、Child-Pugh80.42%81.24%75.48%HBVDNA水平、V45、V30、肿瘤分期TNM、KPS评分76.24%77.61%70.69%HBVDNA水平、肿瘤分期TNM、GTV体积、外放边界、V4575.52%76.47%71.43%HBVDNA水平、KPS评分、Child-Pugh、全肝最大剂量、V4580.62%81.32%73.48%HBVDNA水平、肿瘤分期TNM、GTV体积、KPS评分、V2076.41%77.08%70.15%HBVDNA水平、KPS评分、肿瘤分期TNM、甲胎蛋白AFP、V4580.57%82.38%74.24%V45、肿瘤分期TNM、Child-Pugh、V20、甲胎蛋白AFP74.27%76.14%72.39%V45、肿瘤分期TNM、KPS评分、Child-Pugh、V2074.74%75.67%71.18%Child-Pugh、甲胎蛋白AFP、外放边界、V45、全肝最大剂量73.76%74.41%71.24%全肝最大剂量、外放边界、KPS评分、GTV体积、V4574.18%76.15%70.13%V45、肿瘤分期TNM、Child-Pugh、外放边界、GTV体积73.69%74.54%70.08%甲胎蛋白AFP、V45、Child-Pugh、外放边界、GTV体积76.81%76.38%73.49%HBVDNA水平、外放边界、全肝最大剂量、V45、KPS评分78.79%80.04%74.35%HBVDNA水平、肿瘤分期TNM、全肝最大剂量、甲胎蛋白AFP、79.91%81.97%73.29%V2042 齐鲁工业大学硕士学位论文如表3.10所示,GA危险因素特征子集规模为5时,“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”和“Child-Pugh”组成的危险因素特征子集的RBF神经网络预测性能最好,其正确性、灵敏度和特异度分别为:83.31%,84.26%和74.30%,相比初始数据集的分类正确性、灵敏度和特异度分别提高:11.1%,8.71%和23.1%。分类性能次好的是选择“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“Child-Pugh”和“V45”组成的危险因素特征子集,其分类正确性达到82.69%。分类正确性达到80%以上的危险因素特征子集增加到11组,相比BP预测模型增加了4组,有20组危险因素特征子集的分类正确性超过75%,分类正确性低于75%的危险因素特征子集减少到9组,“肿瘤分期TNM”、“V30”、“Child-Pugh”、“V45”和“甲胎蛋白AFP”组成的危险因素特征子集分类正确性最低,但比在BP预测模型中高出1.5%,达到了72.56%。对比表3.9和3.10中的HBV再激活分类预测性能,在同样的危险因素特征子集下RBF神经网络的分类预测性能较优于BP。3.6本章小结基于BP和RBF神经网络的HBV再激活分类预测结果显示,GA选择不同特征子集规模得到的危险因素特征子集的分类预测性能不同,且危险因素特征子集的分类预测性能明显较优于初始数据集的分类预测性能。当特征子集规模为1时,GA选择到的是“HBVDNA水平”,对“HBVDNA水平”建立的BP和RBF神经网络预测模型的分类正确性分别为73.08%和73.56%。从危险因素特征选择以及预测性能上与黄伟等医学研究人员认为“HBVDNA水平”是导致HBV再激活的危险因素结论相符,即证明了用危险因素特征子集具有良好的分类预测性能。当特征子集规模为2时,“HBVDNA水平”和“外放边界”组成的危险因素特征子集的分类性能最好,建立的BP和RBF神经网络预测模型的分类正确性分别为71.37%和72.66%,仅仅2个特征就已经达到初始数据集的分类正确性,有效降低了数据的维度和计算量。当特征子集规模为3时,GA选择“HBVDNA水平”、“外放边界”和“肿瘤分期TNM”组成的危险因素特征子集,这与本人前期论文采用Logistic回归统计分析找出的危险因素一致,再次证明了GA的有效性。这组危险因素特征子集的分类性能较好,建立的BP和RBF神经网络预测模型的分类正确性分别为78.61%和80.29%,这与前期论文中用Logistic统计选择出来的危险因素基础上建立的BP和RBF的HBV再激活预测结果相符,并且该组特征子集的分类性能高于“HBVDNA水平”和“外放边界”,即“肿瘤分期TNM”的加入提高了HBV再激活分类性能,因此“肿瘤分期TNM”对HBV再激活判断是有正贡献度的。43 第三章基于BP和RBF神经网络的HBV再激活分类预测模型当特征子集规模为4时,GA选择“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”和“Child-Pugh”组成的危险因素特征子集的分类性能最好,分类正确性达到80.98%,相比初始数据集的分类正确性提高了9.8%,并且有3组危险因素特征子集首次在BP神经网络预测模型的HBV再激活分类正确性达到80%。“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”和“Child-Pugh”这组危险因素特征子集在RBF神经网络预测模型分类性能正确性达到81.26%,相比初始数据集的分类正确性提高了9.05%。该组危险因素特征子集相比“HBVDNA水平”、“外放边界”和“肿瘤分期TNM”组成的特征子集增加了“Child-Pugh”,对HBV再激活的分类性能也有所提高,因此“Child-Pugh”对HBV再激活判断是有正贡献度的。当特征子集规模为4时得到的危险因素特征子集已经具有了良好的分类预测能力。当GA危险因素特征子集规模为5时,选择“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”和“Child-Pugh”组成的危险因素特征子集在BP神经网络预测模型的分类性能最好,其正确性达到82.21%,相比初始数据集的分类正确性提高10%,分类正确性达到80%以上的危险因素特征子集有7组。该组危险因素特征子集的RBF神经网络分类正确性为83.31%,相比初始数据集的分类正确性提高11.1%,分类正确性达到80%以上的危险因素特征子集增加到11组。该组危险因素特征子集相比“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”和“Child-Pugh”组成的危险因素特征子集的分类性能要优秀,即“KPS评分”的加入提高了HBV再激活分类性能,因此“Child-Pugh”对HBV再激活判断是有正贡献度的,也应当引起医学人员的注意。未来针对PLC的治疗将是基于高可信度证据的个体化治疗,而目前对PLC患者放疗致HBV再激活仍缺少科学的个体化指导依据,因此本文基于BP和RBF神经网络的HBV再激活预测模型在对PLC患者面对发生HBV再激活时提供了科学、准确的预测机制,解决了原发性肝癌放疗后HBV再激活预测模型的问题。而且,使用GA选择出危险因素特征子集建立的BP和RBF神经网络预测模型相比初始特征集的分类性能更好,这为医生在对病人进行治疗过程中提供了可靠的预测作用,对PLC病人放疗过程中可同时监控多个危险因素数值的变化,尤其是对已经感染HBV但未发生HBV激活的PLC患者,进行HBV再激活预测判断,根据预测结果采取抗病毒以及肝保护等治疗方法,减少HBV再激活的发生,这对提高患者的生存质量乃至延长生存周期有着重要意义。基于GA的特征选择方法以及两种预测模型在HBV再激活预测中具有较高的应用价值。44 齐鲁工业大学硕士学位论文第四章基于CART算法的HBV再激活分类预测模型4.1CART算法简介[60,61][62]决策树(DecisionTree)是机器学习方法中的重要分类算法,包括ID3、[63]C4.5、CART(ClassificationAndRegressionTree)等算法。CART全称是分类与回[64]归树,属于经典的决策树算法,由Breinman提出。CART把数据中的属性值作为结点,按照严格的二叉划分法和划分规则将当前数据集划分成两个数据子集,然后按照划分规则继续划分出当前子集,直到满足符合算法结束的条件。CART划分过程中使用重采样计算误差和最小代价复杂性对二叉树进行剪枝。CART划分得到一棵二叉树,这棵树从根结点至叶子结点形成一条分类规则,整棵CART树就存在一组分类规则,可以用if-then语句来描述分类规则的表达式。简单的CART树示意图如图4.1所示,该树存在两类结果,X类和Y类,划分过程为:数据集中的某一属性n1作为整棵树的根结点,按照某一划分规则来划分树时,若数据集中n1的属性值大于等于v1,则往左子树进行划分,否则往右子树进行划分;继续选取属性n2作为左子树的根结点,n2存在对应的属性值大于等于v2则继续往该结点的左子树划分,若此时左子树为叶子结点,则叶子结点显示划分的结果,结束该左子树划分;否则继续往右子树划分,右子树也按照如此的划分方法进行划分,直至最后划分到所有的叶子结点,叶子结点都表示为划分结果。按照CART树的划分,则存在一组CART划分规则:1.ifn1≥v1thennoden2elseifn1=2.5thennode3elseNormal2.ifx25<9.85thennode4elseifx25>=9.85thennode5elseNormal3.ifx17<9.5thennode6elseifx17>=9.5thennode7elseNormal4.class=Normal5.ifx21<19.9thennode8elseifx21>=19.9thennode9elseNormal6.class=Normal7.ifx10<65.4thennode10elseifx10>=65.4thennode11elseReactivation8.class=Reactivation9.class=Normal10.class=Reactivation11.class=Normal由于从划分规则图和划分表达式都可以进行预测判断,从图中更易清晰理解分类规则,因此后面不再对分类规则表达式进行描述。49 第四章基于CART算法的HBV再激活分类预测模型图4.2特征结点集:HBVDNA水平(x9)、V40(x25)、外放边界(x17)、V20(x21)和放疗总剂量(x10)分类规则表4.1第2组特征结点集:HBVDNA水平(x9),外放边界(x17)和KPS评分(x3)在10次Hold-out检验中出现了3次,其预测正确性、灵敏度和特异度为85.16%、97.80%和77.61%其分类规则如图4.3所示。该组特征结点集的CART分类性能明显高于BP和RBF神经网络,相比BP的正确性高出8.96%,相比RBF的正确性高出5.65%。图4.3特征结点集:HBVDNA水平(x9)、外放边界(x17)和KPS评分(x3)的分类规则表4.1第3组特征结点集:HBVDNA水平(x9)、GTV体积(x15)、外放边界(x17)和全肝平均剂量(x28)在10次Hold-out检验中出现了3次,其预测正确性、灵敏度和特异度为82.06%、89.17%和70.64%,其分类规则如图4.4所示。50 齐鲁工业大学硕士学位论文图4.4特征结点集:HBVDNA水平(x9)、GTV体积(x15)、外放边界(x17)和全肝平均剂量(x28)的分类规则从图4.1至图4.4的CART树特征结点选择中,特征结点x9(HBVDNA水平)总会第一个被选择出来,证明了在所有的特征结点中,该特征结点具有最强的划分规则,这与前面的研究“HBVDNA水平”是致使HBV再激活的危险因素的结论具有一致性,其它影响HBV再激活的危险因素也会被CART选择出来。当Hold-out检验的P值为0.8时,运行了10次Hold-Out划分CART树所选择的特征结点集及预测结果如表4.2所示。表4.2Hold-out的P值为0.8时CART所选的特征结点集及CART预测结果特征结点集次数正确性灵敏度特异度HBVDNA水平、外放边界、放疗总剂量、V20、KPS评分488.51%97.74%74.54%HBVDNA水平、Child-Pugh、外放边界、V40486.35%93.89%78.81%HBVDNA水、V30、外放边界、Child-Pugh、全肝平均剂量283.21%88.38%76.25%表4.2第1组特征结点集:HBVDNA水平(x9)、外放边界(x17)、放疗总剂量(x10)、V20(x21)和KPS评分(x3)出现4次,该组特征结点集在之前的研究中被证实是影响HBV再激活的危险因素,证明CART可以充分将影响HBV再激活的危险因素选择出来。其分类规则如图4.5所示,其正确性为88.51%,灵敏度为97.74%,特异度为74.54%,该组特征节点集的分类正确性最好。51 第四章基于CART算法的HBV再激活分类预测模型图4.5特征结点集:HBVDNA水平(x9)、外放边界(x17)、放疗总剂量(x10)、V20(x21)、KPS评分(x3)的分类规则表4.2第2组特征结点集:HBVDNA水平(x9)、Child-Pugh(x7)、外放边界(x17)和V40(x25)出现4次,其分类规则如图4.6所示,其分类正确性为86.35%、灵敏度为93.89%、特异度为78.81%,该特征结点集也具有优秀的分类能力。图4.6特征结点集:HBVDNA水平(x9)、Child-Pugh(x7)、外放边界(x17)、V40(x25)的分类规则表4.2第3组特征结点集:HBVDNA水平(x9)、V30(x23)、外放边界(x17)、Child-Pugh(x7)、全肝平均计量(x28)出现了2次,其分类规则如图4.7所示,该组特征结点集的正确性为83.21%、灵敏度为88.38%、特异度为76.25%。52 齐鲁工业大学硕士学位论文图4.7特征结点集:HBVDNA水平(x9)、V30(x23)、外放边界(x17)、Child-Pugh(x7)、全肝平均计量(x28)的分类规则当Hold-out检验的P值为0.9时,运行了10次Hold-Out划分CART树所选择的特征结点集及预测结果表4.3所示。表4.3Hold-out的P值为0.9时CART所选的特征结点集及CART预测结果特征结点集和初始特征集次数正确性灵敏度特异度HBVDNA水平、肿瘤分期TNM、外放边界、Child-Pugh587.01%97.95%73.14%HBVDNA水平、V30、外放边界、Child-Pugh、肿瘤分期284.65%91.20%73.50%TNMHBVDNA水平、V40、外放边界、全肝平均计量、放疗总284.22%90.86%72.96%剂量HBVDNA水平、外放边界、肿瘤分期TNM、V45、V25180.31%82.63%72.39%表4.3第1组特征结点集:HBVDNA水平(x9)、肿瘤分期TNM(x6)、外放边界(x17)、Child-Pugh(x7)出现5次,其分类规则如图4.8所示,其正确性为87.01%,灵敏度为97.95%,特异度为73.14%。该组特征结点集的分类性能明显优于BP和RBF预测模型的分类性能,证明了CART具有优秀的特征选择和分类能力。53 第四章基于CART算法的HBV再激活分类预测模型图4.8特征结点集:HBVDNA水平(x9)、肿瘤分期TNM(x6)、外放边界(x17)、Child-Pugh(x7)的分类规则表4.3第2组特征结点集:HBVDNA水平(x9)、V30(x23)、外放边界(x17)、Child-Pugh(x7)、肿瘤分期TNM(x6)出现2次,其分类规则如图4.9所示,其正确性为84.65%,灵敏度为91.20%,特异度为73.50%。图4.9特征结点集:HBVDNA水平(x9)、V30(x23)、外放边界(x17)、Child-Pugh(x7)、肿瘤分期TNM(x6)的分类规则表4.3第3组特征结点集:HBVDNA水平(x9)、V40(x25)、外放边界(x17)、全肝平均计量(x28)、放疗总剂量(x10)出现2次,其分类规则如图4.10所示,其正确性为84.22%,灵敏度为90.86%,特异度为72.96%。54 齐鲁工业大学硕士学位论文图4.10特征结点集:HBVDNA水平(x9)、V40(x25)、外放边界(x17)、全肝平均计量(x28)、放疗总剂量(x10)的分类规则表4.3第4组特征结点集:HBVDNA水平(x9)、外放边界(x17)、肿瘤分期TNM(x6)、V45(x26)、V25(x22)出现1次,其分类规则如图4.11所示,其正确性为80.31%,灵敏度为82.63%,特异度为72.39%。图4.11特征结点集:HBVDNA水平(x9)、外放边界(x17)、肿瘤分期TNM(x6)、V45(x26)、V25(x22)的分类规则4.6本章小结我们使用CART算法构建了HBV再激活分类预测模型,在构建CART模型当中,我们使用了基于基尼系数的误差函数,然后又使用代价复杂性作为后剪枝55 第四章基于CART算法的HBV再激活分类预测模型技术,为了避免出现泛化结果,采用了Hold-out检验办法。CART划分出多组易于理解的分类规则,且不同的CART树模型具有不同的HBV再激活分类预测性能。我们找出5组特征结点集的分类正确性达到85%以上,尤其是当特征结点集是:HBVDNA水平、外放边界、放疗总剂量、V20、KPS评分时,分类正确性达到了88.51%,灵敏度高达97.95%,特异度为73.14%,证明CART可以充分将影响HBV再激活的危险因素选择出来。CART算法在选择特征结点时,放疗总剂量和一些VD(V20,V40等)被选择出来的可能性增加,即CART算法关注到了剂量体积参数等一些因素,这对过少关注或未关注过这些危险因素的医学研究人员提供了参考价值。而且CART算法建立的预测模型更优秀,凸显出CART算法根据危险因素作为划分属性的嵌入式特征选择的优势。CART不仅选择出了容易致使HBV再激活的危险因素,而且建立的预测模型还具有非常优秀的分类性能,将危险因素结点之间的关系清晰地展示出来,CART模型的划分规则,更利于临床医生的理解。无论是选择出的危险因素特征结点还是建立的CART预测模型,都可帮助医生精确放疗的PLC患者进行HBV再激活预测判断,并对个体进行指导性治疗,建立良好的预防HBV再激活的举措,对防止HBV发生再激活和提高患者的治疗效果,乃至防止HBV再激活导致的死亡具有重要意义。56 齐鲁工业大学硕士学位论文第五章结论与工作展望5.1结论目前,国内外对于PLC患者精确放疗后致使HBV再激活的危险因素研究大部分是通过医学统计进行的,本文先进性提出了基于计算机智能计算的方法用在该研究上,并且充分考虑了放疗临床因素、计量学参数等因素组成的高维数据会影响找出HBV再激活危险因素的问题,采用了特征选择方法分析HBV再激活的危险因素,然后建立HBV再激活的智能分类预测模型。本文提出的两种方案解决了肝癌放疗后乙型肝炎病毒再激活问题,并建立了3个预测模型,方案一:通过GA对PLC数据集的特征选择,找出不同规模的危险因素特征子集,利用危险因素特征子集来建立基于BP和RBF神经网络的HBV再激活分类预测模型,进而进行HBV再激活分类预测。方案二:通过使用CART嵌入式特征选择的优势,选择HBV再激活的危险因素建立CART预测模型,然后再进行HBV再激活分类预测。两种思路都找出了PLC患者精确放疗导致HBV再激活的危险因素特征子集,解决了原发性肝癌精确放疗致乙肝病毒再激活预测模型的问题。使用GA特征选择确定了易致HBV发生再激活的危险因素特征子集,为后续的BP和RBF神经网络预测模型做了基础。GA的特征子集规模和变异操作使选择出来的危险因素特征子集存在差异,对预测模型和分类结果产生一定影响,危险因素特征子集在GA中的出现次数以及建立的BP和RBF神经网络预测模型的分类性能呈正相关性。当特征子集规模为1时,GA选择“HBVDNA水平”作为危险因素特征子集建立的BP和RBF神经网络分类预测模型性能最优,分类正确性分别为:73.08%和75.42%。当特征子集规模为2时,GA选择“HBVDNA水平、外放边界”作为危险因素特征子集建立的BP和RBF神经网络分类预测模型性能最优,分类正确性分别为:71.37%和72.66%。当特征子集规模为3时,GA选择“HBVDNA水平”、“外放边界”和“肿瘤分期TNM”作为危险因素特征子集建立的BP和RBF神经网络分类预测模型性能最优,分类正确性分别为:78.61%和80.29%。当特征子集规模为4时,GA选择“HBVDNA水平”、“肿瘤分期TNM”、“外放边界”和“Child-Pugh”作为危险因素特征子集建立的BP和RBF神经网络分类预测模型性能最优,分类正确性分别为:80.98%和81.26%。当特征子集规模为5时,GA选择“HBVDNA水平”、“外放边界”、“肿瘤分期TNM”、“KPS评分”和“Child-Pugh”作为危险因素特征子集建立的BP和RBF57 第五章结论与工作展望神经网络分类预测模型性能最优,分类正确性分别为:82.21%和83.31%,相比初始数据集的分类正确性分别提高10%和11%,HBV再激活分类预测实验显示RBF预测模型的分类性能较优于BP。CART算法构建了分类性能较好的HBV再激活分类预测模型,并且得到多组易于理解的分类规则和分类表达式,尤其是当特征结点集是“HBVDNA水平”、“外放边界”、“放疗总剂量”、“V20”和“KPS评分”时的分类正确性达到88.51%。CART算法在选择特征结点时,放疗总剂量和一些VD(V20,V40等)被选择出来的可能性增加,即CART算法关注到了剂量体积参数等一些因素,这对过少关注或未关注过这些危险因素的医学研究人员提供了参考价值。CART嵌入式的特征选择充分发挥了决策树白箱模型的优势,将危险因素结点之间的关系清晰地展示出来,CART模型的划分规则,更利于临床医生的理解。本文提出的基于智能计算的HBV再激活分类预测模型,可帮助医生对精确放疗的肝癌患者尤其是已感染HBV病毒的患者进行HBV再激活预判,可针对患者个体情况采取个体化治疗措施,结合抗病毒和抗肿瘤治疗手段防止HBV再激活甚至HBV再激活导致的患者死亡,对提高患者的治疗效果,乃至延长生命周期都具有重要意义。5.2工作展望本文针对PLC患者精确放疗致HBV再激活问题建立了BP、RBF和CART分类预测模型,解决了HBV再激活建模的问题,但研究中也存在一些需要注意的问题:(1)研究数据来自山东省肿瘤医院进行精确放疗的90例PLC患者临床资料,下一目标是扩大研究数据量,建立预测精度更好的实验。(2)对于利用智能计算方法处理医学数据方面还需要进一步学习,加强对算法的学习、改进和使用。(3)同国内外研究精确放疗致HBV再激活的医学人员增强交流,进一步认识PLC患者精确放疗致HBV再激活的危险因素,并讨论医学模型和本文模型的优缺点,争取将本文提出的方法和医学人员提出的方法相结合,建立更优秀的HBV再激活预测模型。今后将继续研究其它特征选择和分类器算法,致力于提高HBV再激活预测模型正确性。58 齐鲁工业大学硕士学位论文参考文献[1]WangR,ChenXZ,ZhangMG,etal.IncidenceandmortalityoflivercancerinmainlandChina:changesinfirstdecadeof21stcentury.[J].Hepato-gastroenterology,2015,62(137):118-121.[2]杨婉婷,侯恩存.原发性肝癌治疗的研究进展[J].现代肿瘤医学,2016,(21):3495-3499.[3]莫凯迪,杨建荣,李碧锦,等.原发性肝癌外科治疗方式选择及术后肿瘤复发防治相关性研究[J].实用癌症杂志,2017,(01):124-127+130[4]YamashitaH,OnishiH,MurakamiN,etal.Survivaloutcomesafterstereotacticbodyradiotherapyfor79Japanesepatientswithhepatocellularcarcinoma[J].JournalofRadiationResearch,2015,56(3):561-7.[5]卢彦达.原发性肝癌三维适形放疗乙型肝炎病毒再激活[D].天津医科大学,2010.[6]范敏,黄伟.抗肿瘤治疗致乙型肝炎病毒再激活的影响因素及机制进展[J].中华临床医师杂志(电子版),2015,9(1):100-104.[7]汪孟森.原发性肝癌三维适形放疗致乙型肝炎病毒再激活相关研究[D].济南:济南大学,2014.[8]汪孟森,于甬华.恶性肿瘤放化疗致乙型肝炎病毒再激活防治进展[J].国际肿瘤学杂志,2014,41(3):184-187.[9]吴晓安,章志勇,严志彪,等.原发性肝癌三维适形放疗的临床研究[J].临床肿瘤学杂志,2008,13(6):538-540.[10]KimJH,ParkJW,KimTH,etal.HepatitisBvirusreactivationafterthree-dimensionalconformalradiotherapyinpatientswithhepatitisBvirus-relatedhepatocellularcarcinoma.[J].InternationalJournalofRadiationOncologyBiologyPhysics,2007,69(3):813-819.[11]JangJW,KwonJH,YouCR,etal.RiskofHBVreactivationaccordingtoviralstatusandtreatmentintensityinpatientswithhepatocellularcarcinoma.[J].AntiviralTherapy,2011,16(7):969-977.[12]KimIK,KimBG,KimW,etal.ClinicalpredictionoffailureofLamivudineprophylaxisforhepatitisBvirus-infectedpatientsundergoingcytotoxicchemotherapyformalignancy.[J].AntimicrobAgentsChemother.2012,56(11):5511-5519.59 参考文献[13]黄伟,卢彦达,张炜,等.原发性肝癌精确放疗致乙型肝炎病毒再激活分析[J].中华放射肿瘤学杂志,2013,22(3):193-197.[14]HuangW,ZhangW,FanM,etal.RiskfactorsforhepatitisBvirusreactivationafterconformalradiotherapyinpatientswithhepatocellularcarcinoma[J].CancerScience,2014,105(6):697.[15]姚晖,龚金兰,李莉,等.肝癌患者精确放疗后HBV病毒再激活的危险因素分析[J].实用癌症杂志,2014(6):675-677.[16]张晶晶,曲颂,余建荣,等.原发性肝癌三维适形放疗致乙型肝炎病毒再激活相关研究[J].癌症进展,2015,13(2):183-187.[17]吴冠朋,王帅,黄伟,等.基于BP神经网络的肝癌放疗致乙型肝炎病毒再激活分类预测模型[J].智能计算机与应用,2016,6(2):43-47.[18]LiZ,HuangW,LiH,etal.SU-F-T-103:AnalysisofHepatitisBVirusReactivationAfterConformalRadiotherapyinPatientswithHepatocellularCarcinomaUsingtheLymanNTCPModel[J].MedicalPhysics,2016,43(6):3485.[19]WuGP,LiuYH,WangS,etal.TheclassificationprognosismodelsofhepatitisbvirusreactivationbasedonBayesandsupportvectormachineafterfeatureextractionofgeneticalgorithm[C].The201612thInternationalConferenceonNaturalComputation,FuzzySystemsandKnowledgeDiscovery(ICNC-FSKD2016).2016,(08):572-577.[20]GeneticAlgorithm,Wikipedia[OL].Http://en.wikipedia.org/wiki/Geneticalgorithm.[21]HollandJ.AdaptationinNaturalandArtificialSystems[M].Cambridge:TheMITPress,1992.[22]GoldbergDE.GeneticAlgorithmsinSearch,OptimizationandMachineLearning[M].Addison-WesleyPub.Co,1989.[23]FonsecaCM,FlemingPJ.GeneticAlgorithmsforMultiobjectiveOptimization:FormulationDiscussionandGeneralization[C].InternationalConferenceonGeneticAlgorithms.MorganKaufmannPublishersInc.1999:416-423.[24]GenM,ChengR.GeneticAlgorithmsandEngineeringOptimization[M].NewYork,JohnWiley,2000[25]王小平,曹立明.遗传算法——理论、应用与软件实现[M].西安交通大学出版社,2002.[26]雷英杰.MATLAB遗传算法工具箱及应用[M].西安电子科技大学出版社,2014.[27]RashidMA,KhatibF,HoqueMT,etal.AnEnhancedGeneticAlgorithmforAb60 齐鲁工业大学硕士学位论文Initio,ProteinStructurePrediction[J].IEEETransactionsonEvolutionaryComputation,2015,20(4):1-1.[28]WeiH,TangXS,LiuH.Ageneticalgorithm(GA)-basedmethodforthecombinatorialoptimizationincontourformation[J].AppliedIntelligence,2015,43(1):112-131.[29]TakahashiMB,RochaJC.Optimizationofartificialneuralnetworkbygeneticalgorithmfordescribingviralproductionfromuniformdesigndata[J].ProcessBiochemistry,2015,51(3):422-430.[30]王帅.基于数据分析的肝癌放疗后乙肝病毒再激活模型[D].齐鲁工业大学,2016.[31]IjjinaEP,ChalavadiKM.Humanactionrecognitionusinggeneticalgorithmsandconvolutionalneuralnetworks[J].PatternRecognition,2016,59(11):199-212.[32]PhanAV,NguyenML,BuiLT.FeatureweightingandSVMparametersoptimizationbasedongeneticalgorithmsforclassificationproblems[J].AppliedIntelligence,2016:1-15.[33]DayhoffJE,DeleoJM.Artificialneuralnetworks[J].Cancer,2001,91(S8):1615-1635.[34]GalloC.ArtificialNeuralNetworks:tutorial[M].EncyclopediaofInformationScienceandTechnology.2015.[35]MccullochWS,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity.1943.[J].BulletinofMathematicalBiology,1943,52(4):99-115.[36]HebbDO.TheOrganizationofBehaviour[J].JournalofAppliedBehaviorAnalysis,1949,25(3):575–577.[37]RosenblattF.PrinciplesofNeurodynamics:Perceptronsandthetheoryofbrainmechanisms[M].SpartanBooks,Washington,D.C.,1962[38]MinskyM,PapertS.Perceptrons[J].AmericanJournalofPsychology,1969,84(3):449–452.[39]HopfieldJJ.Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,1982,79(8):2554-2558.[40]RumelhartDE,HintonGE,WilliamsRJ.Learningrepresentationsbyback-propagatingerrors[J].Nature,1986,323(6088):533-536.[41]叶夏菁.基于BP神经网络与半监督学习的网贷平台信用评估模型[D].浙江大学,2015.[42]管锴.基于GA-BP神经网络的储能锂离子电池管理系统研究[D].中国海洋大61 参考文献学,2015.[43]刘建华,王建伟.基于图像处理的CT图像肝癌诊断技术研究[J].清华大学学报(自然科学版),2014,(07):917-923.[44]刘子翔.基于GA和LM算法优化的BP神经网络在城市空气质量预測中的应用研究[D].山东大学,2015.[45]杨锦跃.基于BP神经网络的建筑工程造价预测研究[D].浙江大学,2015.[46]黄震.基于BP神经网络模型的中国P2P借款人信用风险评估研究[D].北京交通大学,2015.[47]徐学琴,杜进林,孙宁,等.改进的BP神经网络模型在麻疹预测中的应用研究[J].中国现代医学杂志,2014,(31):52-55.[48]张凡,齐平,倪春梅.基于PSO的BP神经网络在腮腺炎发病率预测中的应用[J].现代预防医学,2014,(11):1924-1927.[49]HanXH,XiongX,DuanF.AnewmethodforimagesegmentationbasedonBPneuralnetworkandgravitationalsearchalgorithmenhancedbycatchaoticmapping[J].AppliedIntelligence,2015,43(4):855-873.[50]叶华容,杨怡,林萱,等.BP神经网络在高频彩超特征诊断乳腺癌中的应用[J].中国卫生统计,2016,33(1):71-72.[51]BroomheadDS,LoweD.Radialbasisfunctions,multi-variablefunctionalinterpolationandadaptivenetworks[J].AdvancesinNeuralInformationProcessingSystems,1988,rsre-memo-4148:728-734.[52]KokkinosY,MargaritisKG.TopologyandsimulationsofaHierarchicalMarkovianRadialBasisFunctionNeuralNetworkclassifier[J].InformationSciences,2015,294(C):612-627.[53]李颖.基于递归自组织RBF神经网络的SVI软测量研究[D].北京工业大学,2016.[54]闻新.应用MATLAB实现神经网络[M].国防工业出版社,2015.[55]武建辉,薛玲,郭正军,等.基于径向基函数神经网络的组合模型在煤工尘肺发病工龄预测中的应用[J].郑州大学学报(医学版),2014,(06):818-822.[56]ChenX,ShenW,DaiM,etal.RobustAdaptiveSliding-ModeObserverUsingRBFNeuralNetworkforLithium-IonBatteryStateofChargeEstimationinElectricVehicles[J].IEEETransactionsonVehicularTechnology,2016,65(4):1936-1947.[57]CentenoLLR,MüllerC,RibeiroSM.CognitiveradiosignalclassificationbasedonsubspacedecompositionandRBFneuralnetworks[J].WirelessNetworks,2016:1-11.62 齐鲁工业大学硕士学位论文[58]徐昇,业宁,徐姗姗.径向基网络中样本属性的贡献因子研究[J].计算机科学与探索,2012,(02):183-192.[59]Dahliyusmanto,HerawanT,YulinaS,etal.AFeatureSelectionAlgorithmforAnomalyDetectioninGridEnvironmentUsingk-fold,CrossValidationTechnique[M].RecentAdvancesonSoftComputingandDataMining.2017.[60]KimK.Ahybridclassificationalgorithmbysubspacepartitioningthroughsemi-superviseddecisiontree[J].PatternRecognition,2016,60:157-163.[61]QuinlanJR.Inductionondecisiontree[J].MachineLearning,1986,1(1):81-106.[62]PodgorelecV,ZormanM.DecisionTreeLearning[M].MachineLearningModelsandAlgorithmsforBigDataClassification.2016.[63]RipleyB.ClassificationandRegressionTrees[J].WileyInterdisciplinaryReviewsDataMining&KnowledgeDiscovery,2015,1(1):14-23.[64]BreimanL,FriedmanJ,OlshenR,etal.ClassificationandRegressionTrees.Belmont,CA:WadsworthInternationalGroup.[J].Biometrics,1984,40(3):17–23.[65]PudloP,MarinJM,EstoupA,etal.ReliableABCmodelchoiceviarandomforests[J].Bioinformatics,2016,32(6):859-866.[66]李航.统计学习方法[M].清华大学出版社,2012.[67]陈磊,刘毅慧.基于CART算法的肺癌微阵列数据的分类[J].生物信息学,2011,09(3):229-234.[68]KongAL,PezzinLE,NattingerAB.Identifyingpatternsofbreastcancercareprovidedathigh-volumehospitals:aclassificationandregressiontreeanalysis[J].BreastCancerResearch&Treatment,2015,153(3):689-98.[69]GasparovicaasiteM,PolakaI,AlekseyevaL.TheImpactofFeatureSelectionontheInformationHeldinBioinformaticsData[J].InformationTechnology&ManagementScience,2016,18(1):115-121.[70]伍刚,许国宇,刘广韬,等.决策树模型与logistic回归模型在脑出血预后分析中的应用[J].解放军医学杂志,2015,(12):1003-1006.[71]李明.基于CART树的上市公司财务风险预测研究[D].武汉科技大学,2015.63 齐鲁工业大学硕士学位论文64 齐鲁工业大学硕士学位论文致谢在齐鲁工业大学三年研究生生涯即将结束,回顾三年来的研究生生活,我对实验中的努力而欣慰,对一篇篇论文的完成而感受到不枉虚度光阴。首先,感谢导师刘毅慧在学术研究以及生活上的指导,刘老师从研一论文选题到研二论文中期指导再到研三论文完成过程中一直耐心指导。在科研中,刘老师教导有方,循循善诱,她严谨的科研态度,诲人不倦的高尚师德都对我产生着影响,令我形成了良好的科研态度。生活中刘老师常常叮嘱我要多锻炼,注意休息,保持健康的身体。刘老师的一言一行都深深影响着我,永远是我学习的榜样。特别感谢山东省肿瘤医院的黄伟老师多次来校与导师和我进行交流,感谢黄伟老师在医学知识方面提供的支持和帮助,感谢黄伟老师对研究课题的资助,同时也要感谢信息学院各位老师的支持和帮助。感谢吴文峰师兄、王帅师兄、王艳春师姐等人对我学习上的帮助,感谢衣鹏飞、宁祥岭、张鑫等人对我学习和班级工作的支持,感谢王慧娜师妹、张帅燕师妹等人。有你们使我的生活更加的精彩。感谢父母多年来的养育之恩,三年研究生学习中一直在默默地支持,感谢父母对我的栽培,感谢你们无私的陪伴和帮助。最后,感谢各位评审专家以及答辩专家对我的论文进行审阅和指导,感谢您对我学术上的不足进行批评和指正。即将离开校园,衷心希望齐鲁工业大学能越办越好,也希望自己在新的生活中时刻保持踏踏实实做事,勤勤恳恳做人。65 齐鲁工业大学硕士学位论文66 齐鲁工业大学硕士学位论文在学期间主要科研成果一、发表学术论文[1]WuGP,LiuYH,WangS,etal.TheclassificationprognosismodelsofhepatitisbvirusreactivationbasedonBayesandsupportvectormachineafterfeatureextractionofgeneticalgorithm[C].The201612thInternationalConferenceonNaturalComputation,FuzzySystemsandKnowledgeDiscovery(ICNC-FSKD2016).2016,(08):572-577.[2]WuGP,WangS,HuangW,etal.ApplicationofBPandRBFNeuralNetworkinClassificationPrognosisofHepatitisBVirusReactivation[J].JournalofElectricalandElectronicEngineering,2016,4(2):35-39.[3]吴冠朋,刘毅慧,王帅,等.基于遗传算法特征选择的HBV再激活分类预测模型[J].生物信息学,2016,14(4):243-248.[4]吴冠朋,王帅,黄伟,等.基于BP神经网络的肝癌放疗致乙型肝炎病毒再激活分类预测模型[J].智能计算机与应用,2016,6(2):43-47.[5]WangS,WuGP,HuangW,etal.ThePredictiveModelofHepatitisBVirusReactivationInducedbyPreciseRadiotherapyinPrimaryLiverCancer[J].JournalofElectricalandElectronicEngineering,2016,4(2):31-34.[6]基于CART特征选择的原发性肝癌放疗后乙肝病毒再激活的预测[J].生物信息学.(已录用)二、获奖情况[1]2014年研究生三等奖学金[2]2016年研究生国家奖学金三、参与科研项目[1]原发性肝癌精确放疗致乙肝病毒再激活预测模型的建立(项目编号:81402538),国家自然科学基金项目。67

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭