基于卷积神经网络的帕金森病语音障碍诊断研究

基于卷积神经网络的帕金森病语音障碍诊断研究

ID:76119641

大小:3.90 MB

页数:74页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于卷积神经网络的帕金森病语音障碍诊断研究_第1页
基于卷积神经网络的帕金森病语音障碍诊断研究_第2页
基于卷积神经网络的帕金森病语音障碍诊断研究_第3页
基于卷积神经网络的帕金森病语音障碍诊断研究_第4页
基于卷积神经网络的帕金森病语音障碍诊断研究_第5页
基于卷积神经网络的帕金森病语音障碍诊断研究_第6页
基于卷积神经网络的帕金森病语音障碍诊断研究_第7页
基于卷积神经网络的帕金森病语音障碍诊断研究_第8页
基于卷积神经网络的帕金森病语音障碍诊断研究_第9页
基于卷积神经网络的帕金森病语音障碍诊断研究_第10页
资源描述:

《基于卷积神经网络的帕金森病语音障碍诊断研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

硕士学位论文MASTERDISSERTATION论文题目基于卷积神经网络的帕金森病语音障碍诊断研究作者姓名师浩斌学位类别工程硕士指导教师张涛副教授2017年5月 中图分类号:TP391学校代码:10216UDC:621.3密级:公开工程硕士学位论文(应用研究型)基于卷积神经网络的帕金森病语音障碍诊断研究硕士研究生:师浩斌导师:张涛副教授申请学位:工程硕士工程领域:电子与通信工程所在单位:信息科学与工程学院答辩日期:2017年5月授予学位单位:燕山大学 ADissertationintheElectronicandCommunicationEngineeringCONVOLUTIONALNEURALNETWORKMETHODFORPARKINSON'SDISEASEBASEDONDYSPHONIAByShiHaobinSupervisor:AssociateProfessorZhangTaoYanshanUniversityMay,2017 燕山大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《基于卷积神经网络的帕金森病语音障碍诊断研究》,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字:日期:年月日 摘要摘要帕金森病是一种常见的神经系统变性疾病,其患病周期长且发病范围广。就目前的医疗水平,未能明确该病的病因,无法彻底治愈帕金森病,只能在早期控制该病的发展。在早期发现病情症状,并且及时接受适当的治疗,在一定程度上能够延缓病情发展。语音障碍是帕金森病早期典型病症之一,在近年来基于语音障碍的帕金森病诊断的研究是帕金森病诊断研究热点之一。针对于帕金森病的语音障碍的典型病症,该文引入利用卷积神经网络进行帕金森病诊断方法。从帕金森病语音障碍进行研究,利用深度学习与医学领域的融合,推动了人工智能与语音识别相结合的研究,同时在基于语音障碍的帕金森病诊断领域发挥着很重要的作用。首先,从数据的表示、特征提取的可视化两个方面进行完善。基于语音的一维信号仅代表时域上特性的约束,利用语音信号的时频化表示,从而突破在时域和频域上特征提取的局限性,进而在数据表示阶段进行了完善。在语音特征提取阶段,完成了将语音中的特征按照网络层的递进,特征可视化的提取。其次,构造一个多层的卷积神经网络,并在网络结构的构建、网络的微调阶段进行详细地阐述。在卷积神经网络的构造阶段,该文基于AlexNet网络模型构造了一个8个网络层的卷积神经网络。通过对数据集的对比实验,分析实验结果,对网络的配置参数进行微调,从而对网络的配置参数进行优化。最后,在对基于语音障碍的帕金森病诊断实验中,利用帕金森语音数据集以及自采语音数据集进行网络的训练和帕金森病的诊断。实验表明,利用深度学习中卷积神经网络理论,不但将语音中的特征实现了可视化,而且有助于新特征的提取,突破了特征无法学习的瓶颈。关键词:帕金森病;语音障碍;卷积神经网络;特征可视化;时频化表示I 燕山大学工程硕士学位论文AbstractParkinson'sdisease(PD)isacommonneurologicaldegenerationdiseasewithalongtimecourseandasignificantprevalence.Onthecurrentlevelofmedicalcare,failedtoclearthecauseofthedisease,socannotcompletelycureParkinson'sdisease,onlyintheearlycontrolofthediseasedevelopment.Intheearlydetectionofdiseasesymptoms,ifthepatientscouldbetreatedappropriatelythatcandelaytheprogressionofthedisease.ThedysphoniaisoneoftheearlysymptomsofParkinson'sdisease.Inrecentyears,thestudyofParkinson'sdiseasediagnosisbasedondysphoniaisoneofactivefieldsindiagnosisofParkinson'sdisease.Inthispaper,weproposeadeeplearningmethodforParkinson'sdiseasebasedonspeechfeaturesbyconvolutionalneuralnetwork.ThestudyofphonologicaldisordersinParkinson'sdiseasewiththecombinationofdepthlearningandmedicalfieldthatpromotedthecombinationofartificialintelligenceandspeechrecognitionandplayedanimportantroleinthediagnosisofParkinson'sdiseasebasedondysphonia.Atfirst,wehaveimprovedinthedatarepresentationandfeatureextraction.Weproposedthatspeechistherepresentationoftime-frequencytobreakthroughthelimitationsoffeatureextractioninthetimedomainandfrequencydomain,andthenimprovetherepresentation.Inthespeechfeatureextractionstage,theconvolutionneuralnetworkperformstheoperationofupdatingweights,sothatthenetworkhastheself-learningcharacteristicandcompletesthevisualizationextractionofthefeaturesinthespeechaccordingtotheprogressiveofthenetworklayer.Insubsequential,constructingamulti-layerconvolutionneuralnetworkandexpoundingthenetworkstructureandthefine-tuningstageofthenetworkindetail.Intheconstructionoftheconvolutionalneuralnetwork,aconvolutionalneuralnetworkofeightnetworklayersisdesigned,accordingtotheprogressiverelationshipbetweenthenetworklayerstructuresandtheprincipleofdatapassinginthenetworklayers.Throughthecomparisonexperimentofthedatasetandanalyzingtheexperimentalresults,fine-tunedtheconfigurationparametersoftheconstructednetwork.II AbstractAtlast,intheexperimentofdiagnosisbasedondysphoniainParkinson'sdisease,withthedatasetofUCIParkinson'sspeechanddatasetofself-recordingwhichweusedtotrainthenetworkanddiagnoseParkinson'sdisease.Experimentsshowthatthetheoryofconvolutionalneuralnetworkindeeplearningnotonlyrealizedthevisualizationoffeaturesinspeech,butalsocontributestotheextractionofnewfeatures,whichavoidsthebottleneckthatfeaturescannotbelearned.Keywords:Parkinson'sdisease;dysphonia;convolutionalneuralnetwork;visualizationoffeatures;representationoftime-frequencyIII 目录目录摘要...................................................................................................................................IAbstract................................................................................................................................II第1章绪论....................................................................................................................11.1课题背景及研究的目的和意义..............................................................................11.2研究现状..................................................................................................................21.2.1新型帕金森病诊断方法研究现状....................................................................21.2.2基于语音障碍的帕金森病诊断研究现状........................................................31.3本文的主要研究内容..............................................................................................5第2章基于CNN的帕金森病语音障碍诊断架构..........................................................72.1引言..........................................................................................................................72.2深度学习常见算法..................................................................................................72.2.1反向传播算法....................................................................................................82.2.2卷积神经网络理论..........................................................................................102.2.3卷积神经网络的拓扑结构..............................................................................122.3卷积神经网络诊断帕金森病的语音适配............................................................142.4基于CNN帕金森病语音障碍诊断架构..............................................................152.5本章小结................................................................................................................15第3章时频化表示..........................................................................................................163.1引言........................................................................................................................163.2语谱图的研究意义................................................................................................163.3语谱图的实现........................................................................................................173.3.1语谱图简介......................................................................................................173.3.2时频化过程......................................................................................................173.4本章小结................................................................................................................22第4章卷积神经网络构造..............................................................................................234.1引言........................................................................................................................234.2Caffe简介...............................................................................................................234.2.1Caffe的特性.....................................................................................................234.2.2Caffe的网络配置.............................................................................................244.2.3Caffe的数据结构.............................................................................................244.3卷积神经网络的构造............................................................................................25V 燕山大学工程硕士学位论文4.3.1构造卷积层conv1............................................................................................264.3.2构造卷积层conv2............................................................................................264.3.3构造卷积层conv3............................................................................................274.3.4构造卷积层conv4............................................................................................284.3.5构造卷积层conv5............................................................................................284.3.6构造卷积层fc6.................................................................................................284.3.7构造卷积层fc7.................................................................................................294.3.8构造卷积层fc8.................................................................................................294.4卷积神经网络训练过程........................................................................................294.4.1数据初始化......................................................................................................294.4.2数据集生成......................................................................................................324.4.3语谱图均值计算..............................................................................................334.4.4训练网络..........................................................................................................344.5卷积核学习............................................................................................................354.6本章小结................................................................................................................44第5章基于临床样本的帕金森病诊断实验..................................................................455.1引言........................................................................................................................455.2数据来源................................................................................................................455.3评价指标................................................................................................................465.4实验测试................................................................................................................465.4.1测试不同输入数据..........................................................................................465.4.2学习率对比实验..............................................................................................515.4.3输出节点实验..................................................................................................515.4.4动量值实验......................................................................................................525.4.5样本比例实验..................................................................................................535.4.6网络参数..........................................................................................................555.5实验对比................................................................................................................555.6结果分析................................................................................................................565.7本章小结................................................................................................................56结论................................................................................................................................58参考文献............................................................................................................................60攻读硕士学位期间承担的科研任务与主要成果............................................................64致谢................................................................................................................................65VI 第1章绪论第1章绪论1.1课题背景及研究的目的和意义帕金森病在医学上称为“原发性震颤麻痹”,又称“震颤麻痹”(ParalysisAgitans,ShakingPalsy),它是一种进行性神经系统障碍疾病,其主要表现为震颤、肌肉僵直和行动缓慢等。在45岁和65岁以上人群中发病率分别为0.4%和1.7%。预计到2030年,全球大约将有3000万帕金森病人,其中大约有1500万在中国。[1,2]鉴于至今未能找到帕金森患病病因的前提下,基于现状针对帕金森病患者所采取的措施,基本上是早发现,早控制。通过服用一些控制性的药物延缓病症的发[3]展。随着老龄化社会的到来,帕金森病也将极大的增加社会的负担。在1817年詹姆斯帕金森博士发现了一些患者的病态行为,如身体颤抖、情绪低落、步态迟缓还[4]有反应迟钝等症状。为了纪念帕金森病的发现者,欧洲帕金森病联合会将每年的4月11日定为“世界帕金森日”(WorldParkinson'sDiseaseDay)。通过此举让世界人民更加清楚的认识帕金森,关注帕金森,从而促对帕金森病的研究。N.Singh等人的研[5]究表明,及早发现病情,加之对病人进行合理的治疗,能够对帕金森病的治疗起到推动作用,使患者正常生活。与帕金森病类似的神经系统疾病,在目前来讲诊断的难度很大。在目前的帕金[6]森病的早期诊断中,主要是依据医生的临床经验,询问患者的病史并采用体检结合问卷调查的方式来得到结论。而依赖于专家的临床经验诊断的阳性预测值只有[7]75%。如果依照目前的医疗技术,准确排除病情的干扰因素,例如CT技术、正电子发射体层摄影术(PET)技术可以改善早期诊断的预测值。但是由于诊断的成本太高,这种临床治疗并不适用于中老年群体的帕金森病诊断。王舜的研究表明,认为抑郁症对帕金森的患病有着很大的影响,当人患上抑郁症后,身体的各项功能都会因为抑郁症而下降,导致行动上受到影响,严重影响患者的生活质量。从而引发一个问题是,帕金森病患者的病因诊断会受到身体各机能的衰退的影响,从而导致诊断上混淆,也正是这种情况,对于帕金森病的早期诊断非常困难。在我国有60%以上的人群由于对帕金森病的认识不够清晰,从而造成了误诊或者漏诊。因此,寻求一种家庭简便易用的诊断方式也就成为了帕金森病科学[8]研究的重点。1 燕山大学工程硕士学位论文在诊断方法便于使用的基础上,帕金森病新的诊断方法往往都是以帕金森病的[9][10][11]典型特征为依据进行诊断。例如动作分析、嗅觉障碍、笔迹分析等等。在帕[12]金森病人早期症状中,语音障碍是早期帕金森病的典型症状之一,在大约90%的[13,14]帕金森病人都会产生语音障碍。基于语音障碍的诊断可以用将语音通过麦克风传输,并对语音信号进行分析,从而对受试者得出一个初步的诊断结果。与其他方法相比,该诊断方法简单易行,而且成本低。在简便易用的前提下,基于语音障碍[15-17]检测的帕金森病诊断方法得到了极大的关注。1.2研究现状1.2.1新型帕金森病诊断方法研究现状帕金森病(PD)是一种多发于中老年的渐进性中枢神经系统变性疾病,又称巴金[18]森氏症或柏金逊症,多在60岁以后发病。在患病人群中以60岁以上的老人居多,其中在患病人群中大约有50%~80%的病例因早期无明显病症难以被察觉而被隐袭,[19]进一步的研究表明约20%的病人从未被确诊。如果伴随该病的发展而不加以控制,则将对患者的生活带来严重的影响。在患病早期,帕金森病人主要特征表现为手指僵硬、语音障碍等。中期多表现为行动迟缓、肌肉僵直,身体的不同部位以及手脚出现不同程度的震颤。帕金森病晚期则是身体不受控制,生活不能自理。根据其严重程度,其病情程度可分为5级,[20]其表现如表1-1所示。在帕金森病的病情程度中,I级最轻,V级最重。III级以上的患者将丧失劳动能力,对生活产生影响。表1-1帕金森病病情程度对应表等级临床表现I级一侧症状,轻度功能障碍II级两侧肢体和躯干症状,姿势反应正常III级轻度姿势反应障碍,生活自理,劳动力丧失IV级明显姿势反应障碍,生活和劳动能力丧失,可站立V级帮助起床,限于轮椅生活从临床表现上看,帕金森病患者会出现和“震颤麻痹”相类似的症状。但帕金森病患者除了发生震颤行为外,还经常会伴随着肌肉僵直的行为表现发生,与“震2 第1章绪论颤麻痹”的临床表现不相符。况且,帕金森患者的肌肉组织并没有受到损伤,和“震颤麻痹”并不是一个症状,诊断治疗时需要进行区分。[21,22]就目前的医疗水平而言,无法从根本上进行治愈。真正能够控制帕金森病发展的关键在于患病初期进行合理治疗,从而控制病情。因此帕金森病的早期诊断对治疗帕金森病有着至关重要的影响。因此,近些年来许多学者已经研究出帕金森早期诊断的方法,但是这些诊断方法也是以帕金森病患者的早期典型的行为特征为依据。Cho科研小组根据帕金森病人的行为特征提出了一种基于视频的帕金森诊断系[23]统。该方案旨在对受试者进行步态的视频录制,进行线性分析。在此基础上,[24]Palmerini认为静态姿势不稳是研究帕金森病的关键,于是提出静态测量方案。该方案采用20个帕金森患者和20个健康人作为测试者,在每个测试者的腰和背部佩戴加速度传感器,分别用5种方法对测试者进行注意力的干扰,进而采集到身体摇摆震颤、加速度以及位移在内的175个数据作为参考。帕金森病人除了运动障碍外,还有嗅觉障碍以及听觉障碍。[12]语音障碍是帕金森病的典型病症之一。对于大部分帕金森患者而言,不能经常到医疗机构去进行身体的检测和诊断。基于语音障碍的诊断和其他的诊断方法相比,在操作诊断过程上更加简单,诊断费用降低,而且也方便远程操作。因此帕金[15-17]森病的语音诊断近年来受到越来越多的关注。1.2.2基于语音障碍的帕金森病诊断研究现状导致语音障碍的形成有很多因素,例如生理上的疾病、意外事故、心理障碍或者手术等等。语音障碍往往伴随着其他疾病发生,在医生的诊断过程会使用语音检测工具对患者的语压进行测量,从而进行语音障碍的检测。[25-29]2007年开始,牛津大学的MaxA.Little等人对此进行了一系列的研究,并利用模式识别方法对基于语音障碍的帕金森病诊断进行了分析,奠定了模式识别方法在语音障碍的帕金森病机器诊断方法中的理论基础。在当前信息处理领域的帕金森病语音障碍研究主要集中在信息采集、特征选择和分类诊断三个方面。在信息采集上,2007年Little建立了第一个帕金森病语音障碍数据集[26]OPDD(OxfordParkinson'sDiseaseDataset),2010年,通过电话进行信号采集的远[28]程帕金森病数据集PTDS(ParkinsonsTelemonitoringDataSet)成型。2013年,Betul3 燕山大学工程硕士学位论文[30]提出集成元音、单词与句子的多类型测试方法,2014年,用于帕金森病的评估数[31]据集采集完成,2016年,Orozcoarroyave在研究中发现英文发音进行检测的局限[32]性,提出针对西班牙语、德语和捷克语的采集方法等。在特征分析与特征提取上,目前主要有R.Das等人使用粗糙集方法进行特征选[33][34]择和Frid利用卷积网络的自学习特性进行特征选择。他们通过对特征的分析和提取,降低数据集的维数并形成分类规则,从而降低分类的复杂度并提高分类结果的逻辑性,为帕金森病数据集从分类向知识发现过渡做了有益的尝试。在分类上,MaxA.Little利用支持向量机分类器对OPDD进行诊断,验证了模[28]式识别在帕金森病语音障碍诊断中的可行性。随后,基于不同分类原理的分类器被设计出来用于帕金森病数据集的分类。在经典模式识别体系上,Meghraoui采用朴[35][36]素贝叶斯进行分类,李勇明采用随机森林方法完成了帕金森病的诊断,Gautam[37]Bhattacharya通过采用邻域相似性改进kNN分类器进行分类测试;Gürüler利用神[38]经网络和聚类结合进行分析;在对深度学习网络的应用上,AliH.利用深度置信网[39]络进行帕金森病的预测,并取得了和Little近似的研究成果。2010年,Bogazici大学的COkanSakar对PTDS采用支持向量机的方法进行分类,而且分类后得到了更好的正确率。虽然最终的正确率都能达到能够诊断帕金森病的标准,但是在特征提取过程中,所提取到的特征过多导致不能得到疾病的形成原因。[18,40]张涛提出了一种利用多维筛组合分类器可用于帕金森的可视化诊断。该分类器的核心思想是让数据自然生长而不是数据的映射和划分,在权重的调节过程自动的划分出分布区域。其特别之处在于保留数据的原始信息,并没有对原始数据进行线性或者非线性的变换。数据的自然生长能够体现出其所具有的意义,而且在可视化的条件下对帕金森病的语音诊断取得了很好的效果,最终的分类率能达到93.75%。在传统的模式识别中,特征选择往往用矢量空间来表示,从而在分类的过程中会产生大量的数学计算和泛化,而且也会产生数据的解释性差、过学习、推广型差[41]等问题。在帕金森的诊断过程,不但要保证诊断的正确率,而且需要能够保证数据的可解释性、可推广性。在以往帕金森语音障碍的检测中,往往是利用分类器来进行特征的提取,例如SVM、三支决策分类器、多维筛组合分类器,从语音中提取出许多特征来进行分类,但是提取出的特征是否能作为帕金森语音障碍检测的标准4 第1章绪论以及是否还有新的特征未被提取到都不得而知。本文引入一种基于深度神经网络的帕金森语音障碍检测方法,利用一种复杂的卷积神经网络进行语音中的特征自学习,通过网络的不断调整,学习的特征也不断的完善。本文用大量的实验来支撑此方法的提出,目的是印证一种新的基于帕金森语音障碍的检测方法。1.3本文的主要研究内容本文主要内容包括两大部分,第一部分是提出基于卷积神经网络的帕金森病语音障碍诊断方法,在深层网络的基础上进行本文所用卷积神经网络的构造。在网络的输入层采用将数据集进行时频化表示,作为卷积神经网络模型的输入,从而进行网络的训练和测试。在数据集的测试过程中,以网络的层层递进的方式将语音的特征以可视化的方式输出,并进行对比分析。第二部分为将卷积神经网络应用在基于语音障碍的帕金森诊断上,采用UCI帕金森数据集以及自采的语音数据集,通过实验来说明本文构造的卷积神经网络在帕金森病语音诊断中的作用和效果,并与其他经典分类器、深度神经网络算法进行对比,来说明构造的卷积神经网络在帕金森病语音障碍诊断上的可行性。第1章综述基于语音障碍的帕金森病诊断的研究现状。第2章阐述基于卷积神经网络的帕金森病语音障碍诊断的架构。介绍卷积神经网络学习特征以及更新权值的过程,从特征提取的角度分析卷积神经网络与传统分类器诊断帕金森病的区别。第3章完成了数据集的语谱图表示,即语音的一维时域信号转变成二维时域和频域的语谱图。在本章中,首先对语谱图的理论和研究意义做了简单介绍,然后阐述语音转变成语谱图的过程,最后将帕金森病患者的语谱图和正常人的语谱图作对比,总结二者的在语谱图上的信息的不同。第4章实现了卷积神经网络的构造。首先介绍本文构造卷积神经网络所运行的平台框架Caffe,通过对其特性、结构的论述,说明Caffe深度学习框架对卷积神经网络的支持。然后进行本文所使用卷积神经网络的构造,详细的阐述了卷积神经网络中各个网络层的结构以及设计原则。其次在构造的卷积神经网络的基础上,对网络进行训练过程。最后对生成的网络模型进行数据集的测试过程,同时对输入测试数据集进行特征可视化操作,将网络自学习特征进行逐层可视化,并通过特征的对比来阐述特征的自学习过程以及网络的可调节性。5 燕山大学工程硕士学位论文第5章为卷积神经网络参数微调与性能测试。在本章中,分两个部分。第一部分为本文设计卷积神经网络参数微调的对比实验。首先对本文所采用样本数据集的说明,通过对输入数据集格式对比、学习率对比、动量值对比、样本比例对比、输出节点对比进行微调实验,得出最优的网络参数。第二部分为对卷积神经网络的性能测试和评价。在微调实验后,卷积神经网络对输入数据集的分类精度可以达到传统分类器的分类精度,验证了卷积神经网络可以作为一种诊断帕金森病语音障碍的方法的可靠性和有效性。最后在结论中对本文所做工作进行阐述以及对本文所提出的创新点进行分析和总结,也对实验中所存在的不足和问题进行简要的阐述,并在以后的实验中提出了改进的方向。6 第2章基于CNN的帕金森病语音障碍诊断架构第2章基于CNN的帕金森病语音障碍诊断架构2.1引言在目前的研究中,基于语音障碍的帕金森病诊断都利用了模式识别中的将特征映射为矢量空间的方式完成,这也是利用模式识别去解决帕金森病语音障碍问题的核心,而这种方式也更加便于计算和泛化,以及从数学的角度进行推广和深化。而在应用中,经常会出现最终的分类结果缺乏说服力,甚至会出现过拟合的情况。[26]利用传统分类器进行帕金森语音特征的提取时,Little等人利用SVM对帕金[18]森数据集的分类精度达到91.75%。在传统模式识别的基础上,张涛利用多维筛分类器进行帕金森语音数据集特征提取最终的分类精度上能够达到93.75%,可见利用传统的特征提取算法进行特征提取的最终的分类精度已经达到了很高的准确率。但是在分类器进行特征提取的过程中,提取特征的数量往往很多,但是这些特征有可能会与帕金森病存在不相关的关系或者提取的特征之间出现了冗余,从而就有可能会导致在分析特征的过程中需要的时间会很长,甚至会引发维度的灾难,造成模型的推广能力下降。在特征提取的过程中,并没有对提取的特征进行详细的描述,对是否存在新特征是一个未知数。因此,利用传统的分类器进行语音特征提取很难做到特征的可解释性和可挖掘性。深度学习作为一种数据变化的表示方法,具有仿生学依据、特征层次的可表现性的特点。在特征提取过程中,利用其深层模型模拟人脑的思维方式进行特征的自学习,有效避免出现特征信息的冗余、新特征的不确定性以及研究对象的不相关性。因此,基于深度学习方法自身优势的启发,本文利用深度学习的方法进行特征表示。卷积神经网络作为深度学习的常见模型之一,在图像识别、语音识别领域中都取得了显著的成效。本文尝试用卷积神经网络进行帕金森病语音障碍的诊断。2.2深度学习常见算法近几年的研究中,深度学习推动了人工智能的发展,从科学研究领域逐步向工程实践上延伸。深度学习利用其自身的特征提取方式,即特征的自学习,逐步取代了模式识别中传统分类器的特征提取方式,在理论研究以及工业应用上都取得了很大的成效。深度学习是一种网络模型,与传统的人工神经网络相比较,深度学习是7 燕山大学工程硕士学位论文一种更加深层的网络模型。常见的深度学习模型有自动编码器(AutoEncoder)、深信度网络(DeepBeliefNetworks)、限制波尔兹曼机(RestrictedBoltzmannMachine)、卷积神经网络(ConvolutionalNeuralNetworks,CNNs)。其中卷积神经网络属于深度学习中运用最广泛的一种网络模型,目前已经被成功运用于图像分类、语音识别、自然语言理解等方面。2.2.1反向传播算法反向传播算法,也称为BP算法,由PaulWerbos于1974年提出。反向传播算法是一种有监督学习算法,要求神经元的激活函数需要满足可微的条件,一般适合在前向网络中的训练。通过差值的传递,完成网络参数的更新。下面以图2-1简单神经网络为例,简要介绍反向传播算法。如图2-1所示为神经网络拓扑图。输入为xxxx(1,2,3,...)xi,目标输出为tttt(1,2,3,...)tk。首先初始化网络参数,需要根据输入数据的个数以及目标输出向量的个数,对每个网络层进行参数设定,网络的输入层的节点个数为M,最终输出层的节点个数为C。其中隐藏层节点数为H,输入层为i,隐藏层为j,输出层为k,wn,隐层和输出层之间的权值为n另外初始化输入层和隐层之间的权值为ijwjk,初始nn化隐层的偏置为bj,输出层的偏置为bk。选择合适的学习率u以及激活函数。当对网络进行初始化时,需要将权重尽量设置为数值较小的随机值。wn、偏置nn根据输入x以及连接权重ijbj,得到隐藏层的输出hj。:如式(2-1)所示:Mnnnnhjf()wxijibjjH1,2,...,(2-1)i1其中f为激活函数。常用激活函数有sigmoid函数、tanh函数、ReLU函数。本文实验使用ReLU函数,与其它两个函数相比,ReLU函数不仅可以大大加快随机梯度下降算法的收敛,在训练样本的时间上比另外两种激活函数要快很多。因为其具有线性、非饱和的特性,而且可以通过简单的零阈值矩阵进行激活,并且不受饱和的影响。nnnn根据隐藏层输出hj以及连接权重wjk、偏置bk从而得到得到输出层的输出yk。如式(2-2)所示:8 第2章基于CNN的帕金森病语音障碍诊断架构HnnnnykhwjjkbkkC1,2,...,(2-2)j1Y1XWijWjk1...X2...YmXn输入层隐层输出层图2-1神经网络拓扑图反向传播算法的核心思想是首先将训练样本进行前向传播得到神经网络的输出,根据实际输出与期望输出的差值,逐层反向,由输出层至隐层,隐层至输入层,依次更新每层的各个神经元的权值和偏置,当网络的误差函数取得最小值时,停止反向传播过程。对于某个输入n的目标输出为nt,由前向传播得出训练样本的总的误k差函数,如式(2-3)所示:NCN1nn2E()tkky(2-3)2nk11而对于单个样本的误差函数为总样本的误差函数除以总共的样本数N即可得到,如式(2-4)所示:CN11nn22nnE()tkyktkyk2(2-4)22k1然后进行更新偏置值的操作,依据梯度下降求出误差函数对每个权值的偏导数,使得误差函数E尽快达到最小值,设置当前层为l,上一层为l-1。设当前层l,l-1为其输入层,则输入的向量为x。当前层的中间输出如式(2-5)所示:lllll1lxfu(),uWxb(2-5)llW为当前层与下一层的神经元的连接权重矩阵,f为激活函数,b为当前层的9 燕山大学工程硕士学位论文ll1偏置,则当前层的输出和输入分别为x和x。在这里引入一个灵敏度的概念,用来表示均方误差对偏置的倒数,即偏置改变的步长。如式(2-6)所示:EEu(2-6)bubuEE因为1,所以,即误差函数对偏置的偏导数与误差函数对其输bbu入的偏导数相同。隐藏层的灵敏度如式(2-7)所示:ll1Tl1'l(W)fu()(2-7)“”这个运算符号表示的是每个元素相乘,输出层的灵敏度如式(2-8)所示:LLnnfuyt(2-8)nn则根据上述公式以及梯度下降的方法,对隐层偏置b和输出层偏置b进行更jk新,表示网络的学习率,如式(2-9)及(2-10)所示:nnEnlbb–b–j1,2,,H(2-9)jjjbnnEnlbbb–k1,2,,C(2-10)kkkb根据UFLDL的推论,可依次更新各层的权值,如式(2-11)及(2-12)所示::Ell1Tx(2-11)lwllEWW(2-12)lwN最后判断网络实际输出与目标输出的误差值E是否满足一定阈值,若小于则整个训练过程已经达到全局最优值;若超过规定阈值,则继续进行反向传播。在反向NN传播过程中,误差值E的传递方向为前向传播的相反方向,通过误差值E的反向传递过程,依次更新各层的权值和偏置,直到误差小于一定阈值。2.2.2卷积神经网络理论深度学习的实质是将输入通过非线性的变换从而进行数据的特征提取,通过有监督或者无监督训练提取出多隐层神经网络的参数,用以特征提取和分类。卷积神经网络与传统的神经网络相比,在增加了网络模型的深度的同时,以其自身网络的权值共享、局部感知的特点,对输入进行卷积和下采样运算,在运算效10 第2章基于CNN的帕金森病语音障碍诊断架构率及运算精度上有明显的提高。传统人工神经网络是一个全连接的网络,相邻两个网络层的神经元呈现多对一的关系,及前一层的全部的神经元均与下层的每个神经元进行连接,这样如果在数据输入量很大的时候,这就会造成训练过程中的参数过多,训练速度变慢。另外一个方面是如果当输入为图像时,将图像进行位移上的变换然后放入神经网络中,神经网络将会因为像素的移动而将图像识别成与位移前的不同的图像,这就造成了对输入数据的瓶颈以及没有网络自身的的鲁棒性。与此同时,由于全连接的结构特点,神经网络并不能识别图片中局部的特征区域。综合上述几点,卷积神经网络在神经网络的算法基础上进行了改进,利用其自身的权值共享、局部感受野进行解决以问题,对提取特征做了进一步优化。(1)局部感受野卷积神经网络的输入往往都是二维的,将二维图像的像素点看成给一个神经元,与神经网络不同的是,将输入的局部神经元与下一层的神经元进行连接而取代了神经网络中的全连接方式。这样可以对图像的外界边缘、端点进行特征学习然后进行组合,进而会提取到更多的特征。如图2-2所示是传统的全连接神经网络,如图2-3所示为局部连接的神经网络。图2-2全连接神经网络图2-3局部连接神经网络11 燕山大学工程硕士学位论文(2)权值共享在传统人工神经网络中,网络层中的神经元以全连接的方式进行连接,在每个隐层中包含多个特征。在卷积神经网络中,将每个隐层中的神经元与其上一层相连接的神经元的权重组成一个矩阵,作为卷积核。用同一个卷积核和输入的图像作卷积运算,在误差函数反向传播中,对卷积核中的权值是不断学习的过程即不断更新卷积核的权值。因为在隐层中每个神经元均存在一个卷积核,有多少个神经元就有多少个特征,将同一个卷积核与上一层的输入图像作卷积,生成的特征向量的组合即为当前层所连神经元的特征,这样在训练过程中就大量减少了需要训练的参数。2.2.3卷积神经网络的拓扑结构卷积神经网络是一个深层结构的人工神经网络,由一个输入层、多个隐藏层、一个输出层构成。网络中包含有多个S-(下采样)层和C-(卷积)层。其中S-层由S-面组合而成,S-面由S-元(简单元)构成。C-层与S-层结构关系相同,由多个C-面与C-元构成。在网络中S-层往往连接在C-层后,一般而言,S-层为特征提取层,也叫下采样层。该层的每个神经元与上一层的局部神经元相连,提取局部特征,同时该特征与其他特征的相对位置关系也确定。C-层为特征映射层,也叫卷积层。每一层包含多个特征图,在网络中将每个特征图表示成一个平面。因为平面上的神经元均为权值共享,具有位移、旋转不变性,从而减少了网络训练的参数。在下采样层后进行卷积操作运算的目的是进行特征的二次提取。卷积层和下采样层的串联结构能够使得网络识别输入样本不同形式有较高的适应性。卷积神经网络的基本结构如图2-4所示:NNinputC1S2C2S2图2-4卷积神经网络结构12 第2章基于CNN的帕金森病语音障碍诊断架构输入层:将大小一致的图片放至输入层,并设置图片的大小为rc。卷积层C1:设置卷积核大小为ab,步长设置为i,将卷积核与输入做卷积操作,则输出为大小为de的矩阵,如式(2-13)所示。卷积后的结果组成卷积层。raicbide(2-13)ii卷积的过程如图2-5所示111001*11*01*10011*11*00*10011101010*01*11*01001*01*11*0000111*010=0*10*01*11100*11*01*11...101001100011000110011000110001100输入图像矩卷积核第一步卷积第二步卷积阵||||443第一步卷积结果第二步卷积结果图2-5卷积过程三个卷积核分别卷积输入的数据,与相应的偏置相加,中间输出C1层中的三个特征图。运算公式如(2-14)所示:ll1llxjf(xj*kijbj)(2-14)iMj其中f是激活函数,b为相对应的偏置,l为层数,M为第j个特征图,k为卷积核。j下采样层S1:对C1层的输出进行下采样运算,将输入的特征图nn的邻域矩阵进行加权求和或者求最大值后,与相应的乘性偏差相乘,然后加上一个偏置,最后经过一个激活函数得到三个特征图。其中特征图的两个维度都减小为输入特征图的1/n。在加快网络的训练速度同时,不会损失原有的信息并减少了数据量。其公式如(2-15)所示:lll1lxjf()jdownxjbj(2-15)其中down为下采样函数,b为加性偏置,为乘性偏差。重复以上卷积层C1和下采样层S1的操作,中间特征图的维度变小,在最后一次卷积将特征图矩阵展开,经过光栅化操作后生成一维向量,将生成的一维向量接13 燕山大学工程硕士学位论文入一个权值可微的分类器。当数据量维度越大时,卷积操作和下采样操作就越多,如图2-6所示为依次卷积操作和下采样操作。fxCxinputbx.covPoolXSx+1bx+1Wx+1图2-6卷积和下采样操作2.3卷积神经网络诊断帕金森病的语音适配在本文中,将采用卷积神经网络对帕金森语音的时频化表示进行训练更新网络模型,从而得出最终分类精度。因为语音为一维信号,即在空间上为一维的特征向量表示。卷积神经网络是能通过训练过程,通过网络的卷积和下采样操作对输入数据进行自学习的方式进行特征提取,在保证合适的学习率的同时,也能发挥其自身对输入的鲁棒性。一维的语音信号仅仅代表语音在时域上的特征,将其作为卷积神经网络的输入有可能因为时域的约束条件从而特征过少从而造成网络的可塑性降低,甚至有可能造成网络的过拟合。考虑到一维信号作为网络输入的可能会引发的问题,为了将特征提取与网络模型很好的匹配,本文将尝试将一维语音信号进行二维的时域和频域信号。语音的时频化表示是将时域上的一维语音信号通过短时傅里叶变换转变成时域和频域上的语谱图。语谱图中包含大量说话人的特征的信息,突破了语音频域和时域上特征约束的局限性,动态的呈现出信号谱变化的特征。因此,为了满足卷积神经网络的输入的要求以及特征的提取,本文利用语谱图作为卷积神经网络的输入。卷积神经网络与深度置信网络相比,在帕金森病语音障碍诊断的研究上,在数14 第2章基于CNN的帕金森病语音障碍诊断架构据集不大的前提下,能够具有很好的学习能力,克服了DBN在网络训练过程中需要大量数据的支撑,而且在特征提取过程中,CNN相比DBN具有更好的识别能力。2.4基于CNN帕金森病语音障碍诊断架构本文的整体框架分为三个部分,如图2-7所示。首先将从音频输入的数据集进行时频化表示,生成语谱图数据集。然后根据数据集来构造卷积神经网络,对网络层的运算流程以及数据的传递过程进行阐述。在构造的卷积神经网络的基础上,训练网络目的生成网络模型,基于模型对输入的语音进行特征提取并输出。最后通过网络的微调实验和对比实验优化网络参数,输出针对输入数据的诊断率。在下面章节中着重介绍时频化过程、卷积神经网络构造过程和网络模型参数优化实验过程。时频化表卷积神经网络模型特征提取诊断率输出示网络构造测试实验图2-7基于CNN帕金森病语音障碍诊断架构图2.5本章小结本章重点阐述基于卷积神经网络的帕金森病语音障碍诊断研究的架构设计。首先通过说明传统分类器在语音识别中的优势与不足,特征提取无法确定对帕金森病语音特征提取的适用性,引入利用深度学习算法进行特征提取。其次介绍深度学习的常用算法,重点介绍卷积神经网络的权值更新过程。最后通过简要说明卷积神经网络在语音识别方面与深度置信网络相比的优势并阐述本文的整体架构。15 燕山大学工程硕士学位论文第3章时频化表示3.1引言对于帕金森病而言,因为早期没有可以作为诊断的生物指标,所以很容易错过[42]了最佳的治疗时间,唯一可以检测该类疾病的方法是神经学检测,鉴于目前的医疗水平有限,此类的诊断成本较高,而且在操作上会存在局限性,所以误诊的几率大大增加,导致帕金森病的潜在患者逐渐增多。近年来,基于语音障碍的帕金森诊断逐渐成为广泛研究的热点,研究表明,随[43]着机器学习技术不断进步,借助机器学习的方法,使得利用机器学习通过语音障[44,45]碍诊断帕金森病具有可行性。目前的研究,语音的特征提取算法依然只是在学术研究阶段,提取的特征在医学诊断上并没有在全世界范围得到认可,因此没有强有力的说服力。由于语音是一维时域信号,通过特征提取只是将时域上语音特征进行提取,而频域上的特征并没有被发现,而且提取出的特征会存在冗余信息,对运算的复杂度会有一定影响。虽然目前将语音进行特征提取的方式很多,提取的特征也足够多,能够保证一定的分类精度,但无法确定提取的特征是否能够用于帕金森的诊断。针对帕金森病语音障碍,本章引入一种新的方法,将语音一维信号转化成二维时频图来进行提取特征,即在时域和频域上同时进行特征提取。3.2语谱图的研究意义对于目前帕金森病的研究治疗尚没有显著的切入点,而语音障碍是帕金森病人比较普遍的症状,这就引导研究人员可以从帕金森病人的语音进行研究。以往对帕金森病人语音进行直接处理的方式有太多局限性,单独的时域分析提取特征而无法保证频域对时域的影响,频域分析出的特征中没有语音信号随时间变化的关系,而且需要进行许多复杂的步骤。语谱图作为语音信号时频化的表示形式,将时域和频域的关系以二维图谱的形式表现出来,而且语音中的不同特征在语谱图中也有不同形式的表现。显然,相比在语音信号中进行特征提取,在语谱图中挖掘特征的效率占有优势。通过语谱图可以从视觉上形象的看出语音障碍的影响程度,为帕金森的临床诊16 第3章时频化表示断及评价提供了客观依据。虽然关于语音的理论研究已经达到了一定的高度,但是与实际相结合并没有明显的优势。这便促使研究者拓展思维,从多个角度去探索,本文引入了一种将语音转化成语谱图的方法,一方面有效的避开了直接处理语音信号复杂性的瓶颈,另一方面将侧重点转移到了图像处理中相对成熟的技术中,从语谱图中直接提取特征,为语音的研究提供了一个新的思路。3.3语谱图的实现3.3.1语谱图简介语谱图,也被成为声谱图,其纵轴为频率,横轴为时间,用图中相应点的灰度或者色调的浓淡来表示任何一种频率在指定时刻下的强弱程度。语谱图可以反映出语音信号完整信息以及频谱随时间变化的特性,因此其实用价值很强,常被用作分析语音的有效工具,同时也是语音信号的可视化表示工具。相比一维时域语音信号,它不仅蕴含语音信号的时域和频域的特征,而且在图中能够刻画出时域与频域的关系。因此,语谱图中所包含语音的特征信息比单一从语音的时域信号或者频域信号中挖掘的信息量要大很多。语谱图在语音分析中具有很重要的作用,它的出现突破了时域和频域单独分析的约束性。语谱图用二维图表示三维信息,横坐标为时间,纵坐标为频率,语谱图中的像素灰度值的颜色深浅用来表示对应时间和频率的能量的大小。颜色越深,则语音能量越高;反之,则能量越低。从语谱图中不但可以清晰的看出共振峰特征的变化,也可以看出能量随语音的[46]变化情况。元音语谱图的谐波、共振峰以及噪声成分的变化可反映嗓音功能状况。语谱图由几条相对较宽的竖直条、竖直条中颜色较深的横杠和一些乱纹构成。其中每一个竖直条为一个基音,其长短表示为发这个音的长短,颜色较深的横杠表示的是语音的共振峰,水平横纹表示的是谐波能量。3.3.2时频化过程在尽量安静的环境下录制语音,将每段语音录制后剪切成每段2s的片段语音,并且需要保证每一个发音的完整性。首先先将一段语音进行分帧操作,其中每一帧为46.43ms即为帧长。一般帧长时间非常短,可以认为其是平稳信号,基频和谐波的强度的都是不变的。如图3-1所示为一正常人所发元音[a:]的时域波形图,如图3-217 燕山大学工程硕士学位论文所示为帕金森患者发元音[a:]的时域波形图。语音信号的傅里叶变换如公式(3-1)所示。图3-1正常人语音时域波形图图3-2帕金森病人时域波形图jwjwnXnexmwnme(3-1)mjw其中wn()为窗函数,本文采用的窗函数为汉明窗。Xe()是关于w和n的函数。n令w2/kN,(0kN1),则语音信号的短时傅里叶变换如式(3-2)所示为:2kjN/2kjN/Xn()kXen()xmwnme(3-2)m图3-3为正常人发元音[a:]的信号频谱图,图3-4为帕金森病人发元音[a:]的信号18 第3章时频化表示频谱图。图3-3正常人语音频谱图图3-4帕金森病人语音频谱图为了保证在分帧的同时不损失信息以及语音的连续性,在相邻的两帧之间会有重叠,重叠的长度即为步长。在本文中语音帧长的值很小,步长通常小于帧长。将每帧语音的频谱通过坐标表示出来,并将每帧语音的短时傅里叶变换做乘积,即可得到语音信号的短时功率谱,公式如(3-3)、(3-4)、(3-5)所示:2jwjwjwjwSenXneXneXne(3-3)其中19 燕山大学工程硕士学位论文jwjwkSennRke(3-4)kRkn()xmwnmxmkwnmk(3-5)Rk()为xn的短时自相关函数的傅里叶变换,jwnSen()为语音信号的短时功率谱函数。时间n为横坐标,w为纵坐标,jwjwSe()的值为点()nw,的灰度级表示。Se()nn越大,颜色越深。将每帧的灰度级表示依次连接起来,即可生成语谱图,如图3-5所示为一个语音信号生成语谱图的过程,如图3-6所示为语谱图的产生流程图,如图3-7所示为帕金森病患者的语谱图,如图3-8所示为健康人的语谱图。FFTFFTFFTFFTFFTFFTFFTFFTFFT图3-5语谱图产生过程20 第3章时频化表示语音录制数据读入程序信号分帧加窗能量密度谱计算功率谱伪彩色显示语谱图显示图3-6语谱图产生流程图图3-7患帕金森病语谱图21 燕山大学工程硕士学位论文图3-8正常人语谱图在语谱图对比中可以观察到以下两点信息:当时间不变,频域上的共振峰的变化情况。当频率不变,在相邻的时间内的响度变化情况。同时在以上的两个语谱图中发现一些并不是很直观的特征。在帕金森患者的语谱图中观察到其谐波的变化幅度不是很大,基本上集中在基频附近,而且在低频区噪声的成分明显增加,高频区的谐波基本消失,中频区的谐波不规则、断裂,共振峰遭到部分破坏。而正常人的语谱图中谐波的变化相对较大,中高频区域的谐波分布规则,在高频区的噪声极少。因此通过对帕金森患者和正常人的语谱图做对比可得知,二者最大的区别体现在谐波以及共振峰是否存在不同程度的破坏、断裂以及消失和噪声是否在不同程度的增多。3.4本章小结本章针对目前语音特征提取上的优势与不足,引入将一维语音信号转化成二维时频图的方法进行特征提取。首先分析语谱图在对语音进行特征提取过程中,相比单独的一维时域信号进行分析的不同以及此方法的可行性,并对语谱图概念作简要介绍。然后详细阐述了语谱图的产生过程,通过流程图的方式对过程中每个步骤作详细说明。最后通过对比帕金森病人和正常人的语谱图,能够明显的说明通过语谱图上的信息观察到两者的不同特征信息。22 第4章卷积神经网络构造第4章卷积神经网络构造4.1引言基于Caffe深度学习核心框架,根据卷积神经网络的思想,设计一个适合本数据集的卷积神经网络。本章构造一个8个网络层的卷积神经网络,网络的深度以及结构的设计相比一般的卷积神经网络都会复杂,针对本文中的数据集,在训练过程中的学习效率会提高。卷积神经网络的训练过程包括帕金森数据集的初始化、网络参数的配置,然后进行训练。在网络训练结束后,在数据集测试阶段,通过生成的网络模型,将卷积核学习的特征以及中间层的输出特征进行可视化操作。在对卷积核学习的特征以及中间输出特征进行分析,观察不同的卷积核学习到的特征以及中间输出的特征图不同,理解语谱图在卷积神经网络中的运算过程,包括卷积运算和下采样运算。本章在深度学习框架Caffe上构造一个卷积神经网络,通过网络层的数据传递过程以及测试阶段特征可视化,初步完成对卷积神经网络的初始化工作。4.2Caffe简介Caffe是ConvolutionalArchitectureforFastFeatureEmbedding的缩写,由伯克利大学的贾扬清编写的一个高效的深度学习框架。Caffe可以在不同的平台下执行,目前常见的是在Linux下运行,而且在CPU或者GPU上都可以部署。Caffe在商业化应用或者在大规模数据的运行时通常都需要CUDAGPU进行计算,其运行效率大约每天能够在K40或者TianGPU上处理4000万张图片,且处理每张图片仅耗时2ms。4.2.1Caffe的特性Caffe不仅仅提供了用于训练、测试、微调和开发模型的工具包,而且提供了一个优秀的深度学习平台以及外部接口以供开发者进行二次开发,并且能够进行短时间内的商业开发。多语言的结合:Caffe提供了Python和Matlab两种语言的扩展接口,都用在了网络的构造和分类输入中。模块化:基于模块化的原则,使用Caffe提供的各层类型来定义自己的模型,方23 燕山大学工程硕士学位论文便扩展到新的任务和设置上。训练模型:Caffe在训练结束以及中断训练会生成参考模型,主要用于视觉工作,其中包括AlexNet模型、cifar模型等。表示和实现的分离:Caffe训练生成的模型用ProtocalBuffer语言以配置文件的形式表示出来,而且Caffe可以构建任意有向非循环图形式的网络。根据实例化的原则,Caffe保留了网络训练、测试需要的内存,需要时从GPU底层进行抽取。当调用一个函数时就可以实现CPU和GPU的切换。速度快:Caffe与cuDNN结合使用,使用AlexNet模型,在K40上处理每张图片只需要2ms,能够有效的结合最合适的模型与海量数据。开放性:公开的代码和参考模型用于再现。Caffe现在由BVLC和GitHub的社区论坛共同维护。4.2.2Caffe的网络配置Caffe的网络配置定义为:name:“dummy-net”layers{name:“data”…}layers{name:“conv”…}layers{name:“pool”…}layers{name:“loss”…}layers代表每层网络,name代表网络层的名称,其它包含网络层的参数信息。网络层中包括网络层的属性和配置参数。4.2.3Caffe的数据结构Caffe自定义了一个基本的数据结构blob,实质为一个四维数组。其旨在用来保存神经节点上的数值,导数以及网络的参数,是网络层之间通信的基本数据单位。blob对图像数据,卷积层的卷积核和偏置项的定义格式如下:图像数据:图像的数目图像的通道数图像的高图像的宽。卷积权重:卷积核数目卷积核通道卷积核高卷积核宽。卷积偏置:卷积偏置输出数目111。如图4-1所示为数据blob在卷积层的传递方式,如图4-2所示为数据和数据标24 第4章卷积神经网络构造签在隐层中的传递方式。Topblobconv1Conv1(convolution)dataButtonblob图4-1blob在卷积层传递方式Loss(softmax_loss)ipIp(inner_product)labeldatamnist(data)图4-2数据与标签在隐层传递方式4.3卷积神经网络的构造本节根据卷积神经网络的思想,基于AlexNet的卷积神经网络结构,构造一个能够对本文数据集适用的卷积神经网络。由于本文实验部分所用卷积神经网络较复杂,层数比较多,将每一层网络的构造过程设置为一个小节,详细说明每一层的设计细节,以便能够将卷积神经网络的设计过程描述的更加详细。在本章中构造了一个包含8个网络层的卷积神经网络,包括5个卷积层,3个全25 燕山大学工程硕士学位论文连接层,其中卷积层中包含卷积操作和下采样操作。为了中间输出特征图的尺寸大于卷积核,第三个和第四个网络层后没有执行下采样操作。下面按照卷积神经网络的前向传播方向,依次详细介绍卷积神经网络的每个网络层。4.3.1构造卷积层conv1如图4-3所示为语谱图经过输入层至卷积层conv1,卷积层conv1传递至下采样层pooling1的过程。卷积层conv1的卷积核的大小为1111,移动步长为4,卷积核的数目为96个。本文的语谱图大小为2562563,由于语谱图是彩色的,所以为3通道。将一张2562563的语谱图作为输入层的输入,经过输入层crop操作,提取语谱图中间部分变为大小为2272273,经过卷积层conv1,与96个卷积核分别作卷积后,根据公式2-13得到96个5555的特征图,其中激活函数为ReLU函数。下采样层pooling1的下采样窗的大小为33,移动步长为2,特征图从conv1至pooling1经过Maxpooling运算后输出96个大小为2727的特征图。因为输入是彩色语谱图,图片格式为三通道,本章所设计网络支持单通道和多通道的输入,所以卷积核也为三通道,将卷积核的每个通道去和输入图像的每个通道去做卷积运算。conv1conv1_output:output:96output:input:227×227(227-11+4)/4=55ReLUkernel_size:1155×55×96size:55×55×96stride:4pool1:output:(55-3+2)/2=27kernel_size:3size:27×27×96stride:2图4-3卷积层conv1数据处理4.3.2构造卷积层conv2如图4-4所示为卷积层conv2的数据传递处理过程。卷积层conv2的输入为pooling1的输出,即为96个2727的特征图。卷积层conv2的卷积核的大小为55,移动步长为1,卷积核的数目为256个,则卷积层conv2输出256张特征图。本层的输入特征图的分辨率小于原始输入图像,为了使得输出的大小比卷积核大,卷积层26 第4章卷积神经网络构造conv2将其输入特征图进行边缘补偿,即在输入特征图的两边各补充2个像素点。经过卷积层conv2卷积后得到256个大小为2727的特征图。卷积层conv2的激活函数采用的是ReLU函数。在下采样pooling2的操作中,下采样窗的大小为33,移动步长为2,即移动过程中,每相邻的区域中会重叠一个像素。最终得到256个大小为1313的特征图。conv2conv2_output:output:256output:input:27×27(27-5+2×2)/1+1=27ReLUkernel_size:527×27×25627×27×256stride:1pool2:output:(27-3+2)/2=13kernel_size:313×13×256stride:2图4-4conv2数据传递处理过程4.3.3构造卷积层conv3如图4-5所示为卷积层conv3的数据传递处理过程。pool2的输出特征图为卷积层conv3的输入,即输入为256个大小为1313的特征图,卷积层conv3的卷积核的大小为33,移动步长为1,卷积核的数目为384个,为了避免特征图的尺寸比卷积核的尺寸小,卷积层conv3将其输入特征图进行边缘补偿,由于经过了2次卷积过程,分辨率相比之前减小不少,卷积层conv3相比卷积层conv2调整一个像素点,即在输入特征图的两边各补充1个像素点。经过卷积层conv3的卷积后得到了384个大小为1313特征图,特征图的数量上变的更多,包含了较多的特征,分辨率相比之前变的均衡。卷积层conv3的激活函数采用的是ReLU函数。如此构造本层的目的是当特征图经过3次卷积过程以及2次下采样过程后,特征图的分辨率变的很小,像素点之间包含不同的信息,下采样操作有可能会过滤掉一部分信息。故本层不设计下采样操作过程。conv3conv3_output:output:384output:input:13×13(13-3+2×1)/1+1=13ReLUkernel_size:313×13×38413×13×384stride:1图4-5conv3数据传递处理过程27 燕山大学工程硕士学位论文4.3.4构造卷积层conv4如图4-6所示为卷积层conv4的数据传递处理过程。卷积层conv4与卷积层conv3的构造差异性很小。卷积层conv4的输入为384个大小为1313的特征图,卷积核的数量和卷积层conv3相同,为384个卷积核,大小为33,步长为1。特征图的两边各补充1个像素点,经过卷积层conv3的卷积后得到了384个大小为1313特征图,卷积层conv4的神经元激活函数采用的是ReLU函数。conv5conv5_output:input:13×13output:384output:kernel_size:3(13-3+2×1)/1+1=13RReeLLUU13×13×38413×13×384stride:1图4-6conv4数据传递处理过程4.3.5构造卷积层conv5如图4-7所示为卷积层conv5的数据传递处理过程。卷积层conv5的输入为384个大小为1313的特征图,卷积核的数量为256个,大小为33,移动步长为1,输入特征图两边进行1个像素的补偿,卷积后得到256个1313的特征图。卷积层conv5的神经元激活函数采用的是ReLU函数。进行下采样pooling3操作,下采样窗大小为33,移动步长为2,下采样后得到256个66的特征图。conv5conv5_output:output:256output:input:13×13(13-3+2×1)/1+1=13RReeLLUUkernel_size:313×13×25613×13×256stride:1pool3:output:kernel_size:3(13-3+2)/2=6stride:26×6×256图4-7conv5数据传递处理过程4.3.6构造全连接层fc6如图4-8所示为全连接层fc6的数据处理过程。fc6的输出神经元个数为4096个。将卷积层conv5的输出,即为256个66的特征图的像素排成一列,共有9216个像素点作为全连接层fc6的输入,神经网络全连接使之降维到4096维。其中激活函数28 第4章卷积神经网络构造采用的是ReLU函数。input:fc6处理数据输ReLU处理数据输全连接层fc6ReLU6×6×256出4096出4096图4-8fc6数据处理过程4.3.7构造全连接层fc7如图4-9所示为全连接层fc7的数据处理过程。fc7的输出神经元个数为1024个。将fc6的4096维数据再次经过降维后至1024维。其中激活函数和fc6相同,采用的是ReLU函数。input:fc7处理数据输ReLU处理数据输全连接层fc7ReLU4096出1024出1024图4-9fc7数据处理过程4.3.8构造全连接层fc8如图4-10所示为全连接层fc8的数据处理过程。因为本文的数据集样本分为帕金森病患者的语谱图和正常人的语谱图两类,故将fc8的输出神经元设置为2个,即将全连接层fc7输出的1024维数据经过全连接层fc8后输出一个2维数据,其中每一维数据为判断一个样本患病与否的概率。当输出标签为0时,代表诊断为患帕金森病的概率;当输出标签为1时,代表诊断为正常人的概率。input全连接层fc8fc8处理数据1024输出分类输出图4-10fc8数据处理过程4.4卷积神经网络训练过程4.4.1数据初始化(1)在Caffe根目录的子目录data文件夹中新建一个“re”文件夹,存放数据样本集。29 燕山大学工程硕士学位论文(2)在examples文件夹中新建“mytask”文件夹,用来放置配置文件,执行文件以及网络模型。如图4-11所示为训练样本集,如图4-12所示为测试样本集。图4-11训练样本集图4-12测试样本集(3)样本放置路径训练样本集的放置路径为$caffe$/data/re/train/测试样本集的放置路径为$cafffe$/data/re/val/(4)标签在Caffe中训练和测试的输入是用两个文本文件来进行描述的,分别是train.txt和val.txt,在这些文档中列出所有的文件名称和它们所对应的标签。因为在前期已30 第4章卷积神经网络构造经将数据的名称按照ASCII码的顺序命名好,故在这个步骤中仅仅为这些文件名添加标签,患病语谱图标记为0,正常人语谱图标记为1。如图4-13所示为训练集的标签,如图4-14所示为测试集的标签,如图4-15所示为配置数据集文件。图4-13训练集标签图4-14测试集标签图4-15配置数据集文件31 燕山大学工程硕士学位论文4.4.2数据集生成将imagenet文件夹中的内容复制到$cafffe$/data/re/mytask/文件夹中,作为网络的配置文件和执行文件。如图4-16所示为网络配置执行文件。图4-16网络配置执行文件首先执行create_imagenet.sh文件,如图4-17所示。将训练数据和测试数据的路径改为自己数据集的路径。改变的变量分别为“Example”,“DATA”,“TRAIN_DATA_ROOT”,“VAL_DATA_ROOT”。执行该文件,命令为:sudo./examples/mytask/create_imagenet.sh图4-17数据生成文件经过执行create_imagenet.sh文件后,训练集和测试集均转化成lmdb的数据格式,即Caffe默认的数据集输入格式。lmdb格式的数据库中的数据都是以键值对的形式存在。由此,Caffe生成了两个语谱图数据集数据库,如图4-18所示,其中ilsvrc12_train_lmdb为训练集数据库,ilsvrc12_val_lmdb为测试集数据库。32 第4章卷积神经网络构造图4-18Caffe生成的语谱图数据库4.4.3语谱图均值计算修改make_imagenet_mean.sh文件,将路径改为自己的路径名称,如图4-19所示。Caffe要求需要将每张照片减去图像均值,之后进行训练和测试,将会提高速度和精度。所以需要获得训练的均值,执行make_imagenet_mean.sh文件,在re目录下生成训练样本的均值文件imagenet_mean.binaryproto,命令为:sudo./examples/mytask/make_imagenet_mean.sh图4-19均值计算文件在mytask目录下定义的网络描述文件为train_val.prototxt,如图4-20所示。在此文件中定义了train和test两个非常接近的网络,train为训练网络,test为测试网络,两个网络只有输入和输出是不相同的。当定义好网络的描述文件之后,需要修改训练网络参数文件,如图4-21所示。其中每30次进行一次迭代测试,每次测试分2个批次进行,每批次测试的数量为测试集的batch_size个样本数。权重衰退为0.0005,网络的基础学习率为0.001,学习率的变化策略为“step”,变化的比率为0.1,随着学习率的慢慢减小,可以使得结果收敛。每迭代10次测试一次数据,网络的最大迭代次数为500次,本文的实验训练过程为250次。网络初始化时训练的动量值为0.9,选用了CPU训练模式。33 燕山大学工程硕士学位论文图4-20网络描述文件图4-21网络参数文件4.4.4训练网络编辑在mytask目录下的train_caffenet.sh文件,即网络训练文件,如图4-22所示。其中将网络的参数配置文件的路径修改为mytask路径下的配置文件路径。GLOG_log_dir路径为网络的日志输出路径,目的是生成Accuracy曲线图以及Loss曲线图,在第5章会详细介绍。图4-22网络训练文件在终端中运行train_caffenet.sh文件,即执行网络的训练过程。以上执行操作均在caffe根目录执行,否则脚本将无法运行。如图4-23所示为网络训练结果。命令为:34 第4章卷积神经网络构造sudosh./examples/mytask/train_caffenet.sh图4-23网络训练结果在网络的训练结果中可以观察到,Iteration表示迭代的次数,accuracy为每次迭代后网络识别率,lr为每次迭代后网络的损失函数的大小。4.5卷积核学习特征的提取好坏直接关系到最终分类识别率的高低。传统的语音识别过程,需要经过复杂的特征提取过程,而往往需要大量的数学运算以及理论基础,不仅仅在时效上将会造成一些障碍,而且会混淆特征的有效性。卷积神经网络通过卷积核与输入图像作卷积进行特征提取,并进行前向传播,通过网络的输出与原始的标签的差值进行反向传播以进行参数的更新调整,即卷积核和偏置的学习。在前向传播与反向传播的迭代中,网络学习到的特征也利于分类。鉴于卷积神经网络封装了其内部的实现,这也因此增加了优化网络参数的难度。深度学习算法的学习过程非常复杂,其特征提取的过程是卷积核自学习的过程,而卷积核所学习到的特征直接体现在最终的分类识别率上。卷积核的学习过程就是特征的存储过程,保存了中间特征而对于开发者而言,却无法获取特征对于网络的调整和参数的优化是一个难点。如果将卷积神经网络中的每个网络层的输出特征图展示出来,即将语音中的特征提取过程进行详细的描述,能够在一定程度上知道开发人员对于网络参数的调整及优化。35 燕山大学工程硕士学位论文以本章构造的卷积神经网络为基础,将卷积核视为学习特征的工具,利用卷积核存储特征及不断更新调整学习能力的特点,将网络的中间特征图进行可视化的展[47,48]示,根据中间特征输出的结果对网络进行综合分析。如图4-24所示为一张输入到卷积神经网络的帕金森病人语谱图。图4-24输入帕金森病人语谱图如图4-25所示为帕金森病人语谱图与卷积层conv1的卷积核做卷积后的输出特征图。如图4-26所示为conv1的卷积核特征自学习的可视化结果。图4-25卷积层conv1输出特征图36 第4章卷积神经网络构造图4-26卷积层conv1卷积核可视化结果如图4-26所示可知conv1层卷积核学习到的特征大多为语谱图的边缘信息。图4-25有96个输出特征图,观察发现,通过灰度值的强弱来描绘语谱图,对于语谱图中的大致轮廓进行描述并输出。图中每张小图的位置、灰度值比例不同,是因为从不同角度进行展示。在图4-25中观察,左边第一列、第二列和第四列为从正面观察语谱图所得到的轮廓,从直观角度观察,其他特征图为各个边缘的放大化的图像,表达的是各个边缘的特征信息。将图4-25和图4-26的特征图信息进行对比,可以推测出,在经过卷积神经网络的大量训练后,conv1卷积核学习到的特征基本上是帕金森病语谱图的边缘轮廓信息,即原始输入中的底层信息。图4-25语谱图输出特征图表明在卷积核学习的过程基本符合图像边缘的提取理论:在一幅图像中,通过不同方向的卷积算子和图像作卷积而得出相应方向的轮廓信息。垂直梯度的卷积算子经过卷积后提取到的是图像垂直方向的边缘轮廓,而水平方向的卷积算子经过卷积后提取到的是图像水平方向的边缘轮廓。经过分析,在卷积神经网络中将卷积核学习到的特征信息以及中间输出特征图可视化,为卷积层的设计以及参数的调优提供了一个很好的参考依据。conv1卷积核学习到了帕金森病语谱图的边缘轮廓信息,由此总结得出当设计一个卷积神经网络的conv1时需要遵循两点原则:保证足够数量的卷积核。在输入数据集为语谱图情况下,由于语谱图中包含语37 燕山大学工程硕士学位论文音中的大量不同的特征信息,包括语音的时域特征、频域特征以及语音的时长等信息。另外语谱图由红、黄、蓝三种颜色绘制,从卷积神经网络的卷积层conv1而言,对于语谱图的轮廓描绘会比一般个体的轮廓更加难以刻画。由图4-25所示输出特征图中观察可注意到,有部分的特征图差别很大,这是因为语谱图基于视觉分析,经过不同角度进行卷积,即卷积核有多个不同的方向特征,也就说明保证足够多的卷积核去卷积输入图像,能够从多个角度进行提取特征,因此获取的特征信息也就越多,对于最后的结果越容易分类。保证卷积核数量与数据集的比例关系。当卷积核的数量达到一定的上限值时,会全面的学习输入数据集的特征信息,如果卷积核数量超过上限值,将可能会有多个卷积核学习到在同一个位置的特征,这就不仅仅造成了提取到的中间特征信息的冗余,而且增加了网络训练的复杂度,这就需要不断更新更多的卷积核,也很有可能需要更多的迭代次数,通过反向传播进行网络参数的调整,反而会降低网络的训练速度。图4-27卷积层conv2卷积核可视化结果如图4-27所示为卷积层conv2所学习的卷积核,可视化结果为前48个5548的卷积核。因为卷积层conv2的卷积核为256个5548的高维卷积核,在二维平面上不易于展示出来,所以将conv2的卷积核中抽取其低维度的卷积核进行可视化,通过低维度卷积核特征观察信息。图4-27中的每一行为48个卷积核的可视化结果,38 第4章卷积神经网络构造即将一个高维度卷积核进行平铺展示的结果。通过观察图4-27得知,每个小图像都相差不大,每一行显示的小图像的形态都很相近,每个小图像类似于斑点,但经过仔细观察可以发现,同一行的小图像的形态、方向都很接近,观察不同的行之间,最大的不同点体现在每张小图像的斑纹方向。纵观每一列,方向不尽相同。说明不同行之间的图像差别还是较大的。通过对图4-27的可视化分析可知,conv2的卷积核为高维度的,每一个高维度卷积核学习到的特征相似,所以在图4-27中发现,每一行的子卷积核学习的特征类似,不同行的高维卷积核所学习到的特征差别很大。图4-28卷积层conv2输出特征图如图4-28所示为图4-25经过卷积层conv2卷积运算后的输出特征图。在卷积层conv2中有256个卷积核,卷积层conv1的输出特征图经过卷积运算后会输出256个特征图,在图4-28中仅显示了36张输出特征图。从图4-28和图4-25的对比中可以观察到,虽然从两个特征图中都可以看到帕金森病语谱图的大致轮廓,但是经过仔细对比后可以观察发现,与图4-25对比,图4-28的轮廓更加明显,而且清晰度也更高。结合图4-25,图4-26,图4-27,图4-28可以得知,在卷积层conv1之后的卷积层的卷积核不仅能够学习到语谱图中的特征信息,而且还能够增强提取到的特征信息,将部分噪声过滤。所以保证足够的卷积层可以增强特征信息提取质量,而且可以提高分类效果。39 燕山大学工程硕士学位论文图4-29卷积层conv3输出特征图图4-30卷积层conv4输出特征图如图4-29所示为卷积层conv3进行卷积后的输出特征图。如图4-30所示为卷积层conv4进行卷积后的输出特征图。图4-29与图4-30对比观察到,图4-29的输出特征图中每张小图的亮点分布不均匀,而图4-30中的输出特征图中的每张小图的亮度主要分布在右半部分,而且相对比较集中。由此可得知,卷积层conv4增强了图像的特征信息。40 第4章卷积神经网络构造图4-31卷积层conv5输出特征图图4-32下采样层pooling3的输出特征图如图4-31所示为卷积层conv5进行卷积后的输出特征图。与图4-29、图4-30相比,图中的亮度明显增强,而且亮点的个数较前两张特征图明显减少。由此可知,在卷积的过程中,提取的特征信息进一步增强,同时抑制噪声的能力也越来越强。如图4-32所示为卷积层conv5经过下采样pooling3后的输出特征图。由图4-32和图4-31作对比可观察到,将图4-31进行下采样操作,分辨率降低,但是特征信息被完整保存,则输出特征图的像素变少,由此可得知,卷积神经网络减少了需要训41 燕山大学工程硕士学位论文练的参数,进一步提高了网络的训练速度。图4-33a)fc6层节点输出分布图4-33b)fc6层输出值直方图如图4-33所示,图4-33a)为fc6全连接层神经元输出值,图4-33b)为fc6全连接层神经元输出的梯度直方图,即神经元的输出值在神经元节点中的占比。由图4-33中两张分图可观察得知,fc6全连接层的神经元输出值主要分布在0.5到1.5之间,即输出特征相对来说较为集中在部分区域中,其他位置比较稀疏。图4-34a)fc7层节点输出分布42 第4章卷积神经网络构造图4-34b)fc7层输出值直方图图4-34a)为fc7全连接层神经元输出值,图4-34b)为fc7层输出直方图。由图4-34中的两个分图观察可得知,fc7全连接层神经元的输出值主要分布在0.7到0.9之间,从整个直方图的趋势上而言,少数神经元处于被抑制状态,多数神经元处在被激活状态。由图4-31经过下采样得到图4-32,再由图4-32经过fc6和fc7两个全连接神经网络后得到的输出值的直方图可以观察到,图4-31和图4-32的图像区域更加偏向黑色,明显亮点的区域少,而在fc6和fc7的全连接输出值直方图中,神经元的输出值也并不是均匀分布,主要集中在某一区域,说明当伴随着网络深度增加,层数越高,输出的特征越稀疏,提取的特征也越多。图4-35为卷积神经网络经过fc8层后的输出结果图。图4-35卷积神经网络输出层43 燕山大学工程硕士学位论文图4-35为卷积神经网络最终的输出结果。因为最终的全连接神经网络的输出结点共有2个,所以根据这两个结点中的输出值和原始标签进行一一匹配,如果和标签一样,则分类是正确的,如果和标签不同,则分类错误。由图4-35可观察到,输出帕金森病的概率为88.85%,而输出正常人的概率则为11.15%,因此输出为帕金森病的概率最大。在标签中标记0,代表为帕金森病患者,反之标记1,为正常人。因为语谱图的标签为0,最终的输出为0,即判别该对象为帕金森患者,二者相等,则网络分类是正确的,即输入为帕金森病患者的语谱图,将之放入训练好的卷积神经网络模型中能够进行正确的分类,分类结果为帕金森患者的语谱图,也表明通过将语谱图输入至卷积神经网络中,通过训练最后输出的特征值能够正确判断该对象为帕金森病患者。4.6本章小结本章首先对Caffe深度学习框架的特性及结构特点作了简单介绍,解释在此框架下对卷积神经网络的运算效率的支持。然后详细阐述卷积神经网络在Caffe上的网络模型的构造过程,通过8个网络层结构的设计,在每层结构上的数据传递过程的分析。在构造的卷积神经网络的基础上,经过网络的训练阶段后,利用生成的网络模型,测试网络的性能以及学习能力,再通过每个网络层的输出特征以及卷积核学习特征,进行分析数据集中特征的变化情况,经过最后一个网络层输出此网络的分类情况。44 第5章基于临床样本的帕金森病诊断实验第5章基于临床样本的帕金森病诊断实验5.1引言本章将利用上一章设计的卷积神经网络模型进行基于临床样本的帕金森病诊断实验。实验的基础是将语音数据进行预处理操作。本文实验所采用的数据一类是帕金森病人的语音,一类是健康人的语音,采集良好的语音信号是实验的重要基础。采集语音数据时需要保证周围环境的安静,尽量要求语音的完整性。采集后的语音数据进行指定条件下的语谱图的转化,将其作为卷积神经网络模型的输入,进行训练、测试过程,最终得出诊断的正确率。本实验过程中,通过设置不同的参数、不同条件、不同数据源的情况下,对实验结果进行比对,得出网络模型的最优参数从而得出最终的识别率。在此实验的基础上,将本数据集在DBN、RNN网络上进行训练测试得出识别率,从最终的识别率上进行比较卷积神经网络和其他深度学习网络的性能,并和传统的分类器比较分析。5.2数据来源训练和测试数据集分为两个部分,其中帕金森病人的语音数据选自于UCI帕金森语音数据集。UCI机器学习数据库(UCIMachineLearningRepository)于1987年由加州大学欧文分校的DavidAha和其研究生创建,目的是为机器学习领域的研究人[18]员提供可以进行研究和测试的数据集。经过二十多年的扩展,目前共包括211个不同种类的数据集。本文选取其中的部分帕金森语音进行剪切后共190个语音数据。另外一类是进行实时采集的健康人的语音信号,剪切后共81个语音数据。每段语音的长度均为2s。在语音元素选取时,选取的是英语的国际音标中的五个元音[a:]、[ei]、[i:]、[ɔ:]、[æ]作为语音信号。因为在世界上的各类语系中都能找到与之类似的发音,因此语音的选取具有广泛的适用性。本文实验采用的数据样本为190个语音,其中包含多人的发音截取片段。将190个语音以采样率22050Hz的频率转化成语谱图,其中训练集为160个语谱图,其中90个患帕金森病语谱图,70个正常人的语谱图。测试集为30个语谱图,其中11个正常人语谱图,19个帕金森病人语谱图。在本章的对比实验中,在190个数据集中选取不同的数据集进行实验。45 燕山大学工程硕士学位论文5.3评价指标本文实验以帕金森病语音障碍的诊断为目的,将所有帕金森病患者以及正常人的语音进行时频化表示并输入至本文构造的卷积神经网络中,将网络的最终输出结果在控制台依次输出。本实验将每张语谱图的识别率作为该对象的评价指标,当输出其中一类的概率大于另一类时,并且与标签相符,则对该对象正确判断是否患有帕金森病。反之,该网络对该对象是否患有帕金森病判断错误。本实验将最终测试集输入至卷积神经网络中的识别率作为该网络的评价指标,即帕金森病的诊断率。通过将全部测试集输入至网络而得出正确判别比例的高低,作为卷积神经网络性能的评价指标。将识别率与传统分类器及其他深度神经网络算法的性能作比较,从而判断该卷积神经网络性能的优劣。5.4实验测试实验将分为两个部分,第一部分为将彩色语谱图和灰色语谱图分别作为输入的对比实验,不同学习率的对比实验,不同样本数比例的对比实验,不同中间层节点数的对比实验,momentum动量值实验,通过五个不同实验的对照来进行对网络参数进行调优,选择最合适的参数。第二部分为同DBN、RNN以及传统分类器的对比实验,通过最终的分类结果进行对比,来说明卷积神经网络的优势与不足。5.4.1测试不同输入数据输入数据的形式对最终的准确率是会有一定的影响,所以实验初首先对输入数据进行分别测试,即对语谱图的不同输入的形式分别进行实验。在实验中保证在网络的参数、网络的结构均不变的情况下,改变数据的输入格式。语谱图的语音采样频率为22050Hz,单声道,wav格式。其中共140个训练样本,患病样本为119个,正常样本为21个。44个测试样本,其中30个患帕金森病样本,14个正常样本。其中设置的参数为傅里叶变换的点数N为1024,重叠的长度overlap为512,傅里叶变换时的窗长度为1024。5.4.1.1灰度谱实验本实验采用输入数据为灰色语谱图,在Matlab中调用specgram函数,将参数设置好,生成彩色语谱图,其大小为1200900,但是有白边,对卷积神经网络而言是46 第5章基于临床样本的帕金森病诊断实验冗余信息,采用imcrop函数将生成的语谱图进行去白边操作,然后采用imresize函数将语谱图降维至256256,然后将其作为卷积神经网络的输入进行训练。如图5-1所示为灰度谱数据集。图5-1灰色语谱图数据集将灰色语谱图作为网络的输入,根据上一章中所设置的训练文件中的参数将会生成Log日志文件,如图5-2所示。文件中记录的为训练过程中的准确率和迭代次数的关系,以及会记录网络的配置参数。图5-2Log日志文件依次执行parse_log.sh、plot_training_log.py.example文件,将会生成Accuracy值和迭代次数关系的曲线以及loss值和迭代次数关系的曲线。Accuracy值表示的是在网络训练的过程中,每迭代30次从测试集中随机选出22个语谱图进行分类判断而得出的概率值。Loss值表示的是网络训练过程中真实值分布与预测值分布的差值。下文中生成此关系曲线的方式相同,不再阐述。如图5-3所示为灰度谱Accuracy曲线,如图5-4所示为灰度谱Loss曲线。47 燕山大学工程硕士学位论文图5-3灰度谱Accuracy曲线图5-4灰度谱Loss曲线由图5-3观察灰度谱实验过程中,Accuracy曲线在0.55左右浮动,说明在训练过程中对语谱图的分类结果并不是很有效。Loss曲线逐渐趋向于收敛状态,最终也是0.4左右,并没有达到很好的效果。5.4.1.2彩色谱实验在灰度谱实验的基础上,将输入改变成彩色语谱图进行训练并测试,其它的参数不变。如图5-5所示为彩色谱数据集,如图5-6所示为彩色谱Accuracy曲线,如图5-7所示为彩色谱Loss曲线。48 第5章基于临床样本的帕金森病诊断实验图5-5彩色语谱图数据集图5-6彩色谱Accuracy曲线图5-7彩色谱Loss曲线49 燕山大学工程硕士学位论文由图5-6观察可得知网络训练过程中,彩色谱的Accuracy的值逐渐趋近于0.86,由图5-7观察可知Loss值逐渐趋近于0.01,说明网络参数逐渐调整合适。5.4.1.3实验结论图5-8灰度谱彩色谱Accuracy实验对比图5-9语谱图loss值实验对比图5-8为灰度谱与彩色谱的识别率的实验对比结果图。图5-9为loss值的实验对50 第5章基于临床样本的帕金森病诊断实验比结果图。由以上图中可得出结论,灰度语谱图的识别率比彩色语谱图的识别率平均低约30%,总结原因应是基于AlexNet的卷积神经网络本是对彩色图像进行识别的网络结构,对于图像识别而言,该网络更加适合彩色的图像。进而可以得出,在语谱图中,彩色语谱图中所包含的特征信息比灰色语谱图多,色彩也更加丰富,在网络的训练过程中卷积核学习到的特征也更多,所以在本次实验中应该采用彩色语谱图作为网络的输入。5.4.2学习率对比实验学习率对最终的分类效果有很重要的影响。当学习率过于小时,训练过程中算法很容易就会收敛。假如学习率过大,就会加快学习的速度,造成Accuracy曲线振荡或者发散。本次实验将采用五种不同的学习率进行对比测试,分别为0.1,0.01,0.001,0.0001,0.0005。本实验网络结构除学习率不同外,其他的参数均相同。如表5-1所示为不同学习率的对比实验结果。表5-1学习率对比实验迭代次数3060901201501802100.000168.18%65.91%68.18%68.18%68.18%68.18%68.18%0.000568.18%65.91%72.73%72.73%75.00%72.73%75.00%0.001072.73%81.82%86.36%88.03%81.81%88.03%86.36%0.010068.18%65.91%77.27%81.82%77.27%77.27%77.27%0.100031.82%34.09%31.82%31.82%31.82%31.82%31.82%由表5-1实验结果的对比中可以得出结论,学习率的不同会导致识别率的不同,根据以上的实验结果可以观察到,随着迭代次数的增加,网络的学习能力趋于稳定,识别率逐渐收敛。当学习率选择0.001时识别率最高,故此卷积神经网络将采用的学习率为0.001。5.4.3输出节点实验在第4章设计的卷积神经网络中,鉴于实验中所使用的数据样本并不是很多,全连接层fc7的输出节点个数为1024,本实验通过改变fc7层的数据节点数来验证输出节点的个数对网络性能的影响。故将网络的fc7层的输出节点数分别设置为204851 燕山大学工程硕士学位论文和4096个节点进行实验。图5-10fc7输出节点对比实验如图5-10所示,三个实验的识别率相差无几,最终的精度都能达到87%左右。由此可知,在设计卷积神经网络的过程中,需要根据输入数据样本的数量设置全连接层的输出节点个数,全连接层的输出节点个数并不是直接影响分类率的关键因素。5.4.4动量值实验在网络训练过程前期,会首先对网络的权值进行初始化的操作,一般情况下会遵循某种分布,例如高斯分布。网络权值的初始化将会对网络最终的分类性能有着很大的影响,即如果网络权值设置合适,则会加快损失函数在网络训练过程中的收敛速度,可以尽快达到最优的值。如果初始化权值设置不合适,过大或者过小,会使得网络的损失函数陷入局部最小值,而达不到全局最优值。如何控制初始化权值的范围,也是网络训练过程中首先需要解决的问题。momentum动量值的设定在一定程度上能够解决这个问题。动量值的概念是根据物理学的势能与动能的转化关系而提出。momentum的值越大,其转化为势能的值也越大。在卷积神经网络的应用中,选取合适的momentum值会使得网络损失函数能够进入全局凹域而不受局部凹域束缚。如表5-2所示为不同momentum动量值的网络的识别率对比。52 第5章基于临床样本的帕金森病诊断实验表5-2不同动量值的识别率对比动量值识别率0.50.630.70.730.90.871.10.63由表5-2观察可得知,当动量值为0.9时,网络对语谱图的识别率会达到一个最优的效果,对于只有患帕金森病和正常人两类的数据集而言,动量值略高或略低会对网络最终识别语谱图的正确率有一定程度的影响。5.4.5样本比例实验因为需要保证足够的样本数量,所以在之前五个实验数据集的基础上增加了部分数据,并对训练集和测试集的数量进行了一定比例的调节。本实验采用的训练集为160个语谱图,其中帕金森病语谱图为90个,正常人语谱图为70个。测试集为30个,其中帕金森病语谱图为19个,正常人语谱图为11个。训练集与测试集的样本比例分别约为5:1,3:1,1:1,0.5:1。如表5-3所示为样本数量比例对照表,如表5-4所示为不同样本比例的对比实验结果。表5-3样本比例对照表名称样本数训练集:测试集实验11905:1实验21203:1实验3601:1实验4450.5:1表5-4不同样本比例实验对比迭代次数03060901201501802105:163.33%63.33%93.33%96.67%96.67%96.67%96.67%96.67%3:136.67%96.67%96.67%96.67%96.67%96.67%96.67%96.67%1:136.67%93.33%90.00%90.00%86.67%90.00%86.67%86.67%0.5:140.00%90.00%63.33%63.33%53.33%53.33%60.00%60.00%上述实验中在网络训练过程中测试数据集得出了识别率,但每次是将测试集随53 燕山大学工程硕士学位论文机的batch_size张语谱图输入进网络进行测试,并不是全部的数据。在上述实验的基础上,本文在实验最后写了一段python程序,将在训练结束之后,调用训练后生成的模型,将全部测试数据集输入到卷积神经网络网络中,得到最终全部测试集的识别率。将测试集全部输入至网络中的识别率对比结果如图5-11所示。图5-11最终识别率对比由表5-4可观察到,当训练样本与测试样本之比为5:1和3:1时的识别率最高,都能达到97%左右。但是由图5-11观察到,当全部测试集进行测试,样本比例为5:1时能达到87%,而样本比例为3:1时,识别率能达到77%。相比之下,当比例为5:1的情况下,能够一定程度上提高最终的识别率。当样本比例为1:1时网络的识别率逐渐趋向于87%左右,最终识别率达到83%。而当样本比例为0.5:1时,网络的识别率仅达到了60%,而最终识别率达到了75%。综合表5-4和图5-11所示,在能够保证最终的识别率在一定标准范围内的基础上,需要适当增加数据集的数量并将训练样本与测试样本的比例提高至一定范围。当训练样本的数量不足时,卷积核无法完全学习到输入数据样本的特征信息,对最终的识别率会造成一定程度的影响。这也是本实验需要完善之处,故本实验采用训练样本与测试样本比例为5:1。如图5-12所示为将30个测试语谱图全部输入至生成的网络模型中的结果。由图5-12可知,综合上述的对比实验优化后的卷积神经网络,对于语谱图的识别率能够达到86.67%。54 第5章基于临床样本的帕金森病诊断实验图5-12最终输出结果5.4.6网络参数在本节中从五个角度来进行实验,分别从输入的形式、学习率、动量值设定、样本的比例、输出节点个数上进行实验,最终得出此卷积神经网络的最佳网络参数。如表5-5所示为卷积神经网络模型的最终参数。表5-5卷积神经网络最终参数参数类型参数语谱图短时傅里叶变换参数N:1024overlap:512window:1024数据集训练集160,测试集30,包含有帕金森病和正常人彩色语谱图,比例5:1网络结构基于AlexNet改进的卷积神经网络学习率0.001动量值0.95.5实验对比为了能够从直观上说明此卷积神经网络在对帕金森语音数据集上的识别率的有[18]效性和可靠性,本文利用传统分类器SVM、三枝决策分类器、多维筛分类器、深度置信网络(DeepBeliefNetworks,DBNs)、循环神经网络(RecurrentNeuralNetworks,55 燕山大学工程硕士学位论文RNNs)作为对比测试方法。如表5-6所示为帕金森数据集不同算法的性能对比。表5-6帕金森数据集不同算法的性能比较算法识别率DBN0.63RNN0.63卷积神经网络(CNN)0.87如表5-6所示,CNN与其他两种深度神经网络相比,CNN的分类效果高于DBN、RNN,由于DBN和RNN在训练过程中只学习到了帕金森病语谱图的特征信息,以至于在测试过程中没有对正常人语谱图的识别能力,全都识别为帕金森病语谱图。因此在基于本实验数据集的前提下,DBN和RNN的适用能力较差。而CNN与其他传统分类器的分类性能相比,高于SVM的82.05%和三支决策分类器的85.13%。与多维筛分类器相比,与其93.75%的分类率相比略低。5.6结果分析综合上述两部分的实验结果可知,本文所构造的基于帕金森语音障碍诊断的卷积神经网络比传统的分类器的识别率要高,因此在语音特征提取方面,本文所构造的卷积神经网络在与传统分类器相比较,通过语谱图的转换,卷积核进行特征的自学习,能够很有效的将语音中的一部分特征进行提取并保存到网络中进行下次训练的特征的再提取。这种方法与分类器的直接提取语音中的特征相比较,一方面节省了特征提取的复杂性,特征的冗余性,另一方面在保证最终的诊断率的前提下,将特征进行可视化,将网络的数据传递过程透明化,在特征提取上有了理论依据。通过卷积神经网络进行帕金森病语音数据集的多个对比实验,在一定程度上能够完成帕金森病的诊断。鉴于本文实验中所用样本集数量少而需要增加样本的数量,也会在最终诊断率上有一定的影响,也是本文实验需改进之处。通过本文实验,可以得出结论,通过构造合适的卷积神经网络能够诊断出被测试者的患有帕金森病情况。5.7本章小结本章分为两个部分,第一部分为卷积神经网络参数的优化实验,通过从多个角度,五个对比实验,得出最终的识别率。根据识别率的高低进行网络参数的优化,得出网络参数最优值。第二部分为卷积神经网络和其它的传统分类器以及深度神经56 第5章基于临床样本的帕金森病诊断实验网络的对比实验,通过识别率的对比,对卷积神经网络诊断帕金森病性能上的优劣作出评价。57 燕山大学工程硕士学位论文结论本文的工作主要分为三个部分,第一部分为引入语音时频化的方法,通过描述时频化的过程,完成将语音到语谱图的转化。第二部分为卷积神经网络的构造。通过结构的设计、网络层的设计以及功能的描述,构造了一个深层的卷积神经网络。将数据集作为网络输入,完成网络的训练过程,得到网络的训练模型。将测试集通过模型,输出语谱图的特征,即语音的特征信息。第三部分,对构造的卷积神经网络进行参数优化实验,并对诊断帕金森病语音的可行性以及识别效率进行判定。本文的工作具体包括如下几点:(1)语音时频化的转换。基于信号的时域特征提取的局限性,引入将语音转化成语谱图进行特征提取的方法,在传统分类器分类精度已经很高的情况下,尝试通过将帕金森语音作为深度学习算法的输入数据进行分类。鉴于卷积神经网络在多维图像中的特征提取的领先优势,引入基于卷积神经网络进行帕金森病语音障碍的诊断的方法。前期数据处理阶段,将语音信号进行时频化的转换,变为同时具备时域和频域特性的语谱图,较之前的单一时域或频域的特征提取,更有利于特征的自学习以及新特征的发现提供了可能性。(2)卷积神经网络的构造。卷积神经网络是深度学习中应用于图像识别和语音识别的常见算法。首先将卷积神经网络的核心算法进行详细介绍,在训练过程中通过反向传播进行卷积核和偏置的更新,即网络完成自适应调节的过程。然后构造在本文中适用于UCI帕金森数据集的卷积神经网络。通过对卷积层和下采样层结构的设计,合理安排全连接神经网络的输出节点个数,说明数据的传递过程,构造出本文所使用的卷积神经网络。在已构造的网络训练过程中,得到最终的网络模型。通过卷积核学习特征的输出及特征图之间的对比,说明语音特征的提取过程。(3)网络的微调实验及最终诊断性能测试。利用构造的卷积神经网络,对其网络配置参数进行不同的对比实验,通过5个对比实验对卷积神经网络进行调优,能够对数据集的诊断性能达到最高,最终能达到86.67%的诊断率。与其他的传统分类器和深度学习算法的诊断率作对比,结果表明,设计的卷积神经网络能够较好地通过语音障碍诊断帕金森病。58 结论然而在测试实验中也发现了一些不足,深度学习算法本身是处理海量数据集的模型,在本文中所使用的UCI中帕金森语音数据集,在保证时长前提下,使用了190个样本集,虽然卷积神经网络能够对小规模数据进行训练并进行分类,但数据量的大小会对最终的识别率产生一定的影响,在海量数据中,网络会学习到更多的特征,会提高最终的网络模型的普适性。另外在本文的对比实验中,学习率、动量值等参数进行调节,但是在网络中还有许多参数未调节到最优值。现阶段,初步完成通过卷积神经网络完成了对帕金森病语音障碍的诊断,能够保证一定的诊断性能,但训练过程中时间效率低,数据样本少以及网络参数未能调节至最优值是一个影响最终分类率的关键因素,由于时间有限,日后需要有待完善。59 燕山大学工程硕士学位论文参考文献[1]BarnettR.Parkinson'sDisease[J].Lancet,2016,387(10015):217.[2]SampsonTR,DebeliusJW,ThronT,etal.GutMicrobiotaRegulateMotorDeficitsandNeuroinflammationinaModelofParkinson'sDisease[J].Cell,2016,167(6):1469.[3]D.M.Huse,K.Schulman,L.Orsini.BurdenofIllnessinParkinson'sDisease[J].MovementDisordersOfficialJournaloftheMovementDisorderSociety,2005,20(11):1449-1454.[4]叶瑞东,孔祥伟,赵钢.帕金森与帕金森病[J].中华医史杂志,2008,38(2):124.[5]N.Singh,V.Pillay,Y.E.Choonara.AdvancesintheTreatmentofParkinson'sDisease[J].ProgressinNeurobiology,2007,81(1):29-44.[6]张振馨.神经系统疾病流行病学调查方法和问题[J].中华神经科杂志,2005,38(2):65-66.[7]SchragA,HorsfallL,WaltersK,etal.PrediagnosticPresentationsofParkinson'sDiseaseinPrimaryCare:aCase-ControlStudy[J].LancetNeurology,2015,14(1):57-64.[8]韩艳,张晓红,陈彤.帕金森病诊治现状调查[J].中华保健医学杂志,2008,10(1):18-20.[9]徐从英,尹厚民,张宝荣.加速度传感器定量电生理测定对帕金森震颤与原发性震颤的鉴别诊断效果[J].中华医学杂志,2016,96(41):3289-3293.[10]陈宗卉,田有勇.帕金森病嗅觉障碍的研究进展[J].临床内科杂志,2014,31(6):429-430.[11]DrotárP,MekyskaJ,RektorováI,etal.DecisionSupportFrameworkforParkinson’sDiseaseBasedonNovelHandwritingMarkers[J].IEEETransactionsonNeuralSystems&RehabilitationEngineeringAPublicationoftheIEEEEngineeringinMedicine&BiologySociety,2015,23(3):508.[12]J.R.Duffy.MotorSpeechDisorders:Substrates,DifferentialDiagnosis,AndManagement[M].Boston:Addison-Wesley,2005:172-193.[13]SapirS,SpielmanJL,RamigLO,etal.EffectsofIntensiveVoiceTreatmentonVowelArticulationinDysarthricIndividualswithIdiopathicParkinsonDisease:AcousticandPerceptualFindings[J].JournalofSpeechLanguage&HearingResearch,2007,50(4):899-912.[14]GobermanAM,BlomgrenM,MetzgerE.CharacteristicsofspeechdisfluencyinParkinsondisease[J].JournalofNeurolinguistics,2010,23(5):470-478.[15]Barnett-CowanM,DydeRT,FoxSH,etal.MultisensoryDeterminantsofOrientationPerception60 参考文献inParkinson'sDisease[J].Neuroscience,2010,167(4):1138-1150.[16]AlexanderM.Goberman,MichaelBlomgren,ErikaMetzger.CharacteristicsofSpeechDisfluencyinParkinsonDisease[J].JournalofNeurolinguistics,2008,23(5):470-478.[17]D.A.Rahn,M.Chou,J.J.Jiang.PhonatoryImpairmentinParkinson'sdisease:EvidencefromNonlinearDynamicAnalysisandPerturbationAnalysis[J].JournalofVoice,2007,21(1):64-71.[18]张涛.基于语音特征的帕金森病可视化诊断方法研究[D].秦皇岛:燕山大学仪器科学与技术学科博士学位论文,2012:2-9.[19]JellingerKA.HowValidistheClinicalDiagnosisofParkinson'sDiseaseintheCommunity[J].JournalofNeurologyNeurosurgery&Psychiatry,2002,73(5):529-534.[20]陈生弟.帕金森病临床诊治手册[M].北京:人民卫生出版社,2008:1-20.[21]陈茹.帕金森病研究进展[J].中国康复理论与实践.2007,13(7):637-639.[22]赵国华.帕金森病的中西医结合治疗[M].北京:人民卫生出版社,2010:32-50.[23]Chien-WenCho,Wen-HungChao,Sheng-HuangLin.AVision-BasedAnalysisSystemforGaitRecognitioninPatientswithParkinson’sDisease[J].ExpertSystemswithApplications,2009,36(3):7033–7039.[24]PalmeriniL,RocchiL,MelloneS,etal.FeatureSelectionforAccelerometer-BasedPostureAnalysisinParkinson'sDisease[J].IEEETransactionsonInformationTechnologyinBiomedicineAPublicationoftheIEEEEngineeringinMedicine&BiologySociety,2011,15(3):481-490.[25]TsanasA,LittleMA,McsharryPE,etal.NovelSpeechSignalProcessingAlgorithmsforHigh-AccuracyClassificationofParkinson'sDisease[J].IEEETransactionsonBio-MedicalEngineering,2012,59(5):1264-71.[26]LittleMA,McsharryPE,RobertsSJ,etal.ExploitingNonlinearRecurrenceandFractalScalingPropertiesforVoiceDisorderDetection[J].BioMedicalEngineeringOnLine,2007,6(1):23.[27]TsanasA,LittleMA,FoxC,etal.ObjectiveAutomaticAssessmentofRehabilitativeSpeechTreatmentinParkinson'sDisease.[J].IEEETransactionsonNeuralSystems&RehabilitationEngineeringAPublicationoftheIEEEEngineeringinMedicine&BiologySociety,2014,22(1):181.[28]TsanasA,LittleMA,McsharryPE,etal.AccurateTelemonitoringofParkinson’sDiseaseProgressionbyNon-invasiveSpeechTests[J].IEEETransactionsonBiomedicalEngineering,2010,57(4):884-893.61 燕山大学工程硕士学位论文[29]LittleMA,McsharryPE,HunterEJ,etal.SuitabilityofDysphoniaMeasurementsforTelemonitoringofParkinson'sDisease[J].IEEETransactionsonBio-MedicalEngineering,2009,56(4):1015.[30]SakarBE,IsenkulME,SakarCO,etal.CollectionandAnalysisofaParkinsonSpeechDatasetWithMultipleTypesofSoundRecordings[J].IEEEJournalofBiomedical&HealthInformatics,2013,17(4):828-834.[31]AthanasiosTsanas,MaxA.Little,CynthiaFox,etal.ObjectiveAutomaticAssessmentofRehabilitativeSpeechTreatmentinParkinson’sDisease[J].IEEETransactionsonNeuralSystemandRehabilitationEngineering,2014,22(1):181-190.[32]OrozcoarroyaveJR,HönigF,AriaslondoñoJD,etal.AutomaticDetectionofParkinson'sdiseaseinRunningSpeechSpokeninThreeDifferentLanguages[J].JournaloftheAcousticalSocietyofAmerica,2016,139(1):481.[33]R.Das.ClassificationofParkinson'sDiseasebyUsingVoiceMeasurements[J],ExpertSystemswithApplications,2010,2(37):1568-1572.[34]FridA,KantorA,SvechinD,etal.DiagnosisofParkinson'sDiseasefromContinuousSpeechUsingDeepConvolutionalNetworksWithoutManualSelectionofFeatures[C]//InternationalConferenceontheScienceofElectricalEngineering.Boston,USA,2016:12-20.[35]MeghraouiD,BoudraaB,Merazi-MeksenT,etal.Parkinson’sDiseaseRecognitionbySpeechAcousticParametersClassification[M].Madrid:SpringerInternationalPublishing,2016.[36]李勇明,杨刘洋,刘玉川,等.基于语音样本重复剪辑和随机森林的帕金森病诊断算法研究[J].生物医学工程学杂志,2016(6):1053-1059.[37]GautamBhattacharya,KoushikGhosh,AnandaS.Chowdhury.AnAffinity-BasedNewLocalDistanceFunctionandSimilarityMeasureForKNNAlgorithm[J].JournalPatternRecognitionLetters.2012,33(3):356-363.[38]GürülerH.ANovelDiagnosisSystemforParkinson’sDiseaseUsingComplex-ValuedArtificialNeuralNetworkwithK-meansClusteringFeatureWeightingMethod[J].NeuralComputing&Applications,2016,1(12):1-10.[39]张涛,洪文学,任宏雷.基于计算几何分类器的帕金森病语音障碍可视化诊断分析[J].ChineseJournalofBiomedicalEngineering,2013,32(1):119-123.[40]张涛,洪文学,常凤香,等.基于元音分类度的帕金森病语音特征分析[J].中国生物医学工程62 参考文献学报,2011,30(3):476-480.[41]DiamandisEP.MassSpectrometryasaCancerBiomarkerDiscoveryTool:OpportunitiesAndPotentialLimitations[J].Molecular&CellularProteomicsMcp,2004,3(4):367-378.[42]张娜,窦德强.帕金森病分子病理机制研究进展[J].神经药理学报,2013,3(2):35-42.[43]FridA,HazanH,HiluD,etal.ComputationalDiagnosisofParkinson'sDiseaseDirectlyFromNaturalSpeechUsingMachineLearningTechniques[C]//Proceedingsofthe2014IEEEInternationalConferenceonSoftwareScience,TechnologyandEngineering.Berlin,Germany,2014:50-53.[44]LoozeCD,GhioA,SchererS,etal.AutomaticAnalysisoftheProsodicVariationsinParkinson'sDiseasereadandSemi-Spontaneousspeech[C]//SpeechProsody,Boston,USA,2012:71-74.[45]HazanH,HiluD,ManevitzL,etal.EarlyDiagnosisofParkinson'sDiseaseviaMachineLearningonSpeechData[C]//Electrical&ElectronicsEngineersinIsrael,Atlanta,USA,2012:1-4.[46]徐洁洁,杨道淳.声带良性增生性疾病的元音语图分析[J].听力学及言语疾病杂志,1999,7(2):63-65.[47]VondrickC,KhoslaA,PirsiavashH,etal.VisualizingObjectDetectionFeatures[J].InternationalJournalofComputerVision,2016,119(2):145-158.[48]ZeilerMD,FergusR.VisualizingandUnderstandingConvolutionalNetworks[J].JournaloftheAcousticalSocietyofAmerica,2013,86(89):818-833.63 燕山大学工程硕士学位论文攻读硕士学位期间承担的科研任务与主要成果(一)参与的科研项目[1]张涛,李林,张晓娟,郑存芳,郭文杰,李慧,魏昕宇.基于数据形式结构化表示原理的帕金森病可视化诊断与知识发现方法研究,河北省自然科学基金资助项目.课题项目编号:F2015203013.(二)发表的学术论文[1]张涛,师浩斌,李林,李朝辉.决策连续形式背景的可视化数据离散化方法[J].计算机应用研究,2016,33(2):388-391.(三)发表的软件著作权[1]张涛,师浩斌,白冬辉.上课随机点名系统V1.0.登记号:2015SR141655.64 致谢致谢首先要感谢导师张涛副教授,在本课题研究期间,张老师倾注了大量的心血。在我攻读硕士研究生期间,张老师多次对我进行指导,帮助我开拓研究思路,并指出我的不足。张老师严肃的科学态度,精益求精的工作作风深深地感染和激励着我,他的言传身教将使我终身受益,在此仅向张老师致以诚挚的谢意和崇高的敬意。其次,感谢李林老师和李英伟老师,在研究生期间多次在学业上和专业技能发面给了我很大的帮助,使我不断的提高自己。感谢家人对我无微不至的关怀,感谢父母对我的支持,感谢一直关心与支持我课题组和实验室全体成员!感激魏昕宇、孟令楠、曹海兰、杨爽、张猛、张文清、王佳琦、白星、李和合等课题组成员对我的帮助,感激同窗好友孔伟钰、栾绍建、郝志远等同学的鼓励与支持。在此还要感谢我生活学习了三年的母校——燕山大学,母校给了我一个宽阔的学习平台,让我不断吸取新知,充实自己。65

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭