浅议关于提高t细胞表位预测性能的智能计算方法的研究

浅议关于提高t细胞表位预测性能的智能计算方法的研究

ID:34819011

大小:5.29 MB

页数:144页

时间:2019-03-11

浅议关于提高t细胞表位预测性能的智能计算方法的研究_第1页
浅议关于提高t细胞表位预测性能的智能计算方法的研究_第2页
浅议关于提高t细胞表位预测性能的智能计算方法的研究_第3页
浅议关于提高t细胞表位预测性能的智能计算方法的研究_第4页
浅议关于提高t细胞表位预测性能的智能计算方法的研究_第5页
资源描述:

《浅议关于提高t细胞表位预测性能的智能计算方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Y'810{1§*{———Ⅲn—uDc——口&——学校代号——j盟虹—一学号垫丝韭垫韭螋Q盟鳓聋南理歹欠多SOUTHCHNAUNlVERSrrYoFTECHNoLOGY博士学位论文关于提高T细胞表位预测性能的智能计算方法的研究学位申请人导师姓名殛职称专业名称研究方向所在学院论文提交日期曾安郑启伦教授计算机应用技术人工智能应用技术计算机科学与工程学院摘要大量研究表明:病原体感染、肿瘤发生发展、自身免疫性疾病的发生发展和组织器官移植排斥都与T细胞抗原识别和活化异常或偏离相关。T细胞表位(Tcellepitope)是指抗

2、原经过抗原提呈细胞(APC)加工后,由主要组织相容性复合体(MHc)分子提呈给T细胞受体(TcR)的短肽。T细胞表位预测是指借助于计算机的海量数据处理能力,从数百万的蛋白质里找出既能与特定的MHC分子结合,又能与特定TcR结合的抗原肽;并在此基础上通过生物实验判断找到的抗原肽能否使得T细胞活化;若能,则确定该抗原肽为T细胞抗原表位。T细胞表位预测技术对于减少实验合成重叠肽、理解T细胞介导的免疫特异性和研制亚单位多肽及基因疫苗具有重要意义。本课题是国家自然科学基金重点项目“T细胞特异性识别和活化信息数量化和可视化研究

3、(No.30230350)”中的一个重要子课题。本文针对现有基于机器学习的T细胞表位预测中亟待解决的4个问题(即预测模型的收敛速度慢、预测错误率尚可降低、可理解性差和增量学习难)进行了研究。本论文的研究工作是在利用初级锚点知识和遗传算法将MHc结合肽的亲和力预测问题转化成为一个可供计算的模式分类问题的基础上展开的。其主要创新性成果如下:1)针对目前比较流行的基于误差反传神经网络(BPNN)的T细胞表位预测模型存在训练速度慢和难以增量学习等不足,本文选取了排序学习前向掩蔽模型(sLAM)作为预测模型,极大加快了模型的

4、收敛速度。与此同时,本文还基于SLAM模型提出了快速增量学习算法,成功实现了对新增样本的快速增量学习。实验结果表明,基于sLAM模型的T细胞表位预测模型能够在很短的时间内快速实现增量学习。2)为进一步降低T细胞表位预测错误率,本文首次提出了基于神经网络集成的预测模型。实验结果显示该模型在预测错误率上较单个神经网络模型有明显降低。3)模型的可理解性对于帮助生物学专家理解MHC分子与抗原肽的结合机理有着重要意义。于是,本文提出了基于粗集的T细胞表位预测模型,其中包含了华南理工大学博士学位论文基于信息熵的属性约简完备算法

5、和结合锚点知识的属性值顺序约简算法。该模型将MHC结合肽的领域知识巧妙地融入到了基于粗集理论的知识获取方法中,从而使得该模型在基本维持了与神经网络预测模型同等预测错误率的情况下,提取出了易于专家理解的产生式规则。这些规则有助于生物学专家将其注意力集中于某些很可能的关键模式上,并便于生物学专家通过对这些很可能的关键模式的验证和分析来进一步理解蕴含于其中的免疫学机理。4)为了进一步降低预测错误率,受神经网络集成思想的启发,本文提出了规则集集成算法(RSEN),并构造出了基于该算法的T细胞表位预测模型。该模型能够充分利用

6、来自各种不同的属性约简和属性值约简算法的多样性优势。实验结果表明,基于RSEN算法的T细胞表位预测模型不仅继续保持了所获取到的规则的易理解性,而且具有比基于BPNN或租集的T细胞表位预测模型更低的预测错误率。5)为了进一步增强T细胞表位预测模型的可理解性,本文在设计出了一整套描述规则与决策表的定量指标的基础上,提出了基于粗集的顺序规则预剪枝算法,并将MHc结合肽的领域知识融合到了该算法中。MHcIl类分子结合肽的实验结果表明,该算法能够在降低或维持原有预测错误率的同时。大大减少了所获取到的顺序规则集中规则的数目和长

7、度。6)在研究基于粗集理论的知识获取方法的过程中,本文发现了现有大部分属性约简算法的共同特征(即过度依赖“保持决策表的原有分类能力不变”的基本思想)在一定程度上会削弱获取到的规则的推广能力,于是,提出了一种新颖的基于粗集和主成分分析的知识获取方法。该方法在进行知识获取的过程中,利用主成分分析方法所获得的信息(我们把它称为总体相关系数)来有重点地保留原始决策表中较为重要的某些条件属性和属性值,以便最大限度地降低属性约简和属性值约简对原始决策表中条件属性包含的“因”信息所造成的损耗,以期增强获取到的规则集的推广能力。最

8、后,实验验证了该方法所获得的规则集的推广能力比其他方法所获得的规则集的推广能力更强。关键词生物信息学;T细胞表位;MHcII类分子结合肽;人工智能;智能计算机器学习;数据挖掘;知识获取:神经网络;粗集理论;顺序学习:增量学习:集成;剪枝中图分类号:TPl81文献标识码:AIlAbs订actAbstractAgreatdealofevidencedemonst

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。