必需基因理论预测的多种算法研究

必需基因理论预测的多种算法研究

ID:17953459

大小:2.85 MB

页数:60页

时间:2018-09-11

必需基因理论预测的多种算法研究_第1页
必需基因理论预测的多种算法研究_第2页
必需基因理论预测的多种算法研究_第3页
必需基因理论预测的多种算法研究_第4页
必需基因理论预测的多种算法研究_第5页
资源描述:

《必需基因理论预测的多种算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级注1UDC学位论文必需基因理论预测的多种算法研究(题名和副题名)华红丽(作者姓名)指导教师郭锋彪教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业生物物理学提交论文日期2018.04论文答辩日期2018.05.29学位授予单位和日期电子科技大学2018年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。TheResearchofComputationalMethodsonTheoreticalIdentificationofEssentialGenesAMasterThesisSubmittedtoUniversityofElectronicScie

2、nceandTechnologyofChinaDiscipline:BiophysicsAuthor:Hong-LiHuaSupervisor:Prof.Feng-BiaoGuoSchool:SchoolofLifeScienceandTechnology摘要摘要研究必需基因对于构建最小基因集、发现潜在的药物靶标和广谱抗菌药物的研发有着非常重要的作用。由于这些基因对于机体生存、繁殖和发育有着不可替代的作用,许多科研工作者不遗余力去探寻必需基因识别的方法。从传统的实验技术到结合计算基因组学的理论识别方法,必需基因的识别逐渐成为基因组学研究领域的一个热点。我们课题组曾经提出过3款用于必需基因预测的

3、在线服务工具,比如基于同源必需基因和物种进化距离的Geptop,根据基因名称比较进行识别的CEG-Match,从DNA序列中提取序列组成特征去构建人类必需基因预测模型的pheg。在本课题必需基因理论识别研究中,首先从Geptop算法得到启发,将同源必需性的特征与支持向量机(SVM)算法结合起来,以机器学习打分的机制去代替物种进化距离给出的特征权重,自动地去学习每个特征对区分必需基因和非必需基因的重要性度量。对于物种内的必需基因预测,在选择的25个细菌中,通过此方法得到的10-折交叉验证的AUC值(受试者工作特征曲线下面积)最高达到0.9716。对于跨物种必需基因预测,我们则选择在10-折交叉验

4、证中AUC值超过0.90且亲缘关系距离待测物种最近的那个物种为模型训练物种,然后用于待测物种的必需基因预测。通过将预测结果得分和待测物种原始已知的基因必需性进行比较,计算AUC值,最终得到最高0.9552的AUC得分和0.8314的AUC平均得分。在已有的必需基因理论识别算法研究中,这已经是非常不错的预测结果。病原菌必需基因预测有助于发现潜在的抗菌药物靶标,但有意义的抗菌药物不仅能作用于病原菌并抑制其生长,而且对于人体是没有毒副作用的。也就是说,这些药物不能与人类必需基因相互作用。因此,我们需要有效地识别人类必需基因,辅助抗菌药物的合理研发和利用,并有助于人类疾病的治疗。我们获取了人类癌症细胞

5、系必需基因数据,从蛋白质-蛋白质互作网络、基因表达谱数据、GO功能注释三个角度去提取能表征必需基因和非必需基因区别的特征。结合支持向量机去构建预测模型,评估这三种特征对预测人类必需基因的贡献度,分别得到了0.8624,0.8272和0.8706的AUC得分。尽管在后两类特征中有不少的缺失值,但也都得到了不错的预测结果。此外,本文联合这三类特征构建了必需基因预测的集成模型,经过10-折交叉验证,最终得到的AUC值为0.9401,这是目前为止人类必需基因预测得到的最好的结果。I摘要本文主要围绕病原细菌和人类必需基因的理论识别问题展开,基于各自的研究现状,分别提取了不同的生物学特征去构建必需基因预测

6、模型,并且都得到了不错的预测结果。但这些方法仍需要不断地研究和拓展,希望获得在必需基因识别领域上能真正得到广泛推广和应用的服务工具。关键字:必需基因,病原菌,人类癌症细胞系,生物学特征,机器学习算法IIABSTRACTABSTRACTInvestigationofessentialgenesisofgreatimportanceforlearningtheminimalgenesets,discoveringthepotentialdrugtargetsanddesigningthebroad-spectrumantibiotics.Becauseoftheirreplaceablefunct

7、ionsofessentialgenesforspeciessurvivalandreproduction,manyresearchershavemadetheirbesttoexplorenewmethodstoidentifythesegenes.Fromtraditionalwet-labtechniquestothetheoreticalresearchmethods,identifica

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。