欢迎来到天天文库
浏览记录
ID:33233689
大小:2.67 MB
页数:74页
时间:2019-02-22
《基于序列-结构信息的长非编码rna预测方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于序列-结构信息的长非编码RNA预测方法作者姓名王羽导师姓名、职称高琳教授一级学科计算机科学与技术二级学科计算机应用技术申请学位类别工学硕士提交毕业论文日期2014年12月学校代码10701学号1203121706分类TN82号TP30密级公开西安电子科技大学硕士学位论文基于序列-结构信息的长非编码RNA预测方法作者姓名:王羽一级学科:计算机科学与技术二级学科:计算机应用技术学位类别:工学硕士指导教师姓名、职称:高琳教授提交日期:2014年12月MethodforLncRNAPredictionBasedonSequence-StructureInformationAthesissu
2、bmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerScienceandTechnologyByWangYu(ComputerScienceandTechnology)Supervisor:Prof.GaoLinDecember2014西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其
3、他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,获得学位后结合学位论文研究成果撰写的文章,
4、署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要新一代深度测序技术的发展使得数以万计的新转录本被发现,但大部分是不编码产生蛋白质,这一度被认为是“垃圾”基因,而目前的生命科学研究正逐步扭转这一认识。其中长非编码RNA(LongnoncodingRNA,LncRNA),一类长度大于200nt的非编码RNA分子,已经成为基因组研究的热点之一。尽管大量的长非编码RNA在很多生理过程中被发现,但所发挥的分子机制还知之甚少。长非编码RNA作用机制多样、复杂,大规模“隐式”转录组数据的出现革新了对快速区分编码与长非编码RNA方法设计的需求。
5、传统的实验技术,如微阵列等,侧重的是对编码蛋白RNA转录本的识别。在目前的计算预测方法中,如CPC(Coding-PotentialCalculator)、PhyloCSF(PhylogeneticCodonSubstitutionFrequencies)等比对策略,依赖于序列的保守性和现有蛋白库的准确性;而如CPAT(Coding-PotentialAssessmentTool)等机器学习策略也仅利用部分从编码能力角度得到的生物特征进行预测。然而,有些长非编码RNA系mRNA演变而来,也会表现出与已有蛋白的同源性,甚至还有开放阅读框(OpenReadingFrame,ORF)、序列或
6、二级结构的保守性等,很可能会误判。因此,仅仅利用这些典型生物特征还不足以精确地预测长非编码RNA。然而,从序列-结构角度分析发现,长非编码RNA在序列-结构上的特异性为预测长非编码RNA提供新了的特征和思路。本文将在长非编码RNA已有明显特异生物特征(如ORF、蛋白序列相似性等)的基础上,对序列-结构特征进行分析和提取,并整合作为过滤标准预测长非编码RNA。文中以NONCODE数据库中的95,105条人类长非编码RNA和UCSC数据库中的40,730条人类mRNA分别作为正负样本数据集,采用支持向量机(SupportingVectorMachine,SVM)和朴素贝叶斯(NaïveBa
7、yes)方法建立分类模型,进行交叉验证,对长非编码RNA进行判定,将精确度提高到96%以上。同时,用未能整合序列-结构特征的CPAT和CPC方法作为精度比对,结果显示整合序列-结构信息的预测方法比CPAT和CPC分别提高有近6%和30%的长非编码RNA判定,表明序列-结构信息方面的特征在提高对长非编码RNA的预测精度上具有一定效果。最后,进行特征优化选取,降低假阴性,并对优化的特征做潜在的生物意义分析。关键词:长非编码RNA,预测,生物特征,序
此文档下载收益归作者所有