资源描述:
《国科大陈润生生物信息学开卷考试资料总结》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、bowung@163.com2010/12/16一.什么是生物信息学?Genomeinformaticsisascientificdisciplinethatencompassesallaspectsofgenomeinformationacquisition,processing,storage,distribution,analysis,andinterpretation.(它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。)(TheU.S.HumanGenomeProject:TheFirstFiveYearsFY1
2、991-1995,byNIHandDOE)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。二、生物学研究内容(一)经典的研究内容---大规模基因组测序中的信息分析----拼接和注释大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分
3、析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。1.HowtofindthecodingregionsinrudeDNAsequence?BysignalsorBycontents基于信号或碱基组成Bysignals作为参考信息AmongthetypesoffunctionalsitesingenomicDNAthatresearchershavesoughttorecognizearesplicesites,startandstopcodons,branchpo
4、ints,promotersandterminatorsoftranscription,polyadenylationsites,ribosomalbindingsites,topoisomeraseIIbindingsites,topoisomeraseIcleavagesites,andvarioustranscriptionfactorbindingsites.Localsitessuchasthesearecalledsignalsandmethodsfordetectingthemmaybecalledsignalsensors.第一、序列长度
5、短,重复性大,假的比真的多百千倍,因而单独使用无法真正达到检测的目的。第二、信号模式不是唯一不变的,而是用概率来表示的。Bycontent更多依赖于I.StatisticalmethodandSequenceAlignmentMethodenevenpositionalbasefrequence(Dvalue)编码区是三联体,将密码子翻译与天然蛋白的氨基酸序列进行比较(天然的蛋白质有固定的氨基酸比例)。这种方法产生三种可能的氨基酸序列,若其中有一个非常像氨基酸序列,则另外两个都非常不像,则非常像的那个便是;若三个都模糊像,则都不是。与数据库进行比对,这种
6、方法发现不了新蛋白。II.SequenceAnalysis–PairwiseAlignment双序列比对经典的双序列比对运用动态规划(DP)的形式,通过缓存亚问题的解决和重利用而不是重计算他们而解决一个最佳问题,运动DP的寻找两个长度为N的序列最佳排列将产生N2的亚问题。准确,但耗费计算机的资源。上述方法在序列很长时计算速度太慢,因此人们将之简化,发展处Heuristicschemes的方法。比较成熟的有FASTA和BLAST。这种方法搜寻短序列不插入间隔。(序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的
7、规律排列。XLIIIbowung@163.com2010/12/16将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A,T(或U),C,G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。)III.Neuralnetwork-神经网络--------------predictingthesplicingsitesAGCT硬件和软件构成的神经元系统,并构建标准数据底(标准非编码序列,标准的三联体密码序列)一个个试,调节系统能准确输出序列。任意挑出一个非编码序列能输出0。神经网络
8、包括输入层,中间层和输出层。输入层为非线性惯性,每个位置只能有五个值,四种碱基或