资源描述:
《生物信息学综述.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘 要:对生物信息学的产生背景及概念进行论述,对生物信息学、计算生物学、基因组信息学等概念进行区别,重点对生物信息学的研究内容进行综述,并对研究的热点问题进行讨论,最后对发展前景提出展望。关键词:生物信息学;基因组信息学;蛋白质结构预测;药物设计生物信息学的起源生物信息学是20世纪80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科。基因组学的出现始于1986年,美国JohnsHopkins大学著名人类遗传学家和内科教授McKusick创造了基因组学(Genomics)这个名词,意指从基因组水平研究遗传的学科。虽然基因组信息量在生物总信息量中占有极大的比重,但
2、是,生物信息并不仅限于基因组信息,生物信息学也并不等同于基因组信息学。目前,我们普遍认为生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,找到代表蛋白质和DNA基因的编码区,特别是阐明非编码区的实质,从而认识生物有机体代谢、发育、分化和进化的规律;同时在发现了新基因信息之后进行蛋白质空间结构的模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此,现代生物信息学主要包括3个重要内容,它们分别是基因组信息学、蛋白质的结构模拟以及药物设计。从20世纪90年代以来,随着各种生物基因组测序计划的展开与分子结构测定技术的突破以及Inter
3、net的普及,无数的生物学数据如雨后春笋般迅速涌现。2001年2月12日,美国Celera公司与美国国家人类基因组计划分别在Science和Nature上公布了人类基因组的精细图谱及其初步分析结果。2002年4月5日出版的Science杂志又把水稻基因组的序列框架图公布出来。2002年8月23日出版的Science杂志公布了河豚的全基因组序列。到目前为止,已经测出了上百种生物体的完整基因组序列。如何分析这些从实验过程中获得的大量原始数据,并从中获得与生物结构、功能相关的有用信息是当前困扰理论生物学家的一个棘手问题。生物信息学(Bioinformatics)就是在此背
4、景下发展起来的综合运用生物学、数学、统计学、物理学、化学、信息科学以及计算机科学等诸多学科的理论方法而形成的一门崭新交叉学科。2 生物信息学主要研究内容从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。2.1 序列比对在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同
5、源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。2.2 序列分析随着越来越多生物体的DNA
6、序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、
7、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%~5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。2.3功能基因组功能基因组的任务是进行基因组功能注释(Genomeannotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。1995年O