生物信息学数据库及其利用方法

生物信息学数据库及其利用方法

ID:23315155

大小:18.66 KB

页数:5页

时间:2018-11-06

生物信息学数据库及其利用方法_第1页
生物信息学数据库及其利用方法_第2页
生物信息学数据库及其利用方法_第3页
生物信息学数据库及其利用方法_第4页
生物信息学数据库及其利用方法_第5页
资源描述:

《生物信息学数据库及其利用方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、生物信息学数据库及其利用方法摘要:阐述了生物信息学数据库在生物信息学的发展过程中发挥的巨大作用;介绍了世界上主要的生物信息学数据库及其分类和特点;论述了如何利用生物信息学数据库;最后,对利用国际生物信息学数据库促进我国生物信息学的发展做出了展望。关键词:数据库;生物信息学;序列比对;数据挖掘;知识发现;1生物信息学数据库的产生从20世纪80年代末开始,伴随着人类基因组计划(HumanGenomeProject,HGP)的启动,生物信息学(Bioinformatics)这一由生物学、化学、物理、数学、信息科学和计算机科学等多学科交叉产生的新兴学科蓬勃发展,并被许多著名科学

2、家称为21世纪自然科学的核心领域。生物信息学是计算机和网络大发展及各种生物学实验数据迅猛增长形势下发展起来的组织生物学数据,并从数据中提取新知识的一门学科,它主要研究生物系统中的信息现象、信息流及其相互作用和调控规律,是一门理论与实践应用并重的学科。1997年12月,中国科学院召开了以“生物信息学”为主题的第87次香山科技会议,来自海峡两岸的30多位生物学、物理学、化学和信息科学诸领域的专家学者出席会议,他们一致认为“生物信息学处在重大科学发现的前夜”。目前,生物信息学以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为理论

3、基础,以计算机、网络、应用软件为工具,对海量生物原始数据进行存贮、管理、注释、开发和加工,使之成为具有明确生物学意义的生物信息,并进一步通过对生物信息的查询、搜索、对比、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互作用的知识。在掌握大量信息和知识的基础上,探索生命起源和生物进化,以及生物的个体发生、发育和遗传之间的相互关系以及病变、死亡等生命科学中的重大问题,搞清它们的基本规律和时空联系,建立类似于化学元素周期表的“生物学周期表”。生物信息学已成为整个生物学发展的重要组成部分,在今后相当长的时期内是生物学研究的平台性、交叉性和前沿性的学科。2主要生物信

4、息学数据库美国、欧洲各国及日本等世界发达国家在生物信息学数据库建设和成立生物信息学专业机构两方面均走在世界前列,已相继在因特网上建立了各自的生物信息学网络节点,管理大型数据库,提供数据的分析、处理、采集、交换等服务。目前,国际上三大核苷酸、蛋白质数据库分别是:美国国家生物技术信息中心(NCBI)的GenBank数据库(http:∥www.ncbi.nlm.nih.gov)、欧洲生物信息学研究所(EBI)的核酸序列数据库EMBL(http:∥www.ebi.ac.uk/embl)和日本信息生物学中心(CIB)的DNA数据库DDBJ(http:∥www.ddbj.nig.a

5、c.uk/embl),它们每天都会交换数据,使其数据库的数据同步。著名的蛋白质序列数据库还有美国生物医学基金会建立的PIR和瑞士生物信息学研究所和欧洲分子生物学实验室共同维护的SWISS-PROT,而著名的蛋白质结构数据库是美国Brookhaven实验室的PDB。这些数据库中的数据来源于众多的研究机构和基因测序小组,或者来源于科学文献。3生物信息学数据库的分类及特点按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数据库是最基础的,一般是国家

6、或国际组织建设和维护的数据库,,如由美国NCBI所维护的GenBank等。二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合(包括一定的修正或调整)而成的数据库。其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。SWISS-PROT就是一个典型的专家库。还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就是整合数据库。生物信息

7、学数据库具有以下一些特点:(1)数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如Medline等,多达数百种。(2)数据库的更新和增长很快。数据库的更新周期越来越短,有些数据库每天都要更新。数据的规模也以指数形式增长。(3)数据库的复杂性增加,层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与蛋白质二级数据库、蛋白质结构分类数据库和蛋白质折叠数据库等几十种数据库直接关联。(4)数据库使用的高度计算机化和网络化。越来越多的生

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。