欢迎来到天天文库
浏览记录
ID:21716989
大小:43.00 KB
页数:7页
时间:2018-10-24
《第一章 绪论》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第一章绪论1.1什么是生物信息学?生物信息学是一门交叉学科。它包含了生物信息的获取、管理、分析、解释和应用在内的所有方面。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。生物信息学主要有三个组成部分:建立可以存放和管理大量生物信息学数据的数据库;研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径等。生物信
2、息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。1.2生物信息学的发展历史生物信息学早期的研究对象主要限于DNA序列的存储和分析,而其最近的迅速发展主要缘于基因组计划及相关转录组、蛋白质组、代谢组、相互作用组等计划的实施和高通量生物实验技
3、术的发展,使生物学实验数据出现了爆炸性增长。生物信息学作为一门独立的学科只有近20年的历史,但事实上,与生物信息学相关的研究可以追溯到远至上世纪中期对蛋白质和DNA结构预测的模型研究。1.3生物信息学的主要研究领域、基本问题和方法目前的生物信息学研究,已从早期以数据库的建立和DNA序列分析为主的阶段,转移到后基因组学时代以比较基因组学(comparativegenomics)、功能基因组学(functionalgenomics)和整合基因组学(integrativegenomics)为中心的新阶段。生物信息学的研究领域也迅速扩大
4、。生物信息学涉及生物学、计算机学、数学、统计学等多门学科,从事生物信息学研究的工作者或生物信息学家可以来自以上任何一个领域而侧重于生物信息学的不同方面。事实上,我们今天正需要具备各种背景知识、才能和研究思路的研究人员,集思广益来共同面对生物信息学给我们带来的这史无前例的挑战。以下简要归纳当前生物信息学研究中的基本问题。1.3.1生物学数据库的建立和搜寻生物学数据库贮存生物信息学研究的原始数据,是生物信息学存在和发展的基础。从Dayhoff及其同事20世纪60年代建立第一个已知蛋白质序列的分子生物学数据库到今天经历了突飞猛进的发展
5、。80年代GenBank、EMBL(EuropeanMolecularBiologyLaboratory)和DDBJ(DNADataBankofJapan)以DNA序列为主的世界三大标准数据库的建立为分子生物学数据库的发展奠定了基础,并发挥了核心作用。计算机网络的发展与迅速普及和使用极大地促进了数据库的发展,并保证其数据为广大的用户方便地获取,而计算机储存技术的发展和储存量的快速增长满足了生物数据指数增长的需求。其中同样关键的是关系数据库技术(relationaldatabase)的发展促进了对数据库的使用。多年前在所有的分子生
6、物学学术相关杂志中确立统一标准,要求所有新发表的分子序列在正式发表之前必须储存到GenBank、EMBL或DDBJ中的任何一个数据库并获得一个统一的序列登记号码(accessionnumber)。这对分子生物学序列数据的标准化和保证数据库所含数据的公开起到关键的作用。目前这三大数据库实行每天进行数据互相交换,使得3个数据库所包含的核心数据相同,极大地方便了用户对数据库的使用。初期的数据库以单纯DNA和蛋白质序列为主,每一个数据条目仅包含文件名和序列。但这些数据库大多都已扩展到包含与序列相关的多种信息,包括功能、突变、编码产物、调
7、节因子和参考文献等。除经典的DNA和蛋白质序列数据库外,还有生物大分子三维结构数据库(如PDB)、文献数据库(如PubMed)、与生物学相关的知识数据库(如KEGG和GeneOntology)及基因组数据库等多种类型。其中以包含多种数据类型的综合型数据库为今后的发展重点。像UCSC的基因组浏览器就是这一类型的很好的例子。它集序列、多种基因注释、比较基因组、功能基因组和许多其他数据类型于一体。这类数据库通常具备方便的图形界面,便于不具备生物信息学技能的一般用户使用。但建立这类数据库要求对多种数据类型进行有效的整合,其中不仅需要考虑
8、如何建立数据之间的联系,也对相关的软件技术开发提出新的挑战。数据格式的建立、数据的准确性和质量控制、方便的数据搜寻方式以及数据的及时更新是数据库建立和维持中的重要问题。目前最为成功和使用最广的序列数据库提取系统当首推NCBI的ENTREZ系统(http://ww
此文档下载收益归作者所有