生物信息学第十四章 提交dna序列到数据库

生物信息学第十四章 提交dna序列到数据库

ID:22892913

大小:123.50 KB

页数:37页

时间:2018-11-01

生物信息学第十四章 提交dna序列到数据库_第1页
生物信息学第十四章 提交dna序列到数据库_第2页
生物信息学第十四章 提交dna序列到数据库_第3页
生物信息学第十四章 提交dna序列到数据库_第4页
生物信息学第十四章 提交dna序列到数据库_第5页
资源描述:

《生物信息学第十四章 提交dna序列到数据库》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十四章提交DNA序列到数据库序言:要在分子生物学领域进行计算分析,从公共数据库(DDBJ/EMBL/GenBank)中获得DNA序列记录是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的生物学注解。对于将其作为BLAST或Entrez的检索结果来研究的科学家来说,编码的蛋白质产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测序?)构成了序列记录的直接的确切涵义。本章的内容是提交DNA序列

2、及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据库:DDBJ、EMBL和GenBank密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库的两种不同的方法,一种方法基于互联网,(例如,使用Bankit),另一种方法使用Sequin,这是一个多平台程序,若同时具有网络连接有很大益处,不过这不是必需的。Sequin也是一种很好的利用了NCBI数据模型(参见第六章)的ASN.1编辑工具,而且在不久的将来会成为许多采用NCBI的序列分析工具的平台,因此,Sequin是可供选择的升级工具。大多数期刊不再刊登完整的序列数

3、据,并且现在公开发表文章时向公共数据库提交序列数据已成为一条准则。基因组测序时期(ESTs和基因组序列的数量以很快的速度增加的时期,在历史上以1992年底EST计划的开始为标志)已经通过很多方式影响了科学界。例如,许多科学家公布他们发现的序列先于发表对其进行的详细分析,这个习惯已成为大型基因研究中心的规定,尽管一些个别的实验室仍然直到文章发表后才公开他们的数据,还有一些人认为公开他们的记录与否取决于自己的愿望。像第二章概述的那样,到目前为止,数据库内容的增长是指数性的。大多数早期的序列记录是由对于某个基因感兴趣的单个的科学

4、家提交的,适合这种情况的提交程序必须允许手工进行生物学信息的任意注解。然而最近这些数据库不得不接受新类型的数据,而且提交速度要有实质性的提高。在EST测序开始不久,为了接受这些记录必需一种单独的提交协议,这种要求变得很明显,通过该协议每天接受的记录将达到上千个,峰值时期更将达到每周100,000个提交量。幸运的是,这些记录相当简单,而且在内容上是一致的,因此适合于自动处理。这种大批量提交协议将在下文讨论。提交过程也是国际活动的一部分,值得注意的是,向三个国际性协作数据库中的任一个提交的记录(参见第二章图2.1)几天后都将在

5、另两个数据库中出现,然后这些序列记录将被许多研究组和研究中心传送到世界范围,其中有些研究者再格式化这些记录以适合他们的数据库和他们的程序使用(例如,GCG,参见第四章),因此仅仅提交序列数据到这三个数据库之一,研究者们能够避免给这三个地方的数据库维护人员带来任何可能的重复工作,而且也能避免发布多余的记录。同样的,大多数期刊都希望在一篇文章中提出的所有核苷酸序列,将被由国际性的协作数据库之一提供的加入号码所验证,而且这对该文章来说具有核心的意义。(参见第2章和第6章)。提交到哪儿?过去研究者将数据提交到哪一个特定的数据库依赖

6、于他们想要发表文章的期刊,虽然现在一些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反馈回来一个加入号码,而记录的完成将需要5�10天的时间,其实际长短将依赖于那个工作周的繁忙程度和提交的序列的状态。目前,假设所有的序列记录提交都通过电子方式:例如通过

7、互联网,通过电子邮件,或者(最起码)通过常规方式邮寄一张计算机磁盘。供电子方式提交的URLs和E_mail地址列于本章末尾,这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。不过通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意其局限性和可以选择更好的方法。提交什么内容?这三个数据库都需要同样的最终结果:充分注解的、具生物学意义的、便于计算的良好记录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋白质、参考文献和基因组数据库(参见第5章)的联系。

8、这些数据库是所有通过实验获得的序列的宝库,因此最新测序的mRNA或基因区域的序列可以提交到某个数据库,其工作人员将协助提交者提供足够的信息以使该序列对其他研究者有使用价值。一套丰富的生物特征和其他注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。这些部分包括核苷酸和蛋白质序列:CDS(编码序列

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。