欢迎来到天天文库
浏览记录
ID:14107653
大小:54.00 KB
页数:8页
时间:2018-07-26
《序列文件格式:fasta 格式和 flatfile 格式》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1、序列文件格式:fasta格式和Flatfile格式fasta格式数据库被用来存放原始数据,以及一系列附加的注释。不同的检索工具和程序利用了这些信息中的不同部分。纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如GenBankflatfile,这是一种人可以阅读的ASN.1版本)。这些记录还有二进代码版,更加紧凑,计算机处理也更快。但不幸的是,由于历史的原因,对一种固定格式的频繁使
2、用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。GBFF的简单性,使我们都可以获得易用的工具,这也是EMBL和GBFF极大通用性的重要原因。作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据:>L04459*******************或同样的,一个蛋白质记录:>P31373*******************FASTA格式广泛应用于许
3、多分子生物学软件包之中。作为最简单的情况(正如上面所显示的),大于号(>)表示一个新文件的开始。标记符��上面第一个例子开始部分的L04459��后面是大写或小写字母的DNA序列,通常60个字符一行(但这并非是标准规定)。如果需要的话,用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。例如,在不违反上面规定的前提下,可以在FASTA的说明行中加入更多的内容,使这个简单的格式包含更多的信息,就象下面这样:>
4、*******************现在这个FASTA文件中包含了gi号码(见下面
5、)、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。这个记录是从ASN.1记录生成的,而ASN.1是NCBI用来存储和维护所有数据的格式。(在计算机中这些数据保存为一行,如果打印出来,将比本书的页面宽出许多。所以,这里做了折行处理)。在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工具用来在这些格式之间转换数据。NCBI的asn2ff程序可以将ASN.1文件转换为多种flatfile文件格式,它可以生成GenBank、EMBL
6、、GenPept、Swiss-Prot以及FASTA格式的文件。这一程序包含在NCBI工具软件包之中。DonGilbert的READSEQ是另一个广泛使用的工具,已包含在许多软件包中。在使用这些工具进行格式转换时,用户应当注意,有些GenBank或EMBL格式下的特性将被丢失。READSEQ只工作于序列自身,并不处理注释部分。那些只需要序列数据的程序最好使用FASTA格式的序列来进行查询。尽管FASTA格式的信息含量比其他格式少,但它提供了人和计算机都可理解的处理原始数据的简单方法。GenBankF
7、latfile格式GenBankflatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。在本书写作的时候,它也是从GenBank到DDBJ和EMBL数据库,以及EMBL、DDBJ之间或向其他数据库交换数据时所采用的格式。DDBJflatfile格式与GBFF格式是相同的。EMBL格式则每行都带有前缀,以表明本行的信息类型。注释部分(见下面)前缀为“FT”,在内容上与其他数据库相同。所有这些格式实际上都是由更结构化的ASN.1生成的。但是主要由于历史的
8、原因,许多用户(专家或非专家)在工作中使用GBFF(或EMBLflatfile格式)GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/EMBL/GenBank)都在最后一行以//结尾。头部头部是记录中与数据库关联最大的部分。各个的数据库并不一定在这一部分包含相同的信息,而可能存在着微小的差别。但各数据库已作出努力以在彼此之间保证信息兼容。所有的GenBankflatfile开始于LOCUS行:
9、*********************这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB
此文档下载收益归作者所有