欢迎来到天天文库
浏览记录
ID:33835173
大小:213.07 KB
页数:4页
时间:2019-02-28
《第二章 信息检索系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第一节生物信息数据库的类型一、概念第二章生物信息数据库及信息这些生物信息数据库可以分为一级数据库和二级数据检索库。一级数据库:数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。二、基本数据库介绍2.基因组数据库1.DNA数据库GDB数据库欧洲生物信息学研究所(EuropeanBioinformaticsGeneCards数据库Institute,EBI)所维护的EMBL数据库3.蛋白质序列数据库美国国家生
2、物技术信息中心(NationalcenterforSWISS-PROT数据库BiotechnologyInformation,NCBI)的GenBankPIR数据库(蛋白质信息资源数据库)数据库PROSITE数据库日本国立遗传学研究所(JapanNationalInstituteof4.蛋白质结构数据库GeneticsCenterforInformationBiology)的PDB数据库(Proteindatabank)DDBJ(DNADataBankofJapan)数据库第二节序列数据库一、核酸序列数据库网址:www.n
3、cbi.nlm.nih.gov1、Genbank序列数据库(2)序列文件格式(1)简介FASTA:又叫Pearon(FASTA的主要作者)格¢Genbank库包含了所有已知的核酸序列和蛋白质序式。列,以及与它们相关的文献著作和生物学注释。如:猿猴病毒40的DNA序列¢Genbank每天都会与EMBL和DDBJ交换数据,使这三个数据库的数据同步。>gi
4、11612140
5、gb
6、AF316139.1
7、Simianvirus40¢每10个月翻一番。到2003年2月,Genbank中收集strain776completegenom
8、e了来自超过2千3百万个序列的293亿个碱基。GCCTCGGCCTTGCATAAATAAAAAAAAATT¢Genbank的数据可以从NCBI的FTP服务器上免费下AGTCAGCCATGGGCGGAGAA载。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务。1它的蛋白质序列为:>gi
9、11612142
10、gb
11、AAG39199.1
12、AF316139_2minorFASTA格式可以用于多序列联配,如:structuralproteinVP2[Simianvirus40]>sequence1MGAALTLLGDLIA
13、TVSEAAAATGFSVAEIAgtcagccatacgtataaggctAGEAAAAIEVQLASVATVEGLTTSEAIAAI>sequence2第一行是描述行,第一个字符必须是“>”字符;后面可以加上文字说明,gi号,gb号(GenBank检索gtgggccataaatataccgct号),LOCUS名称等信息。>sequence3第二行是:序列本身,一般每行序列不要超过gtca--cataggtatattgct80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表
14、;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;(3)数据库格式EMBL识GenBank识别意义a、GenBank格式,EMBL格式别标志标志GenBank和EMBL的行识别标志RNREFERENCE引文编号EMBL识GenBank识意义RAAUTHORS引文作者别标志别标志RTTITLE引文题目IDLOCUS标识字符串及描述字RLJOURNAL引文出处ACACCESSION唯一的提取号RX交叉引用DEDEFINITION简单的描述DRCOMMENTS对其他数据库的引用OSSOURCE来源生物体MEDLINE引
15、文的MEDLINE号OCORGANISM生物体分类谱系XX为阅读清晰而加的空行DT建立日期CCCOMMENT评注KWKEYWORDS关键字EMBL识GenBank识别意义别标志标志NIVERSION可更新的序列版本号b、GenBankflatfile格式(GBFF)举例FHFEATURES特性表头第一部分:描述符FTTEATURES特性表LOCUSAAG39199352aalinearVRL16-AUG-SQEMBL序列开始,后跟2004长度、字母数LOCUS:基因座位,某一特定的基因位于染色体或BASECOUNTGENB
16、ANK碱基数其他载体所在的位置,包括该基因的全部核苷酸序列。AAG39199为该记录的LOCUS名称。ORIGINGENBANK序列开始标志,为空行aa:DNARNAmRNA////序列结束标志2ACCESSIONAAG39199VRL:分类码,三字母组成。按生物种类及序列功能进行的分类,如病毒,真菌,
此文档下载收益归作者所有