生物信息数据库-类型

生物信息数据库-类型

ID:39849870

大小:3.17 MB

页数:70页

时间:2019-07-13

生物信息数据库-类型_第1页
生物信息数据库-类型_第2页
生物信息数据库-类型_第3页
生物信息数据库-类型_第4页
生物信息数据库-类型_第5页
资源描述:

《生物信息数据库-类型》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、生物信息学曹毅生命科学学院第二章生物信息数据库数据库的类型*3第一节引言生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库序列数据库结构数据库基因组数据库一次数据库DNA序列蛋白质序列蛋白质结构人类基因组以及其它生物基因组生物信息学数据库数据库管理系统Oracle/sybase大型计算机服务器大容量磁盘空间序列数据库结构数据库基因组数据库二次数据库文献数据库专家生物信息学数据库*6生物分子数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性*7生物分子数据库几个明显的特征(1)数据库的更新速度不断加快

2、数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置*8生物分子数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。*9第二节核酸序列数据库国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBLhttp://www.embl-heidelberg.de(2)美国生物技术信息中心的GenBankhttp://www.ncbi.nlm.nih

3、.gov/Web/Genbank/index.html(3)日本遗传研究所的DDBJhttp://www.ddbj.nig.ac.jp/1、核酸序列数据库1988,由此三家组成了国际核酸序列数据库协作组织(INSDC),规定:数据交换与共享(每24小时进行一次),使用统一的数据记录格式处理提交数据,以保证各数据库相应记录在内容上的一致性,数据的维护与更新。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。GenBank:http

4、://www.ncbi.nlm.nih.gov/Genbank/EMBLhttp://www.embl-heidelberg.deDDBJhttp://www.ddbj.nig.ac.jp/22November2010Totalnucleotides:301,588,430,60822November2010Numberofentries:199,575,971*17*18“ID”为序列的标识符行,包括登录号、类型,分子的长度“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物

5、体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开始符号;“FT”为特征表行(1)FeatureKey,它是描述域生物功能的关键字;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“//”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是

6、一个永久性的唯一标识EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)*19使用EMBL(1)CD-ROM形式(2)ftp服务器(3)Gopher服务器(4)WWW服务器这是目前最常用的一种形式*20EMBL提供一些与序列相关的检索操作(基于3W服务器)(1)序列查询最简单的查询就是通过序列的登录号(如X58929)或序列名称(如SCARGC)直接查询。(2)核酸同源性搜索3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA根据给定的目

7、标序列在数据库中搜索其同源序列。*21基因组数据库(GDB)人类基因组数据库Ensembl表达序列标记数据库dbEST面向基因聚类数据库UniGene*222、基因组数据库(GDB)人类基因组计划所得到的图谱数据目前GDB包含对下述三种对象的描述:(1)人类基因组区域包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。