欢迎来到天天文库
浏览记录
ID:38796343
大小:34.00 KB
页数:4页
时间:2019-06-19
《生物信息学数据库综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、生物信息学数据库综述摘要本文对生物信息学常见的数据库进行了汇总。常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。并分别对其中常见数据库进行了介绍。对于生物信息学数据库的现存问题也进行了论述。关键词数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库;随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。本文将比较常见的数据进行了汇总。1核酸序列数据库常用的核酸序列数据库有GenBank
2、核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。1.1GenBankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从NCBI的FrP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这
3、些服务。Gel~bank库里的所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件1.2EMBL核酸序列数据库EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N务完成l6J。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBI
4、N工具,也可以用Sequin软件来完成。1.3DDBJ数据库DDBJ数据库创建于1984年,由日本国立遗传学研究所遗传信息中心维护。它首先反映日本所产生的DNA数据,同时与Genbank、EMBL合作互通有无,同步更新,每年四版。日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。可以使用其主页上提供的SAS工具进行数据检索和分析。可以用Sequin软件向该数据库提交序列。1.4GDB人类基因组数据库(GDB)是人类基因图谱和疾病的数据库。GDB的目标是构建关于人类基因组图谱和测序。目前GDB中有:人类基因组区域(包括基因、克隆、am
5、plimersPCR标记、断点breakpoint细胞遗传标记cytogeneticmarkers、易碎位点fragile、EST序列、综合区域syndromicregions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、contentconting图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上登位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式看基因组图谱。2蛋白质序列数据库随着HGP计划的不断深入以及测序
6、技术的不进步,蛋白质序列信息也成指数级增长,蛋白质序列数据库就是主要以这些序列也就是蛋白质的一级结构作为数据源,并辅以序列来源序列发布时间、序列参考文献、序列特征等内容加以注释,最终形成数据文件,存放于数据库。目前规模较大的综合型蛋白质序列数据库有:PIR、SWISS—PROT/TrEMBL、PROSITE等。2.1PIR和PSDPIR是蛋白质信息资源(ProteinInformationRe—source)的缩写。这是一个国际蛋白质序列数据库,它包含所有序列已知的自然界中野生型蛋白质的信息。此库的主要目的是提供按同源性和分类学组织的综合的、
7、非冗余的数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列以按蛋白质家族分类。PIR国际蛋白质序列数据库(PSD)是由美国华盛顿的全国生物医学研究基金会(NBRF)所支持的PIR、慕尼黑蛋白质序列信息中心(MIPS)和13本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引。每季度都放行一次完整的数据库,每周可以得到更新部分。2.2SWISS—PROTSWISS—PROT是对数据人
8、工审读很严格经过注释的蛋白质序列数据库,由欧洲生物信息研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类信息、注释等,注释
此文档下载收益归作者所有