欢迎来到天天文库
浏览记录
ID:48089723
大小:1.38 MB
页数:30页
时间:2020-01-14
《生物信息学ppt-.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、GenBank数据库介绍主要内容:基因组数据库的相关背景。主要的基因组数据库资源。GenBank序列数据库。--GenBank序列格式。举例介绍基因数据库的使用。基因组数据库的发展历史从历史上来看,蛋白质数据库是先于核苷酸数据库出现的。早在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoffetal.,1965)。这一蛋白质数据库后来成为PIR(Georgeetal.,1997)。基因组数据库的发展历史(续)DNA序列数据库最早于1
2、982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。基因组数据库的发展历史(续)1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。现在三个中心都收集直接提交的数据,并在三者之间发布。基因组数据库的发展历史(续)GenBank简
3、介GenBank数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。核苷酸序列数据库分为三个子数据库:EST:表达序列标记数据库GSS:基因组测序序列数据库CoreNucleotide:包含所有未被以上两个子数据库收录的核苷酸序列认识GenBank文件格式(特性表)FEATURESLocation/Qualifierssource1..53
4、9/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKT
5、LIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"来源(source)是唯一一个必须在所有GenBank记录中出现的特性包含属和种的科学名称存在的或者潜在的编码区编码序列的翻译产物编码序列的gi号认识GenBank文件格式(序列)BASECOUNT121a167c133g118t
6、ORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccat
7、tctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagc
8、aggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//结束符号碱基统计信息序列开始序列主体(1)mRNA记录(NM_):e.g.:NM_000492(2)基因组的DNA重叠群(NT_):e.g.:NT_000347(3)完整的基因组或染色体(NC_):e.g.:NC_000907(4)基因组的局部区域(NG_):e.g.:NG_000019(5)从人类基因组注释、加工得到的序列模型(XM,XP,orXR_):
此文档下载收益归作者所有