生物信息学ppt-.ppt

生物信息学ppt-.ppt

ID:48089723

大小:1.38 MB

页数:30页

时间:2020-01-14

生物信息学ppt-.ppt_第1页
生物信息学ppt-.ppt_第2页
生物信息学ppt-.ppt_第3页
生物信息学ppt-.ppt_第4页
生物信息学ppt-.ppt_第5页
资源描述:

《生物信息学ppt-.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、GenBank数据库介绍主要内容:基因组数据库的相关背景。主要的基因组数据库资源。GenBank序列数据库。--GenBank序列格式。举例介绍基因数据库的使用。基因组数据库的发展历史从历史上来看,蛋白质数据库是先于核苷酸数据库出现的。早在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoffetal.,1965)。这一蛋白质数据库后来成为PIR(Georgeetal.,1997)。基因组数据库的发展历史(续)DNA序列数据库最早于1

2、982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。基因组数据库的发展历史(续)1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。现在三个中心都收集直接提交的数据,并在三者之间发布。基因组数据库的发展历史(续)GenBank简

3、介GenBank数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。核苷酸序列数据库分为三个子数据库:EST:表达序列标记数据库GSS:基因组测序序列数据库CoreNucleotide:包含所有未被以上两个子数据库收录的核苷酸序列认识GenBank文件格式(特性表)FEATURESLocation/Qualifierssource1..53

4、9/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKT

5、LIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"来源(source)是唯一一个必须在所有GenBank记录中出现的特性包含属和种的科学名称存在的或者潜在的编码区编码序列的翻译产物编码序列的gi号认识GenBank文件格式(序列)BASECOUNT121a167c133g118t

6、ORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccat

7、tctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagc

8、aggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//结束符号碱基统计信息序列开始序列主体(1)mRNA记录(NM_):e.g.:NM_000492(2)基因组的DNA重叠群(NT_):e.g.:NT_000347(3)完整的基因组或染色体(NC_):e.g.:NC_000907(4)基因组的局部区域(NG_):e.g.:NG_000019(5)从人类基因组注释、加工得到的序列模型(XM,XP,orXR_):

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。