ncbi高通量测序数据库sra介绍

ncbi高通量测序数据库sra介绍

ID:5996424

大小:256.49 KB

页数:5页

时间:2017-12-30

ncbi高通量测序数据库sra介绍_第1页
ncbi高通量测序数据库sra介绍_第2页
ncbi高通量测序数据库sra介绍_第3页
ncbi高通量测序数据库sra介绍_第4页
ncbi高通量测序数据库sra介绍_第5页
资源描述:

《ncbi高通量测序数据库sra介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《生命的化学2010年30卷6期●技术与方法CHEMISTRYOFLIFE2010,30(6)·959·文章编号:1000—1336(2010)06—0959—05NCBI高通量测序数据库SRA介绍熊筱晶上海工程技术大学化学化工学院,上海201620摘要:随着新一代测序技术的发展,高通量测序技术的应用越来越广泛,其产生的海量数据的存储、查询需要专门的数据库辅助,NCBI的SRA(SequenceReadArchive)数据库是高通量测序存储的代表,本文对SRA数据库的组织架构,数据形态作了综述分析,并对其存贮的数据进行了总结。关

2、键词:高通量测序;SRA数据库中图分类号:Q8l9以Illumina/Solexa技术、Roche/LS454技术、ABI/1.SRA数据库的组织架构SOLID技术及HELICOS单分子测序技术为代表的新1.1meta数据一代测序技术(next-generationsequencingtechnology)meta数据是指与测序实验及其实验样品相关的真正实现了高通量测序(massivelyparallelsequencing/数据,如实验目的、实验设计、测序平台、样本数highthrough—putsequencing)⋯。随之

3、产生了海量的实据(物种,菌株,个体表型等),在SRA数据库中,meta验数据,单个run产生的数据以GB乃至数十GB计,数据分如下层次来存储:除此之外,实验样本等meta信息也需要与序列数据(1)研究课题(study)。在SRA数据库中,研究课整合。高效率的数据存储、提取乃至共享成为高通题的检索号(accessionnumber)以前缀DRP,ERP或量测序数据分析必不可少的环节。SRP开头。一个研究课题致力于一个特定的研究目在美国国立生物技术信息中,I~(NCBI)的诸多数的,由一个或多个测序中心来完成,往往是某个基据库中,传

4、统测序数据(如毛细管电泳产生的测序数因组计划(genomeproject)的项目,有特定的研究类型据)的存储有TraceArchives数据库,但不适合存储(如全基因组测序,转录组分析,宏基因组学分析高通量测序数据;GEO数据库用于存储高通量的芯等)。包含一个或多个实验。研究课题的详细信息可片实验数据,在SRA未建立之前,GEO数据库也用以通过http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?于存储高通量测序数据,但随着高通量测序数据的study=xxx(xxx为研究课题的检索号)来查

5、询。(2)样本信累积,专门用于存储此类数据的需求越来越迫切,息(sample)。样本的检索号以前缀DRS,ERS或SRSNCBI在2007年底推出了SRA数据库,用于存储、显开头。样本信息可以包括物种信息、菌株(品系)信示、提取和分析高通量测序数据。SRA数据库,最息、家系信息、表型数据、临床数据,组织类型等。初的命名为ShortReadArchive,现已改为Sequence样本信息可以通过http://www.ncbi.nlm.nih.gov/ReadArchive,自建立之初,序列数据迅速累积,涉Traces/sra/sr

6、a.cgi?sample=xxx(xxx为样本的检索号)来及多平台,多物种,多种应用的,分层次的SRA数查询。(3)实验信息(experiment)。实验的检索号以前缀据库已初具规模。DRX,ERX或SRX开头。实验是SRA数据库的最基本收稿日期:20l0—06—20单元,就像PubMed数据库的每一篇文献是PubMed上海工程技术大学科技发展基金项目(A一2500—10—01005)数据库的基本单元一样。一个实验隶属于某个研究资助课题,对一个或多个样本进行测序,产生的测序数作者简介:熊筱晶(1979一),女,硕士,讲师,通讯作

7、者,E—mail:luzifer.1imm@gmail.com据以runs的形式存储于SRA。实验信息可以通过960·《生命的化学》2010年3O卷6期·●TechniqueandMethodCHEMISTRYOFLIFE2010,30(6)http://www.ncbi.nlm.nih.gov/sites/entrez?db=sra&实现人类个体的全基因组测序。report=full&term=xxx(xxx为样本的检索号)来查询。目前SRA数据库已涵盖了超过1500种物种的测1.2序列数据序数据,表1列举l『排名前15位的物

8、种。人、果蝇、包括序列及其质量信息等,在SRA数据库中以小鼠、线虫、酵母、拟南芥和水稻等传统模式生物run为单元存储。run的检索号以前缀DRR,ERR或仍然是研究的热点,此外,宏基因组学研究也占了SRR开头。一个实验可以包含一个或多个rtlns。run测序研究

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。