欢迎来到天天文库
浏览记录
ID:53028684
大小:234.15 KB
页数:3页
时间:2020-04-14
《基于Pthreads的并行DSRC压缩算法设计与实现-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第42卷第1期计算机科学Vo1.42No.12015年1月ComputerScienceJan2015基于Pthreads的并行DSRC压缩算法设计与实现詹科张云泉王婷。郑晶晶张鹏(中国科学院软件研究所并行软件与计算科学实验室北京100190)(中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190)。(广州中国科学院软件应用技术研究所广州511458)。摘要高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因
2、此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthreads,实现了并行DSRC算法。测试结果表明,当使用4线程时加速比达到3.5。关键词FASTQ,数据压缩,DSRC,Pthreads中图法分类号TP317文献标识码ADOI10.11896/j.issn.1002—1372015.1.021DesignandImplementationofParallelDSRCCompressionAlgorithmBasedonPthreadsZHANKeZHANGYun-quan2WANGTing,。ZHENGJing-jin
3、gZHANGPeng(LaboratoryofParallelSoftwareandComputationalScience,ISCAS,Beijing100190,China)(StateKeyLaboratoryofComputerArchitecture,ICT,CAS,Beijing100190,China)(GuangzhouISCAS,Guangzhou511458,China)。AbstractWiththedevelopmentofhighthroughputsequencingtechnology,largevolumesofD
4、NAdataarebeinggenera-ted.TheFASTQformatiswidelyusedtostoreDNAsequence.IftheDNAsequencereadsinFASTQformatcanbecompressed,thestoragespacewillbesavedefficiently.OneoftheDSRCadvantagesisthehighcompressionratio,thereforeparallelDSRCalgorithmwillincreasetheefficiencyofcompressingth
5、eDNAsequencereadsinFASTQfor—mat.WeimplementedtheparallelDSRCalgorithmbasedonPthreads,andtheexperimentalresultsindi~tethatthepara-llelDSRCalgorithmgets3.5speedupwhenfourthreadsareused.KeywordsFASTQ,Datacompression,DSRC,Pthreads十1前言)>)))>))>)>)>))))>)))))>))))))>)>)>)))基于下一代测序技
6、术,高通量测序仪产生大量的DNA每条记录大多数情况下由4行数据组成,第1行以@起序列数据。存储器的成本虽然不断降低,但是还是不能与序始,是记录的标识符。第2行是碱基序,一般是ATCG这4列增长带来的存储开销相匹配。数据压缩可以有效地减少数个碱基重复排列,碱基之间不能有空格。第3行一般是单个据冗余,从而节省存储空间。字符“+”,也可以在“+”之后重复第1行数据,如SangerFASTQ格式是一种DNA序列的常用存储格式。主流FASTQ。第4行是质量值,与第2行的每个碱基字符对应。的高通量测序平台包括IlluminaGA和ABI公司自主研发的存储FA
7、STQ格式数据,通常需要占用大量的空问。对SOIiD测序仪。其产生的数据都是以FASTQ格式存储的,于测序深度为3O层的人基因组原始数据,FASTQ文件的大FASTQ格式也因此成了高通量测序数据存储事实上的标准小就要230G左右。按此推算,5000个测序样品就会带来PB格式。并且,FASTQ格式对FASTA格式作如下扩展:添加数量级的存储需求因此,对FASTQ格式的数据进行压缩了与序列中的每个核酸相对应的质量值。以下是FASTQ数存储,可以有效地节省存储空间。据的一条记录:对于DNA序列的FASTQ格式,G-SQZ(Genomic@ERR0006
8、25.1ILl6—1138:1:1:1786:371/2SQueeZe)算法_1]由TembeW等实现,是基于HUFFMAN算IvrCC
此文档下载收益归作者所有