欢迎来到天天文库
浏览记录
ID:57924499
大小:504.20 KB
页数:7页
时间:2020-04-14
《基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第5期电子学报Vo1.43No.52015年5月ACrAEIECn)NICAs1NICAMav2015基于码书索引变换的高通量DNA序列数据压缩算法谭丽,孙季丰(华南理工大学电子与信息学院,广东广州510641)摘要:提出一种高通量DNA序列数据的压缩算法.该算法先采用码书索引变换模型,将传统码书索引值的表示方法变换成由四个标准碱基字符替代的四进制数值方式,并采用一种界定替换串与非替换串的简明编码方法,接着通过信息熵的大小来决定是否进行块排序压缩变换(Bwr),最后进行前移编码变换和Hufman熵编码.在多种测序数据集上的实验结果表明,C1TD在大多数情况下可以获得比本文所对比的高通量DN
2、A专用压缩方法更优的压缩性能.关键词:高通量DNA序列;码书索引变换模型;块排序压缩变换;前移编码;信息熵;数据压缩算法中图分类号:TP391文献标识码:A文章编号:0372—2112(2015)05—1007.07电子学报URL:http://www.~jouma1.org.caDOI:10.3969/j.issn.0372-2112.2015.05.026High—ThroughputDNASequenceDataCompressionMethodBasedonCodebooklndexTransformationTANⅡ.SUNJi—feng(SchoolofElectronican
3、dInformationEngin~ring,SouthChinaUniversityofTechno/ogy,∞,Guangdong510641,Ch/na)Abst隐c【:Anovelhigh-throughputDNAsequencecompresfionmethodbasedoncodebookindextransformation(CITD)isproposa1.InCITD,weusedthecodebookindextransformation(crr)model,tosubstitutethetraditionalrepresatafionofcodebookindexes
4、bythequaternaryvalueswhichaleexpressedbythefourstandardbasecharacters,andadoptedasimpleencodingmethodtodistinguishthereplacedandnon-replacedsubstring,andsubsequentlydeterminedwhetherneedtousetheBurrowWheelerTransfor-ma~on(BWT)acc0蛐tothevalueofinformationentropy,finalyusedmovetofront(MTF)transforma
5、tionandHuffmanen—tropycodingtocompressthedata.ExperimentalresultsonseveralsequencingdatasetsdemonstratebetterperformanceofC1TDthanthehigh-throughputDNAsequencecompressionalgorithmscitedinthispaper,inmostcases.Keywords:high-throughputDNAsequence;codebookindextransformation(CIT)model;burrowwheelertr
6、ansfannation(BWT);movetofront(MTF);informationentropy;datacompressionalgorithm往是对全基因组的大规模测序,使用上述方法后的压缩1引言效率有限,需要有专门针对高通量DNA序列数据的压目前实施的千人基因组计划、国际单体型图计划、缩方法.Kumppu[6]等人提出基于优化的Lempe1.Ziv算法孟德尔遗传疾病等项目,利用“下一代测序”技术产生了的大数据DNA压缩方法(OptimizedRelativeLempe1.Ziv,海量DNA测序数据.如何存储和传输高通量DNA测序RLZ-opt),该算法在基因组序列中利用扩展
7、的自索引去产生的数据,成为决定DNA研究发展的重要因素之一.控制搜索的子串,从而达到较好的压缩效果.2011年,数据压缩是有效解决DNA序列存储和传输的一种重要文献[7]提出基于参考基因组序列的高通量DNA序列方法[,.数据压缩的思想,利用提取参考基因组序列和重测序序由于DNA序列数据的特殊性,使用传统的压缩算列间的差异进行压缩,同时设计了相应的算法并开发了法并不是很理想.因此从1993年起出现了专门针对压缩工具GRSG
此文档下载收益归作者所有