基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf

基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf

ID:57924499

大小:504.20 KB

页数:7页

时间:2020-04-14

基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf_第1页
基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf_第2页
基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf_第3页
基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf_第4页
基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf_第5页
资源描述:

《基于码书索引变换的高通量DNA序列数据压缩算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第5期电子学报Vo1.43No.52015年5月ACrAEIECn)NICAs1NICAMav2015基于码书索引变换的高通量DNA序列数据压缩算法谭丽,孙季丰(华南理工大学电子与信息学院,广东广州510641)摘要:提出一种高通量DNA序列数据的压缩算法.该算法先采用码书索引变换模型,将传统码书索引值的表示方法变换成由四个标准碱基字符替代的四进制数值方式,并采用一种界定替换串与非替换串的简明编码方法,接着通过信息熵的大小来决定是否进行块排序压缩变换(Bwr),最后进行前移编码变换和Hufman熵编码.在多种测序数据集上的实验结果表明,C1TD在大多数情况下可以获得比本文所对比的高通量DN

2、A专用压缩方法更优的压缩性能.关键词:高通量DNA序列;码书索引变换模型;块排序压缩变换;前移编码;信息熵;数据压缩算法中图分类号:TP391文献标识码:A文章编号:0372—2112(2015)05—1007.07电子学报URL:http://www.~jouma1.org.caDOI:10.3969/j.issn.0372-2112.2015.05.026High—ThroughputDNASequenceDataCompressionMethodBasedonCodebooklndexTransformationTANⅡ.SUNJi—feng(SchoolofElectronican

3、dInformationEngin~ring,SouthChinaUniversityofTechno/ogy,∞,Guangdong510641,Ch/na)Abst隐c【:Anovelhigh-throughputDNAsequencecompresfionmethodbasedoncodebookindextransformation(CITD)isproposa1.InCITD,weusedthecodebookindextransformation(crr)model,tosubstitutethetraditionalrepresatafionofcodebookindexes

4、bythequaternaryvalueswhichaleexpressedbythefourstandardbasecharacters,andadoptedasimpleencodingmethodtodistinguishthereplacedandnon-replacedsubstring,andsubsequentlydeterminedwhetherneedtousetheBurrowWheelerTransfor-ma~on(BWT)acc0蛐tothevalueofinformationentropy,finalyusedmovetofront(MTF)transforma

5、tionandHuffmanen—tropycodingtocompressthedata.ExperimentalresultsonseveralsequencingdatasetsdemonstratebetterperformanceofC1TDthanthehigh-throughputDNAsequencecompressionalgorithmscitedinthispaper,inmostcases.Keywords:high-throughputDNAsequence;codebookindextransformation(CIT)model;burrowwheelertr

6、ansfannation(BWT);movetofront(MTF);informationentropy;datacompressionalgorithm往是对全基因组的大规模测序,使用上述方法后的压缩1引言效率有限,需要有专门针对高通量DNA序列数据的压目前实施的千人基因组计划、国际单体型图计划、缩方法.Kumppu[6]等人提出基于优化的Lempe1.Ziv算法孟德尔遗传疾病等项目,利用“下一代测序”技术产生了的大数据DNA压缩方法(OptimizedRelativeLempe1.Ziv,海量DNA测序数据.如何存储和传输高通量DNA测序RLZ-opt),该算法在基因组序列中利用扩展

7、的自索引去产生的数据,成为决定DNA研究发展的重要因素之一.控制搜索的子串,从而达到较好的压缩效果.2011年,数据压缩是有效解决DNA序列存储和传输的一种重要文献[7]提出基于参考基因组序列的高通量DNA序列方法[,.数据压缩的思想,利用提取参考基因组序列和重测序序由于DNA序列数据的特殊性,使用传统的压缩算列间的差异进行压缩,同时设计了相应的算法并开发了法并不是很理想.因此从1993年起出现了专门针对压缩工具GRSG

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。