基于gwqpso和bwt的dna序列压缩算法研究

基于gwqpso和bwt的dna序列压缩算法研究

ID:35176636

大小:3.69 MB

页数:72页

时间:2019-03-20

基于gwqpso和bwt的dna序列压缩算法研究_第1页
基于gwqpso和bwt的dna序列压缩算法研究_第2页
基于gwqpso和bwt的dna序列压缩算法研究_第3页
基于gwqpso和bwt的dna序列压缩算法研究_第4页
基于gwqpso和bwt的dna序列压缩算法研究_第5页
资源描述:

《基于gwqpso和bwt的dna序列压缩算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于GWQPSO和BWT的DNA序列压缩算法研究作者姓名谭红艳学科专业信号与信息处理指导教师孙季丰所在学院电子与信息学院论文提交日期2016年4月ResearchonDNAsequencecompressionalgorithmbasedonGWQPSOandBWTADissertationSubmittedfortheDegreeofMasterCandidate:TanHongyanSupervisor:Prof.SunJifengSouthChinaUniversityofTechnologyGuangzhou,China分类号:

2、TP391.41学校代号:10561学号:201320109262华南理工大学硕士学位论文基于GWQPSO和BWT的DNA序列压缩算法研究作者姓名:谭红艳指导教师姓名、职称:孙季丰教授申请学位级别:工学硕士学科专业名称:信号与信息处理研究方向:生物信息学数据处理论文提交日期:2016年4月21日论文答辩日期:2016年6月7日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:柯峰副教授委员:冯穗力教授、张永忠教授级高工、薛锋章研究员、孙季丰教授华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立

3、进行研究所取得的研巧成果。除了文中特别加标注引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体。,均己在文中明确方式标明本人完全意识到本声明的法律后果由本人承担。:列年6作者签名軒扳日期;月8日/学位论文版权使用授权书,本学位论文作者完全了解学校有关保留、巧学位论文的规定,目P:.巧研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部口或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学

4、校可^i■公布学位论文的全[部或部分内容,可1^^允许采用影印、缩印或其它复制手段保存、汇编学位一论文。本人电子文档的内容和纸质论文的内容相致。本学位论文属于:□保密,在年解密后适用本授权书。时不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志杜全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。""V(请在W上相应方框内打)的托兴曰作者签名:渾,^日期;崎八:牙指导教师签名日期:作系箱:者联电话电

5、子邮:联系地址(含邮)编摘要DNA数据作为生物信息的遗传指令码本,控制着生物体的信息表达与机能运作,已成为当下的研究热点。随着基因测序工程的火热开展,大量DNA数据应运而生,储存、处理、解析这些海量数据将带来的巨大的存储及传输压力。不同于常规文本数据,DNA序列数据具有特殊的生物信息特点,若直接采取普适性的压缩算法并不能取得良好的压缩效果,需要研究专门针对DNA数据的压缩算法。现有的算法在搜索DNA序列中存在的近似匹配信息时花费了较多的时间和空间但提升效果并不显著。基于此,本文对DNA序列进行研究分析,针对DNA序列中的精确重复片段信息,一采取

6、优化算法对DNA序列进行重复片段搜索匹配,二利用BWT聚集DNA序列中的碱基字符以获取更多的重复片段信息,具体工作如下:(1)本文对DNA序列数据的特点、普适性压缩算法的原理、DNA数据压缩算法及DNA数据压缩算法的性能评价指标进行细致分析,为后续的研究做好铺垫。(2)针对构建字典的重复信息片段的选取,本文提出基于GWQPSO的DNA序列压缩算法:先将DNA数据的重复片段模式与粒子的维度信息之间建立映射关系,对输入序列进行连续编码,使用改进的GWQPSO算法(加入高斯变异因子和改变权重系数,具有更好收敛特性)来寻优DNA重复信息码本映射的粒子,种群

7、进化的同时获取到更优匹配重复片段信息,达到优化压缩字典,提高压缩性能的目的。(3)本文利用BWT具有聚集相同字符的特点,对DNA序列变换以获取更多的重复片段信息,并针对DNA序列数据的重复片段信息的利用,本文提出改进多重字典进行迭代,对得到的迭代字典结果采用基于改进PPM的二阶算术编码模型编码输出。实验表明加入BWT后可以使DNA序列的重复信息得到更好利用,压缩效果更优。本文提出的两个DNA序列压缩算法分别在DNA基准测序数据及大序列数据测试集上进行仿真实验,结果表明,算法对DNA序列数据重复信息的提取及利用均可获得较好收益,与现有的DNA数据压缩

8、算法相比具有不错的压缩性能及良好的鲁棒性。关键词:生物信息;DNA序列;GWQPSO;BWT;字典迭代IAbstractA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。