基于云平台的转录组数据Error correction算法的研究.pdf

基于云平台的转录组数据Error correction算法的研究.pdf

ID:50413576

大小:7.36 MB

页数:61页

时间:2020-03-05

基于云平台的转录组数据Error correction算法的研究.pdf_第1页
基于云平台的转录组数据Error correction算法的研究.pdf_第2页
基于云平台的转录组数据Error correction算法的研究.pdf_第3页
基于云平台的转录组数据Error correction算法的研究.pdf_第4页
基于云平台的转录组数据Error correction算法的研究.pdf_第5页
基于云平台的转录组数据Error correction算法的研究.pdf_第6页
基于云平台的转录组数据Error correction算法的研究.pdf_第7页
基于云平台的转录组数据Error correction算法的研究.pdf_第8页
基于云平台的转录组数据Error correction算法的研究.pdf_第9页
基于云平台的转录组数据Error correction算法的研究.pdf_第10页
资源描述:

《基于云平台的转录组数据Error correction算法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、专化学化巧古学化论文基于云平台的转录组数据Errorcorrection算法的研究庞慧哲廣、巧乂學'—一二〇四年十'月I.分类号了門g密级公fUDC則斗.牛I工程硕±学位论文基于云平台的转录组数据Errorcorrection算法的研究庞慧哲学科专业软件工程指导教师陈庆锋教授---20-论文答辩日期141121学位授予日期20141231答辩委员会主席陈友初教授级高级工程师广西大学学位论女原创性和使用授权声明本人声明所呈交的论文,是本人在导师的指导下独立进行研究所取得。的研巧成果除己特别加标

2、注和致谢的地方外,论文不包含任何其他个人或集体己经发表或撰写的研究成果,也不包含本人或他人为获得广西大一学或其它单位的学位而使用过的材料。与我同工作的同事对本论文的研究工作所做的贡献均已在论文中作了明确说明。本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归。:属广西大学本人授权广西大学拥有学位论文的部分使用权,目P学校有权保存并向国家有关部口或机构送交学位论文的复印件和电子版,允许论文彼査阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索和传播,可W采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文属于:□保密,在年解

3、密后适用授权。囚保密。""(请在W上相应方框内打V)论文作者签名日期:指导教师签名:日期父1巧4:女拿:作者联系电话:电子邮箱基于云平台的转录组数据Errorcorrection算法的研究摘要基因测序技术可yx帮助了解生物的遗传信息,从而识别生物体的致病基因和研究正确有效的治疗方法。由于现有技术的限制,DNA通常被打断。,成短片段,再用基因组装算法将其拼接然而短片段序列中存在碱基错误如何修正是组装算法的重要研究问题。一E一现有的串行rrorcorrection算法基于送样种思想:来自于同个基因一-mer-组位置的化口成共享某段长度

4、的子片段(K),通过估算Kmer,找出--最有可能出错的碱基并修改。比如Kmer清单算法,利用Kmer清单图来寻-。找错误碱基,虽然较为快速,但碱基纠错准确率不高而Kmer枚举比对算-mer找到具有相同特征的WG&法利用故举出的K,再由这些rea成找到错误碱基,虽然提高了准确率,但是计算复杂,内存消耗过大。因此两种算法无法胜任处理海量短片段序列的任务。本文提出并行Errorcorrection算法,利用Hadoop的分布式文件系统(HDFSHadooDistributedFilesstem)、Ma/Reduce(GooleMa/Reduce,py

5、pgpti的开源实现)并行编程模型和新的碱基修改规则,提高Errorcorrecon的速i。度和准确率,减少Errorcorrecton内存的占用本文主要工作包括;(1)针对Hadoop的Map/Reduce并行编程模型对原有算法的操作流程W及整体架构进行改进。设计适合用于并行Errorcorrection算法的链表,利用-该链表存储相关的Kmer信息和reads信息。利用Ma/Reduce并行编程模型进p:行数据预处理转变短片段序列的存储格式,过滤短片段序列中无用的信1K-mer,为后续的rea成比对做准备。息,并行枚举出所有的2Ma-()利用p/Re

6、duce并行编程模型完成Kmer与rea成的序列比化得-m3成序列到所有包含相同Kmer特征的,用设计好的链表分组存储所有比对一过后的序列,设计种较为完善的计算平均碱基质量。改进碱基修改规则分数的规则,并利用新规则修改错误碱基,提,将之应用到并行算法中高最终结果的准确率。(3)通过对并行算法和串行算法的运行时间、内存占用、W及纠错准确率的比较和分析correction算法是可行的,也,实验室结果表明并行Error是有效的。关键词:Errorcorrectionreads云升算基因组装并巧化打CLOUD-B乂SEDERRORCORRECTN

7、COMPUTATIONIOFORTRANSCRIPTOMEASSEMBLYABSTRACTGe打esequencin呂canhelpusunderstandgeneticinformationofbiology.Thisassistsusinidentifyindiseaseenesoforanismsandfindin化erihtgggggwa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。