基于hadoop基因序列比对bwt索引的建立方法研究

基于hadoop基因序列比对bwt索引的建立方法研究

ID:35173821

大小:7.21 MB

页数:57页

时间:2019-03-20

基于hadoop基因序列比对bwt索引的建立方法研究_第1页
基于hadoop基因序列比对bwt索引的建立方法研究_第2页
基于hadoop基因序列比对bwt索引的建立方法研究_第3页
基于hadoop基因序列比对bwt索引的建立方法研究_第4页
基于hadoop基因序列比对bwt索引的建立方法研究_第5页
资源描述:

《基于hadoop基因序列比对bwt索引的建立方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、?—'f严一:.供-'1k.--.-.,一.'兴'‘,苗-LV-'一■.:’^"-'4:;.V;.、//r'■-■"?-?:?分类号Tf399学校代码10129I)口C004学号2012210008'乂.又A秦走蔡嗦攀:文,;.硕±学位论文淵f'.号./语一;‘---'.,产:.?、,/三V.基于Hadoop基因序列比对BWT索引的建立巧法硏究。一一TheBWTIndexBuildingMethodforaGene

2、Sequence,…一um.enon贷adoo,Aii臣tresearch.p??VV‘'.i.i非.户.车'‘皆-"?’-.接.\屯,-‘与V、,k号.‘-:,旬请人李搞1、_,—?’:苗:^直学生类則;学术型硕丈赛爭户一"'*.'>.—一:?,气?;、、:、,‘学科n类:工学'古\.;叫庐--学科专业-A:软件工程';.、,八:、硏究方向r、请:大数据与生物信息计算::X>'-^指导教师':高静教授V'、'、

3、-.:,.:,.'一-.'乃.V!,乂、,’…?-V论文提交曰期:二〇六年六月r.-‘乂--/'-一'、-?二’‘,,户'-'.一-:苗'起‘v:'Wn-棘"'-'一一-’-山?\?.一V;,:片.-棘.;.V内蒙古农业大学研究生学位论文独创声明本人申明所呈交的学位论文是我本人在哥师指巧F进行的研究工作义取得的研究成果。据我所知,除了文中特别加化标注和致谢的地方外,论文中不包括其他人邑经发表或撰写注的硏究成果,也不包一括为获得我校或其他教育机构的学位或证书而

4、使用过的材料,与我同了作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。…申请学位论文与资料若有不实么处,本人承捏切相关责任。'、论文作者签名;屋啤日期:狐()束内蒙古农业大学研究生学位论文版权使用摄权书本人完全了解内藻古农化人学軒义保护知巧产权的规定,目y:硏究生巧攻—读巧位卿闽论义[作的知识产化单位陆内讓山农化人学。本-人保化巧化离校V;,发灰论文典佔;)U论义I作成料H紫中化为内裘-..占农业人学11.甘邮为遁!斗化1^,迪1|1作托单位亦紫^^为内絮山化化乂学。学校材权保簡并向W滚徊

5、义部n或机构送义论义的复印件和化子文档,允许论文被沒阅和偕阅。学校可公布学位论文的全就或部()、分内容保密内容除外,采用炭印缩印或其他手段保巧论文。论文作者签名>;^啤指导教师签名:日期:兴摘要由于基因数据的增长速度飞快,人工进行序列比对己经无法满足科研,比对是基因数据分人员的需求那么机器比对己经走上了舞台,基因序列一析和处理的基础。而现在的序列比对算法大致分为两类,类是精确比对一算法,另类是模糊比对算法。目前,大部分的基因序列比对方法都是启:建立索引和序列比对发式算法,该类算法大致分为两步,所W无论

6、是精确比对算法和非精确比对算法都离不开索引结构。由此可见,建立索引是基因序列比对算法的重要步骤一,常见的索引构建算法大致分为两类,类一是基于哈希表的算法,另类是基于后缀树或后缀数组的算法。而BWTBurrows-Whee(lerTransform)索引是基于后缀数组中比较重要的索引结构。目前,构建较大基因组序列(例如,人类基因组序列)的BWT索引需一种基于化要几个小时的串行计算。本文提出doop的并行计算方法构違后缀数组和BWT索引。算法使用MapReduce的数据处理功能,并且更改了原有的使用哈希方式的Par

7、titioner,本文使用直接分配任务来建立索引。一本文依次将基因链首的个碱基轮转到基因链尾并与链尾的17个字符形一成个Key{^及相应的Map任务,将这些Map任务根据新改写Pa^itioner分配给Reduce。最终得到全序的后缀数组和BWT索引,减少建立索引的时间。通过实验数据表明,本文提出的方法可W节省索引构建的时间,达到了预期目的,并验证了算法的有效性。Tadoo关链词:基因序列duce;BW索引;后缀数组;Hp;MapReTheBWTinMetrIndexBuildghodfoaGene

8、SequenceAimentresearchonHadoolgnpAb'stiactWiththe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。