欢迎来到天天文库
浏览记录
ID:33325305
大小:1.71 MB
页数:73页
时间:2019-02-24
《基于sectorsphere云计算平台的海量gc-ms数据并行处理算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘要摘要气相色谱质谱联用技术(GasChromatography-MassSpectrometry,简称GC-MS)因具有分辨率高、灵敏度高、重现性好,价格相对较低等优点,被广泛的应用于生物代谢研究、生物标志物的发现、毒理学、营养学、农业病理学等领域。气相色谱质谱联用所获得的色谱图可包含几万张质谱图,其数据量大且格式复杂,数据处理涉及去噪平滑、基线校正、峰提取、重叠峰解析、保留时间对齐、化合物定量分析等,整个计算过程极其耗时。目前国内GC-MS数据处理算法及软件的研究处于刚刚起步阶段,国外GC-MS数据处理软件主要针对少量样本的处理,而对于大批量样本的处理算法及软件仍
2、是空白。当处理大量数据时过长的处理时间会严重拖延整个实验进度,计算机内存不足也成为处理大批量样本的瓶颈,针对这个问题,提出了基于云计算平台Sector/Sphere的GC-MS数据并行处理方案,主要工作如下:(1)针对GC-MS大批量样本处理的速度慢,单机内存不足的问题,结合云计算平台Sector/Sphere的高速性、灵活性等优势,设计了基于Sector/Sphere平台的GC-MS数据并行处理框架,为GC-MS数据处理并行算法的研究与实现提供依据。(2)提出了依据层次聚类的样本集自动分组原理,提出以各样本簇的平均样本作为对齐依据的簇结果合并算法,设计并实现了多样本
3、对齐并行处理流程,实验验证了多样本并行对齐算法的准确性和有效性,能够在保证较高正确率的前提下加快数据处理速度,同时解决单机内存不足的问题。(3)提出了两种多样本联合定量思路,提出了多样本定量离子选择算法,设计并实现了多样本联合定量并行处理流程,实验验证了多样本联合定量并行算法的有效性以及准确性,并行算法具有较高的加速比。(4)针对现有GC-MS数据处理软件处理大批量样本的能力不足问题,设计并实现了基于Sector/Sphere平台的GC-MS数据并行处理软件,为其它质谱数据处理流程的并行化提供了科学依据。关键词:GC-MS并行处理框架;多样本对齐;多样本联合定量;Se
4、ctor/Sphere;云计算-I-AbstractAbstractGaschromatography-Massspectrometry(GC-MS)isoneofthemostextensiveappliedtechnologyinthefieldofmetabolomics,biomarkerdiscovery,toxicology,nutriologyandagriculturehistopathology,duetoitsadvantages,whichincludinghighresolution,highsensitivity,goodreproducib
5、ilityandrelativelylowprice.ThechromatographyderivedbyGC-MScaninvolvethousandsofmassspectrumswhichleadstomassofdatawithcomplicatedformat.ThedataanalysisofGC-MStouchesondenoisingsmooth,baselinecorrection,peakextraction,resolutionofoverlappingpeaks,retentiontimealignmentandchemicalquantita
6、tiveanalysis,theprocessisexcessivelytimeconsuming.Atpresent,thedomesticresearchofdataprocessingalgorithmandrelatedsoftwareofGC-MSareinpreliminarystage,whiletheresearchinforeignmainlyaimstosmallqualityofsampletreatmentandtheprocessingalgorithmandsoftwareforlargequalityofsampletreatmentar
7、einblank.Whenitcomestolargeamountsofdata,theredundantprocessingtimecoulddelaythewholeexperimentprogress,andthememoryofthecomputercouldbeanotherbottleneck.Tosolvetheseproblems,theparallelprocessingpipelineofGC-MSdatabasedonSector/Sphereisproposed.Herearethemainworks:(1)Inorderto
此文档下载收益归作者所有