欢迎来到天天文库
浏览记录
ID:35085899
大小:4.12 MB
页数:69页
时间:2019-03-17
《桉树基因测序数据snp的模式识别方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10564学号:2013204204分类号:TP391密级:硕士学位论文桉树基因测序数据SNP的模式识别方法的研究林伟森指导教师:邓继忠副教授学院名称:工程学院专业名称:计算机应用技术答辩委员会主席:邹恩教授中国·广州2016年6月华南农业大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式
2、标明。本人完全意识到本声明的法律结果由本人承担。作者签名:日期:学位论文提交同意书本学位论文符合国家和华南农业大学关于研究生学位论文的相关规定,达到学位授予要求,同意提交。导师签名:日期:学科带头人签名:日期:摘要随着技术的发展,新一代测序技术已经兴起并广泛应用,但传统的PCR片段测序仍非常重要。单核苷酸多态性(singlenucleotidespolymorphism,SNP)和插入/缺失(insert/deletion,InDel)是新一代DNA分子标记技术,需要一种高效的算法进行验证分析。
3、由于测序厂家提供的软件只能识别各序列位置的最高峰所对应的碱基,对于双峰位置的识别需要第三方软件。而第三方软件均需参考序列,具有局限性,不能有效用于一些序列的分析,并且操作上较为繁琐。因此,本研究运用模式识别方法构建了SNP和InDel自动检测系统,主要内容如下:1.通过传统测序文件格式提取出序列信号,分别运用Haar小波,Symlets小波,Coiflets小波以及ReverseBoir小波滤除杂峰信号,并对比了4种小波函数的滤波结果,为双峰碱基的可靠判读提供了高质量的序列。将去噪后的4种碱基数
4、据融合成完整的桉树基因数据,并提取出波峰距离、高度比值以及起伏度比值作为SNP位点检测的特征参数。之后运用模糊推理器生成可供SNP位点分类器训练的测试数据。2.研究了SNP及InDel的检测算法。根据获取的训练数据,分别应用基于LM算法的BP神经网络、支持向量机以及稀疏识别分类器进行SNP位点检测,并对三种模式识别算法进行对比分析。运用了PrimeIndel算法及错位对应的数学算法进行InDel检测分析。3.采用LabWindows/CVI9.0以及MATLAB2012作为的桉树测序数据系统开发
5、平台,并根据LabWindows/CVI以及MATLAB的混合编程原理,搭建了基于模式识别的二倍体个体内SNP及InDel多态性检测系统。系统集成了数据显示、人工调整以及数据存储等模块。4.本文采用桉树基因识别系统DiSNPIndel分别进行了SNP位点与InDel片段检测的准确性验证,并与现存常用软件进行了对比分析。实验证明,DiSNPIndel的SNP识别率为88.5%,高于novoSNP的1.5%及MutationSruveyor的17%。并且,DiSNPIndel检测InDel片段的识别
6、率为53.1%,高于PrimeIndel(6.1%)、novoSNP(7.4%)以及MutationSruveyor(6.8%)。证实DiSNPIndel在检测无参考序列二倍体个体内SNP位点及InDel片段时,准确率优于其他软件。关键词:单核苷酸多态性(SNP);InDel;数据处理;模式识别;系统构建IStudyonPatternRecognitionofEucalyptusGeneSequencingDatainSingleNucleotidePolymorphismsLinWeisen(
7、CollegeofEngineering,SouthChinaAgriculturalUniversity,Guangzhou510642,China)Abstract:Withthedevelopmentoftechnology,thenewsequencingtechnologyhasbeendevelopedandwidelyused,butthetraditionalPCRsequencingisstillveryimportant.Singlenucleotidespolymorphi
8、smandinsertion/deletionrepresentthenewgenerationofDNAmolecularmarkertechnology,thusanefficientalgorithmisrequiredtoverifytheanalysis.Sincethesequencingofthesoftwareprovidedbythemanufacturercanonlyidentifythehighestpeakofeachsequencepositioncorrespond
此文档下载收益归作者所有