用于预测剪切位点的一种改进字符串核函数研究

用于预测剪切位点的一种改进字符串核函数研究

ID:34711815

大小:3.84 MB

页数:63页

时间:2019-03-09

用于预测剪切位点的一种改进字符串核函数研究_第1页
用于预测剪切位点的一种改进字符串核函数研究_第2页
用于预测剪切位点的一种改进字符串核函数研究_第3页
用于预测剪切位点的一种改进字符串核函数研究_第4页
用于预测剪切位点的一种改进字符串核函数研究_第5页
资源描述:

《用于预测剪切位点的一种改进字符串核函数研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文用于预测剪切位点的一种改进字符串核函数研究RESEARCHONADAPTIVESTRINGKERNELFUNCTIONUSEDFORSPLICESITEPREDICTION王天祺哈尔滨工业大学2016年12月万方数据国内图书分类号:TP391学校代码:10213国际图书分类号:681密级:公开工程硕士学位论文用于预测剪切位点的一种改进字符串核函数研究硕士研究生::王天祺导师::徐勇教授申请学位::工程硕士学科::计算机技术所在单位::深圳研究生院答辩日期::2016年12月:授予学位单位:哈尔滨工业大学万

2、方数据ClassifiedIndex:TP391U.D.C:681DissertationfortheMasterDegreeofEngineeringRESEARCHONADAPTIVESTRINGKERNELFUNCTIONUSEDFORSPLICESITEPREDICTIONCandidate:TianqiWangSupervisor:Prof.YongXuAcademicDegreeAppliedfor:MasterDegreeofEngineeringSpeciality:ComputerTechnolog

3、yAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2016Degree-Conferring-Institution:HarbinInstituteofTechnology万方数据哈尔滨工业大学工程硕士学位论文摘要随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表达为蛋白质的DNA片段,这一步骤称为基因识别或基因预测。基因预测的难点是真核生

4、物的基因识别算法,与原核生物相比,真核生物的一个主要不同是只有外显子部分才会最终编码成蛋白质。外显子与内含子的边界称为剪切位点,因此剪切位点的预测成为了基因识别的一个关键问题。这一问题可以转换成碱基序列文本的二分类问题。目前,支持向量机模型以及核函数方法在剪切位点识别算法的研究中受到了广泛的关注。在生物信息学问题中常用的核函数有两种,一种方法是基于特征空间的核函数,另一种是直接根据序列信息计算序列的相似性,也就是字符串核函数。目前字符串核函数在识别剪切位点问题上的性能已经达到了研究的前沿水平。在已经提出的用于剪切位点

5、预测的字符串核函数中,WeightedDegree(WD)核是其中性能最好的一种。本文在分析WD核函数有效性的基础上,提出了WD核函数的准确率与碱基保守性的分布位置有关的假设以及验证该假设的实验方案。本文定义三个变量描述在某一位置上组成DNA的四种核苷酸碱基A、G、C和T分别在正例数据和反例数据上的分布以及其分布的差异,使用这三个变量定义关键因子的概念,用于表示该位置上的碱基对于区分正例和反例的重要程度。并使用这个概念在公共数据集上进行实验从而选出了可能会在分类时有重要作用的“关键位置”。通过在计算核函数时分别去除或

6、保留这些位置上的碱基信息,证明了碱基所在位置这一信息对WD核函数预测剪切位点性能有着重要影响并且某一位置对应的关键因子可以用于描述该位置上的碱基在分类时的重要程度。在证明了WD核函数的性能与碱基所在位置有关后,本文对碱基位置的重要性进行扩展,即可能存在会对WD核函数性能造成不良影响的“迷惑位置”,并提出了迷惑因子的概念用于找出这种位置。基于找到的关键位置和迷惑位置,对每个位置分别按其对WD核函数的影响程度的不同赋予相应权值,并在计算核函数时使用。本文将这种基于位置重要性赋予权值的改进WD核函数方法称为Adaptive

7、WD核函数,实验证明,在两个剪切位点公共数据集上,AdaptiveWD核函数均能取得优于WD核函数的性能。随后为得到更好的分类效果,本文提出使用以AdaptiveWD核为核函数的支持向量机分类器作为基分类器,分别应用Bagging和Adaboost两种集成学习方法提升预测效果。实验结果表明使用两种集成学习方法I万方数据哈尔滨工业大学工程硕士学位论文后,分类器的性能均能提升2%左右,证明了使用集成学习方法有着良好的提升效果。关键词:剪切位点预测;支持向量机;关键位置;迷惑位置;改进字符串核函数II万方数据哈尔滨工业大学

8、工程硕士学位论文ABSTRACTWiththedevelopmentofthegenesequencingtechnologies,theamountofinformationofgenomesequencepresentsthetrendofexplosivegrowth.Thereisapressingneedforasetoftoolst

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。