基于序列信息的piRNA和启动子研究

基于序列信息的piRNA和启动子研究

ID:37044967

大小:3.79 MB

页数:63页

时间:2019-05-17

基于序列信息的piRNA和启动子研究_第1页
基于序列信息的piRNA和启动子研究_第2页
基于序列信息的piRNA和启动子研究_第3页
基于序列信息的piRNA和启动子研究_第4页
基于序列信息的piRNA和启动子研究_第5页
资源描述:

《基于序列信息的piRNA和启动子研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于序列信息的piRNA和启动子研究RESEARCHONPIRNAANDPROMOTERBASEDONSEQUENCEINFORMATION杨帆哈尔滨工业大学2017年12月国内图书分类号:TP391.4学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于序列信息的piRNA和启动子研究硕士研究生:杨帆导师:刘滨教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.4U.D.C:621.3Adissertationsubmittedinpa

2、rtialfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringRESEARCHONPIRNAANDPROMOTERBASEDONSEQUENCEINFORMATIONCandidate:FanYangSupervisor:Prof.BinLiuAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence

3、:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着后基因时代的到来和基因测序技术的飞快发展,人们获得了越来越多的生物分子序列信息。由于生物分子中的基本单位排列顺序和长度不同所造成的序列组成、分子结构以及序列组成对应的理化属性不同,导致这些生物分子具有了不同的种类和功能。其基本单位排列顺序的复杂性也给基于传统生物实验分析生物分子带来了困难。而序列信息是最能直观表达生物分子的信息。通过序列信息分析生物分子的种类和功能正逐渐成为生物信息学中最重要的研究任务之一。

4、在这种背景下,本文采用多种特征提取方法结合机器学习方法对生殖细胞中维持基因稳定性的piwi-interactingRNA(piRNA)和调控基因表达的重要元件启动子进行了探索和研究。本文主要研究内容包括:基于序列信息的piRNA识别和功能分析预测方法。传统上,识别piRNA分子主要通过核苷酸组成和分子序列中的转座子信息相结合的方法来识别piRNA分子,这些识别方法都取得了很好的效果。本文将在多种分子识别任务上都取得较好性能的特征提取方法PseKNC应用到piRNA分子识别的任务中。该方法提取的特征不仅包含序列组成信息,还包含序列组成对应的理化属性信息,通过该方法可以更好地刻画piRN

5、A分子的序列信息。通过对比实验发现,该方法优于现有的基于序列信息识别piRNA的方法。同时,在此问题的基础上构建二层分类模型,对piRNA分子的功能进行识别,均取得了很好的预测性能。基于序列信息的启动子识别及其类型识别方法。在启动子识别方面,其识别方法主要通过启动子序列上的RNA聚合酶结合位点来识别启动子序列。为了充分描述这一特性,采用滑动窗口的思想对启动子序列进行划分,对每一个启动子子序列分别用PseKNC方法提取特征。本文所用的方法结合了启动子的序列特点和PseKNC特征提取方法的优点,更好地刻画了启动子的序列特征。此外,本文设计了一个二层结构,将启动子的类型识别问题当作多分类问

6、题来处理,取得了不错的效果。基于多尺度窗口序列特征的启动子识别及其类型识别方法。根据启动子序列具有局部保守性的特点以及滑动窗口划分序列提取启动子特征的有效性。在以上基础上对识别启动子的方法进行改进,引入序列的局部保守性自适应-I-哈尔滨工业大学工学硕士学位论文地对启动子序列进行分割,对分割后的序列更细粒度地提取了启动子的特征并分别建立模型。通过实验发现,通过自适应窗口分割序列的方法提取特征所建立的模型可以提高识别启动子序列的准确率。关键词:piRNA识别;启动子识别;支持向量机;随机森林;梯度提升树;集成学习-II-哈尔滨工业大学工学硕士学位论文AbstractWiththeadve

7、ntofthepostgenomicageandtherapiddevelopmentofgenesequencingtechnology,moreandmorebiomoleculeshavebeenobtained.Duetothedifferentinsequencelengthandarrangementorderofbasicunits,thesequencecomposition,molecularstructuresandthephysico

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。