欢迎来到天天文库
浏览记录
ID:40444579
大小:1.01 MB
页数:52页
时间:2019-08-02
《形象化基因组序列分析系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、形象化基因组序列分析系统——寻找复杂结构子序列模块的算法及系统研究学生:杜杰指导老师:韦朝春1、研究背景随着生命科学研究的不断进步和深入,以及高通量快速度DNA测序技术的发展,各种基因组测序计划(人类基因组计划和各种模式生物测序计划)不断展开并相继完成,生物学研究已经进入后基因组时期。如何快速并且有效的从海量的生物序列数据中发掘和提取信息,解读探索和揭示生命的奥秘是我们面临的重大挑战。调控作为生命活动的重要机制,是我们了解生命过程很好而且极有意义的切入点。众多的调控作用中调控因子因直接指导基因的表达而成为我们从生物序列认知复杂生命过程的重
2、要一环。1.1生物调控模块研究现状基因表达调控主要通过三类方式进行:核苷酸序列之间的相互作用,包括核酸分子内部核苷酸序列之间的相互作用的两个核酸分子之间核苷酸序列的相互作用;核酸分子的核苷酸序列与蛋白分子之间的相互作用;蛋白质分子之间的相互作用当前调控元件(模体)的发现已经进行了较多研究和算法开发,常用的策略为;(1)穷尽搜索法:穷尽搜索常采用的策略是列举出所有符合条件的模体,最后输出分值最高者。(2)基于统计模型的机器学习方法:很多的机器学习算法己经运用到模体识别问题中,如动态规划(DynamicProgramming,DP)、期望最大
3、化算法(ExpectationMaximization,EM)、马尔可夫链-蒙特卡罗方法(MarkovChainMonteCarlo,MCMC)、模拟退化算法等。现阶段调控元件的研究主要还是相对独立的进行,着眼于单个模体的发现与解读,关于顺势调控模块(cis-regulatorymodule)等也进行了一些相关研究。基因预测的方法也在过去的几年中得到了极大的提高,尤其是基于统计模型的方法。这为基因中调控模块等复杂结构序列的研究提供了新的方法。1.2本文工作说明本课题上级课题为开发一个通用的具有自动寻找给定的复杂结构序列模块功能的系统。使用
4、该系统,用户可以用文件描述序列的结构,或者直观地用一个图形表示序列结构(例如一个基因结构示意图或者调控因子模块的示意图),该系统可以在给定注释后的集合上自动学习,并可以在指定的基因组序列上自动找到所有类似的结构。上级课题主要研究内容及任务分割:1.一种通用的模型描述系统。该系统规定模型定义文件的格式,我们可以从定义文件自动生成一个序列结构模型。2.该通用模型的自动学习。给定一个已注释的序列集合,该系统可以自动进行学习。3.在基因组范围寻找由以上文件定义的复杂序列结构。4.一个用户友好的图形系统。用户可以直观地用一个图形表示序列结构,对一个
5、指定的学习集合以及基因组,系统可以自动完成前面三步。本文工作主要是从复杂调控子序列研究的现状出发,在调控因子结合位点发现的前人工作基础上,开发一个友好的图形化系统,提供一个可视化的平台,简化调控模块研究的工作。利用该系统可以直观的对用户希望研究的目标模块进行互动的绘制,导入相应参数文件,最终生成待研究模块的完整参数文件,此参数文件可直接进行后续分析。2、转录因子结合位点发现转录因子结合位点(模体)研究方法分为实验方法和计算方法两类。2.1实验方法实验中可以用凝胶迁移(electrophoreticmobilityshiftassays)或
6、DNase足迹法(DNasefootprinting)来确定转录因子结合位点。这些方法不能够实现大规模、高通量的分析。以基因芯片为代表的高通量分子生物学技术在基因转录调控分析中发挥了重大作用。近年来,利用蛋白质免疫共沉淀技术(ChIP)可以得到大量与特定转录因子结合的DNA片段。第二代高通量测序技术检测这些DNA片段,就形成了ChIP-chip和ChIP-sfq技术。2.2计算方法转录因子建模在进行数学方法的计算前必须将转录因子建模,以便在统一的框架下进行分析计算。尽管与同一种转录因子结合位点结合的结合位点会存在差异,但是,不管差异性程度
7、有多高,相对于随机序列片段而言,对应同一种转录因子的结合位点仍然具有较高的保守性,正是这种保守性构成了用计算方法来识别调控元件的理论基础。2.2.1串模型串模型(String-basedrepresentation)是最早出现的序列模式表示方法,其中共有序列(consensussequence)是转录因子结合位点最简单的表示方法。例如CAAT转录因子结合的核酸序列表示为5’-GCCAATCT-3’,热休克因子结合位点表示为5’-CNNGAANNTCCNNG-3’。基于共有序列的表示方法简明易懂,却不能够反映每个位置上不同碱基出现的概率。2
8、.2.2矩阵模型虽然串模型直观的表示了模式序列的碱基组成情况,但是也在一定程度上掩盖了各个位置上碱基出现的差异性。转录因子同DNA的结合是一个与热动力学结合能相关的随机事件,因此利用统计学方法
此文档下载收益归作者所有