基于hmm方法蛋白质局部片段结构属性预测的研究

基于hmm方法蛋白质局部片段结构属性预测的研究

ID:34573125

大小:3.07 MB

页数:123页

时间:2019-03-08

基于hmm方法蛋白质局部片段结构属性预测的研究_第1页
基于hmm方法蛋白质局部片段结构属性预测的研究_第2页
基于hmm方法蛋白质局部片段结构属性预测的研究_第3页
基于hmm方法蛋白质局部片段结构属性预测的研究_第4页
基于hmm方法蛋白质局部片段结构属性预测的研究_第5页
资源描述:

《基于hmm方法蛋白质局部片段结构属性预测的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据Ph.D.DissertationShanghaiJiaoTongUniversityRESEARCHONLOCALPROTEINFRAGMENTCONSTRUCTURALPROPERTIES’PREDICTIONBASEDHMMMETHODSDepartment:Dept.ofAutomationMajor:ControlTheoryandEngineeringCandidate:JianyongYuSupervisor:Prof.ZhangSchoolofElectronicsandElectricEngineeringShanghaiJiaoTongUnivers

2、ityMay,2013万方数据万方数据万方数据万方数据万方数据万方数据基于HMM方法的蛋白质局部片段结构属性的预测研究摘要随着人类基因组计划的胜利完成,蛋白质的结构和功能预测已经成为当今计算生物学研究面临的最重要的挑战之一。如何由蛋白质的氨基酸序列预测蛋白质的三维结构,这个问题不仅具有重大的科学意义,而且在医学和生物工程领域都具有极大的应用价值,对揭示人类生命的奥秘将产生深远的影响。目前,已发展的预测技术大多是基于知识的数据挖掘和机器学习等方法,使用结构片段作为构建模块,再进行蛋白质片段的组装。但事实上,有限数量的构建模块具有一定的离散属性,是不能覆盖蛋白质整个结构构象空间的。

3、在搜索蛋白质构象空间时也存在着采样瓶颈,特别是在连续的蛋白质骨架角度空间,从而导致预测精度的丢失。因此,如何对待和处理蛋白质局部结构片段,正确识别和采样这些局部片段的骨架构象,将是进一步提高蛋白质结构预测精度的关键问题。本文聚焦在蛋白质局部结构基序片段的预测,通过对其两个重要结构属性:骨架扭转角BTA和溶液可及区域RSA的建模与真值预测,成功地构造出基序片段的结构构象。再以基序片段的构象采样作为组装蛋白质三级结构的基础,形成了一个较为完整的片段识别定位与预测系统,和对结构属性预测的集成整合系统。本文通过研究蛋白质骨架扭转角对(Φ,ψ)的分布特性,提出了BTA的二变量余弦分布混合

4、模型,和用于蛋白质结构属性预测的改进的HMM模型。在模型的应用中,设计了一个回溯动态规划采样算法,用以采样得到蛋白质基序片段的结构构象。并在此基础上,建议了一个蛋白质局部片段的识别与预测系统,用于蛋白质基序模式的识别与定位,以及识别出来的基序建模与预测。提出了一种可变长度滑动窗口扫描算法用于结构基序片段的辨识。最后,对使用的HMM模型做了进一步的改进,开发了一个集成的蛋白质局部结构属性真值预测系统,同时得到基序片段的两种结构属性RSA和BTA的真值。本文主要的研究贡献包括:1)针对蛋白质基序片段的结构特性,提出了一个用于蛋白质结构属性预测的改进的隐马尔可夫HMM模型,更好地抓住

5、局部结构的偏好性。该模型为蛋白I万方数据质的每种结构属性建立了一种状态。模型的每个隐节点代表了基序片段链中一个残基的特定位置,密切联系着四类发散节点各自一定的概率分布。解决了该改进模型的评估、解码、学习等几个主要问题,并给出了相应的算法。根据骨架扭转角BTA和溶液可及区域RSA相应的概率分布,改进的HMM模型能很好地抓住基序片段中相邻残基之间这两个结构属性的关联性和依赖性。2)针对蛋白质基序片段骨架扭转角(Φ,ψ)的偏好信息及分布特性,提出了一个二变量余弦分布混合模型,对每个残基(Φ,ψ)的角度关联性进行建模,并使用一个期望值最大化(EM)算法,得到其混合模型的参数估计。用连续

6、的方向统计分布来描述骨架扭转角对(Φ,ψ)的概率密度函数,而不是将角度划分成多个区间状态,这种类似自然结构的表达避免了其他传统方法所采用的角度离散化。在一个连续的(Φ,ψ)空间中,用一个双面角对(Φ,ψ)的序列来描述蛋白质基序片段的骨架构象,并使用改进的HMM模型和回溯动态规划采样算法,确保了一个无偏的蛋白质空间构象采样。3)针对构建模块BBs的离散属性与蛋白质骨架构象的连续特性不一致的问题,提出了一个基于HMM模型的概率构象采样方法,将局部蛋白质氨基酸序列和其相应的二级结构信息作为模型的混合输入,在一个连续的(Φ,ψ)空间中采样片段的骨架结构构象。同时,设计了一种新的回溯动态

7、规划采样算法应用到这个HMM模型,用以抓住蛋白质基序片段链中相邻两个残基之间结构属性的所有依赖关系。建议的方法能重复采样骨架片段的一些类似自然的结构构象,较好地解决了在连续的(Φ,ψ)空间中搜索蛋白质构象时存在的瓶颈。在模型的最优路径上,一些知名的蛋白质结构基序片段能被很好地重现。4)针对蛋白质结构预测中局部结构片段组装的流程,提出了一个蛋白质局部片段识别定位与预测系统,以遵循蛋白质结构拓扑的等级层次组织。该系统沿着蛋白质氨基酸序列搜索和定位其中的结构基序片段,并在连续的构象空间采样其相应的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。