欢迎来到天天文库
浏览记录
ID:53029359
大小:1.05 MB
页数:7页
时间:2020-04-14
《基于黎曼流形的蛋白质三维结构数据相似性比较-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第39卷第1期燕山大学学报Vol?39No?12015年1月JournalofYanshanUniversityJan.2015文章编号:1007⁃791X(2015)01⁃0035⁃07基于黎曼流形的蛋白质三维结构数据相似性比较∗徐永红,褚泽斐,洪文学(燕山大学电气工程学院,河北秦皇岛066004)摘要:以NMR技术为代表的海量蛋白质空间结构数据为现代生命科学研究提供了前所未有的机遇,但后续的大数据分析却成为一大难题。充分利用已知的蛋白质三维结构信息来预测未知的蛋白质空间结构信息是研究蛋白质结构和功能关系一种重要手段。本文提出一种基于黎曼流形的蛋白质三维结构相似性比较新
2、方法。该方法通过构建Cα坐标系和提取蛋白质结构具有旋转和平移不变性的几何特征量,将蛋白质的三维坐标序列转换为一维序列,采用黎曼距离作为三维结构相似度指标。本方法不需要对蛋白质结构做旋转和平移变换,避免了主流的RMSD方法中两蛋白质通过最小二乘拟合进行配准时产生的误差,并且完全不依赖于一级结构序列信息,对不具备序列相似性的蛋白质之间的相似性比较具有现实意义。本文分别针对不同相似度的蛋白质、Fischer提出的10个较难识别的蛋白质结构对、HOMSTRAD数据库中的700个数据这3组数据,对本文算法进行了验证。实验结果表明,与其他方法相比,本文方法的匹配精度均得到了较大提升。
3、关键词:蛋白质;三次样条插值;Cα坐标系;黎曼流形;结构比较中图分类号:R318文献标识码:ADOI:10.3969/j.issn.1007⁃791X.2015.01.006目前针对蛋白质结构比较已经有很多的研究0引言[3][4][5]方法与软件工具,如Dali、CE、VAST、[6][7][8]STRUCTAL、SSM、TM⁃align等,为蛋白质空间生物大分子中的蛋白质和很多非编码RNA结构的研究提供了多种分析手段。蛋白质结构比的功能主要取决于它们的空间结构。到目前为较方法主要分为3类:基于氨基酸间距离矩阵的止,已经有超过六万个生物大分子的空间结构被比较(Dali、C
4、E);基于蛋白质空间几何结构的比较测定,如何有效地比较它们之间的相似性成了生(STRUCTAL、TM⁃align);基于蛋白质二级结构的[1]命科学中的一个重要课题。蛋白质三维结构的匹配(VAST、SSM)。直接获取一直是一个瓶颈问题,尽管蛋白质序列传统的蛋白质相似性比较方法通常依赖于蛋的测定已基本完成,但大量序列已知的蛋白质的白质的一级结构序列,但是两个一级结构序列不三维结构尚未被实验方法测定出来,在这种情况同而空间结构相同的蛋白质往往有着相同的性下,充分利用一级序列信息和已知蛋白质的空间质。针对传统方法的不足,本文从几何角度出发,结构信息来研究预测未知蛋白质的空间结构
5、,为提出了一种基于黎曼流形的蛋白质结构相似性比结构生物学中研究蛋白质结构和功能关系的主要较的新方法。通过微分流形的处理,用曲率k和手段。由于用实验方法得到目的蛋白的结构困难挠率r这两个几何量代替蛋白质一级结构中ϕ和较大,而且需要较长时间,蛋白质三维结构相似性φ两个二面角,从而把蛋白质结构分析转变为一比较可构建实验需要的结构模型,用于提出关于个纯数学问题。蛋白质功能的假设并指导进一步的实验工作[2],[9]1982年,Louie和Somorjai最初将微分流形因此蛋白质结构相似性比较是蛋白质功能分析、引入到了蛋白质结构研究中,他们将蛋白质的主分类管理、检测等重要方法之一。链
6、看成是连续的空间曲线,并用参数(b,ω)描述收稿日期:2014⁃06⁃26基金项目:国家自然科学基金资助项目(60873121)作者简介:∗徐永红(1975⁃),男,四川犍为人,博士,教授,主要研究方向为医学信息处理,Email:xyh@ysu.edu.cn。36燕山大学学报2015(其中α螺旋对应螺旋面,β折叠对应悬链面,b表弗莱纳(Frenet⁃Serret)公式常用来描述粒子示曲面的尺寸,ω表示曲面的扭曲程度)。通过这在连续可微的曲线上运动时曲线的切向、法向、副种描述方法,Louie和Somorjai一方面给出了识别法方向之间的关系,本文在弗莱纳公式的基础上蛋白质结
7、构的指标;另一方面给出了蛋白质主链根据蛋白质结构数据中Cα、C、N原子的空间坐标[14]结构的连续描述。在此基础上,文献[10⁃11]对蛋白构建蛋白质的Cα坐标系:质结构三维曲线进行弹性形状分析提取弹性度Ci-CαiNi-CαiX=,U=,ii量,将弹性度量用于蛋白质结构的比较中。文献|Ci-Cαi||Ni-Cαi|[12]进一步提出弹性黎曼度量,将蛋白质结构从流Xi×UiZ=,Y=Z×X,(1)iiii|X×U|形的角度进行比对,与其他结构比较方法相比效ii果更好,但是计算复杂度高。其中,Cα、C、N分别代表Cα、C、N原子
此文档下载收益归作者所有