《序列分析与联配》PPT课件

《序列分析与联配》PPT课件

ID:38831167

大小:721.50 KB

页数:79页

时间:2019-06-20

《序列分析与联配》PPT课件_第1页
《序列分析与联配》PPT课件_第2页
《序列分析与联配》PPT课件_第3页
《序列分析与联配》PPT课件_第4页
《序列分析与联配》PPT课件_第5页
资源描述:

《《序列分析与联配》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三章序列分析与联配第一节序列组成和单一序列分析第二节序列联配第三节数据库搜索引擎——BLAST和FASTA应用第四节寡核苷酸设计序列分析是生物信息学最主要的研究内容之一,它可以分为两个主要部分:一是序列组成(特别是涉及到基因组层次上)分析,二是序列之间的比较分析。两条序列或多条序列间的比对或联配(alignment)的目的,是对它们的序列相似性进行评估,找出这些序列中结构或功能相似性区域等。通过联配未知序列与已知序列(其功能或结构等已知)的相似程度,我们可以判断或推测未知序列的结构与功能。第一节序列组成

2、及单一序列分析一、碱基组成二、碱基相邻频率三、同向重复序列分析四、DNA序列的几何学分析——Z曲线一、碱基组成DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。表3.1包含了9条完整DNA分子序列的资料,表3.2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500个任意碱基区域被称为“侧翼”

3、,基因间区域是指两个基因间的其余序列。二、碱基相邻频率分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积:如果Pu是序列中碱基u的频率,且Puv为两个相邻碱基u和v的频率,则Puv≠PuPvNussinov(1984)研究了两碱基相邻的频率(表3.3)。数据来自166个脊椎动物的DNA序列,总长136731个碱基。表中的比值为16种二个碱基相邻的频率除以相应的单个碱基频率的乘积。作为一个特别的例子,图3.1给出了鸡血红蛋白β链的mRNA编码区的438个碱基。

4、表3.4列出了4种碱基和16种两碱基的数目。将该表看作4×4的表,计算行列独立性的卡方统计量,得到x2=59.3(x20.05,9=16.92)表明行(第一碱基)列(第二碱基)之间存在明显的关联。在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。表3.5列出了遗传密码和图3.1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表3.5还清楚地表明,由

5、于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第2位碱基小得多。相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markovchain)理论得到(Javare和Giddings,1989)。在不援引任何生物学机制的情况下,第k阶马尔科夫链假定在序列中某一位置上碱基的存在只取决于前面k个位置上的碱基。一阶链假定一个特定碱基存在于位置i的概率只取取决于在位置i-1的4种碱基概率。相互独立的碱基所组成的序列将与0阶马尔科夫链相对应。阶可以

6、通过似然法估计。同时,马尔科夫链分析更适应于基因组水平,而非单一序列(基因)。三、同向重复序列分析除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(directrepeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为0、1、2、3。由X1、X2、...、Xk共k个字母组成的每一种不同的字码按计算字码值。这些值的取值范围为1到

7、4k。例如,5字码TGACC的值为1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。表3.6列出了序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复

8、序列。从有重复的第2个碱基为起点的3字码值及位置列于表3.7,其中发现字码值为1、45和49的序列有重复。以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。因此最长的同向重复为4、8、9位置上的AAA,13、17位置上的GTA以及7、14位置上的TAA。同样对图3.1鸡β球蛋白DNA序列进行同向重复序列搜索,一些最长同向重复序列列于表3.8。Karlin等(1983)提出了序列内存在的最长同向重复序列的统计显著性评价

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。