防洪物质调运问题DNA序列的统计分析.doc

ID：56199093

大小：352.00 KB

页数：28页

时间：2020-03-20

资源描述：

《防洪物质调运问题DNA序列的统计分析.doc》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、DNA序列的统计分析【摘要】模型一统计了20个已知类别的DNA序列碱基的含量的概率分布，根据已知的类别就A，T，C，G的含量作为四个指标，采用判别分析对未知类别的序列给出了较满意的分类。模型二首先统计了已知类别的DNA序列的位置上各碱基出现的概率，发现A，B两类序列结构的不同，体现在密码子各位上的碱基概率分布有明显的差异，以嘌呤和嘧啶碱基为区别构造一个一维随机徘徊函数，从而给出A，B的分类法；接着，再从三个角度来划分碱基，对于每一种分类都构造一个一维随机徘徊函数，根据此函数得出拟和直线，用三条拟和直线的斜率作为分析的指标进行多元

2、判别分析，由此给出A，B的分类法，较模型一分类的正确率明显提高。一、问题简述与分析人类基因组计划中DNA全序列图是由四个碱基A，T，G，C按照一定的顺序排成的长约30亿的序列，研究DNA全序列具有什么结构，探讨由这四个字符排成的看似随机的序列中到底隐藏着什么规律，是当代生物信息学最重要的课题之一。DNA分子中唯一可变的部分是碱基（胸腺嘧啶T，鸟嘌呤G，胞嘧啶C，和腺嘌呤A）序列，人类发现在全序列中有一些是用于编码蛋白质的序列片段，即由这四个字符组成的64种不同的3字符串，其中大多数是用于编码构成蛋白质的20种氨基酸，研究表明，分

3、析DNA序列的结构以及序列的某些片段之间具有的相关性对于理解DNA全序列有十分重要的意义，现提出给以下序列集合进行分类的问题：1）由20个已知类别的序列中（序号1—10为A类，11—20为B类）提取特征，构造分类方法，并用这些已知类别的序列来衡量你的方法的好坏，然后对另外的20个未知类别的序列（标号21—40）进行分类。2）对给出的182个DNA序列，用你的分类方法对他们进行分类，并给出分类结果。研究表明，遗传密码所必要的碱基个数为3个，即密码子是由三个碱基组成，一串前后相依的密码子构成了氨基酸的排列次序，从而形成了具体的蛋白质

4、，显然密码子使用的频率和数量，进一步，碱基出现的频率和数量，特别是排在一起的结构和序列片段的相关性都与研究DNA序列有十分紧密的联系，我们就是要挖掘这些统计特征，寻找出隐藏在这些序列中的规律。28首先，通过分析，我们可以看出给出的A，B两类的20个样本数据中，四个碱基a,c,g,t的含量有较明显的区别，因此我们可以通过其在含量方面的区别，以四种碱基的含量为四个指标利用SAS统计软件进行多元判别分析，以此来确定A，B的分类，并进而对其他的序列进行分类。（模型一）其次，我们进一步判断，发现对a,c,g,t的含量完全相同的两个DNA序

5、列来说，决定其分类的标准就不能再用碱基含量了，此时我们考虑用碱基的结构排列，即a,c,g,t出现在DNA序列中的每一位的顺序：我们先以嘌呤碱基与嘧啶碱基作为分类的标准，并构造一个一维随机徘徊函数，然后用据此得到的拟和直线的斜率来进行判断，但是我们进而发现仅从这一个角度来考虑是不完善的，因此经过研究我们从三个角度来分别构造一维随机徘徊函数，得到三条拟和直线，以这三条直线的斜率为指标再次用SAS统计软件进行多元判别分析，以此来判断A，B的分类。（模型二）二模型假设与符号设定1.假定所给的DNA序列数据为起始密码子之后的第一个数据字符

6、；2.每个碱基出现是随机的；3.ha——一个序列中a的含量，hc——一个序列中c的含量；4.hg——一个序列中g的含量，ht——一个序列中t的含量；5.K1——按嘌呤与嘧啶碱基分类拟和的直线的斜率；6.K2——按氨基与酮基碱基分类拟和的直线的斜率；7.K3——按强氢键与弱氢键分类拟和的直线的斜率；8.其他的符号将在文中另外给出。三模型一的建立和求解一)样本的统计分析从含量的角度考虑，对于给出的20个已知类别的样本数据，我们利用MATLAB绘制出a,c,g,t的分布图如下：（其中实线表示A类，虚线表示B类）这里采用MATLAB的图

7、形函数plot做图求解，其做图格式为：plot(x,a1,x,a2,'--')。其中X是横坐标，取1到10，a1与a2分别为A类与B类中的碱基含量，'--'代表线型是虚线。28a的分布c的分布g的分布t的分布图1A与B两类a,c,g,t的分布图由上图可以看出，a,c,g,t的含量明显不同，特别是g,t的含量差别很大，因此我们可以根据a,c,g,t的含量来区分A，B两类。于是我们将已知的20种序列和未知的20种序列的a,c,g,t的含量计算出来并列表如下：表1A，B两类a，c，g，t的含量表数据号含量a%c%g%t%10.2970

8、.1710.3960.13520.2720.1550.4180.15530.2750.2200.4400.06440.4260.1110.1760.28750.2430.2240.4210.11260.3490.1320.3960.12370.3520.1050

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 28



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

防洪物质调运问题DNA序列的统计分析.doc

防洪物质调运问题DNA序列的统计分析.doc

相关文章

相关标签