防洪物质调运问题DNA序列的统计分析.doc

防洪物质调运问题DNA序列的统计分析.doc

ID:56199093

大小:352.00 KB

页数:28页

时间:2020-03-20

防洪物质调运问题DNA序列的统计分析.doc_第1页
防洪物质调运问题DNA序列的统计分析.doc_第2页
防洪物质调运问题DNA序列的统计分析.doc_第3页
防洪物质调运问题DNA序列的统计分析.doc_第4页
防洪物质调运问题DNA序列的统计分析.doc_第5页
资源描述:

《防洪物质调运问题DNA序列的统计分析.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、DNA序列的统计分析【摘要】模型一统计了20个已知类别的DNA序列碱基的含量的概率分布,根据已知的类别就A,T,C,G的含量作为四个指标,采用判别分析对未知类别的序列给出了较满意的分类。模型二首先统计了已知类别的DNA序列的位置上各碱基出现的概率,发现A,B两类序列结构的不同,体现在密码子各位上的碱基概率分布有明显的差异,以嘌呤和嘧啶碱基为区别构造一个一维随机徘徊函数,从而给出A,B的分类法;接着,再从三个角度来划分碱基,对于每一种分类都构造一个一维随机徘徊函数,根据此函数得出拟和直线,用三条拟和直线的斜率作为分析的指标进行多元

2、判别分析,由此给出A,B的分类法,较模型一分类的正确率明显提高。一、问题简述与分析人类基因组计划中DNA全序列图是由四个碱基A,T,G,C按照一定的顺序排成的长约30亿的序列,研究DNA全序列具有什么结构,探讨由这四个字符排成的看似随机的序列中到底隐藏着什么规律,是当代生物信息学最重要的课题之一。DNA分子中唯一可变的部分是碱基(胸腺嘧啶T,鸟嘌呤G,胞嘧啶C,和腺嘌呤A)序列,人类发现在全序列中有一些是用于编码蛋白质的序列片段,即由这四个字符组成的64种不同的3字符串,其中大多数是用于编码构成蛋白质的20种氨基酸,研究表明,分

3、析DNA序列的结构以及序列的某些片段之间具有的相关性对于理解DNA全序列有十分重要的意义,现提出给以下序列集合进行分类的问题:1)由20个已知类别的序列中(序号1—10为A类,11—20为B类)提取特征,构造分类方法,并用这些已知类别的序列来衡量你的方法的好坏,然后对另外的20个未知类别的序列(标号21—40)进行分类。2)对给出的182个DNA序列,用你的分类方法对他们进行分类,并给出分类结果。研究表明,遗传密码所必要的碱基个数为3个,即密码子是由三个碱基组成,一串前后相依的密码子构成了氨基酸的排列次序,从而形成了具体的蛋白质

4、,显然密码子使用的频率和数量,进一步,碱基出现的频率和数量,特别是排在一起的结构和序列片段的相关性都与研究DNA序列有十分紧密的联系,我们就是要挖掘这些统计特征,寻找出隐藏在这些序列中的规律。28首先,通过分析,我们可以看出给出的A,B两类的20个样本数据中,四个碱基a,c,g,t的含量有较明显的区别,因此我们可以通过其在含量方面的区别,以四种碱基的含量为四个指标利用SAS统计软件进行多元判别分析,以此来确定A,B的分类,并进而对其他的序列进行分类。(模型一)其次,我们进一步判断,发现对a,c,g,t的含量完全相同的两个DNA序

5、列来说,决定其分类的标准就不能再用碱基含量了,此时我们考虑用碱基的结构排列,即a,c,g,t出现在DNA序列中的每一位的顺序:我们先以嘌呤碱基与嘧啶碱基作为分类的标准,并构造一个一维随机徘徊函数,然后用据此得到的拟和直线的斜率来进行判断,但是我们进而发现仅从这一个角度来考虑是不完善的,因此经过研究我们从三个角度来分别构造一维随机徘徊函数,得到三条拟和直线,以这三条直线的斜率为指标再次用SAS统计软件进行多元判别分析,以此来判断A,B的分类。(模型二)二模型假设与符号设定1.假定所给的DNA序列数据为起始密码子之后的第一个数据字符

6、;2.每个碱基出现是随机的;3.ha——一个序列中a的含量,hc——一个序列中c的含量;4.hg——一个序列中g的含量,ht——一个序列中t的含量;5.K1——按嘌呤与嘧啶碱基分类拟和的直线的斜率;6.K2——按氨基与酮基碱基分类拟和的直线的斜率;7.K3——按强氢键与弱氢键分类拟和的直线的斜率;8.其他的符号将在文中另外给出。三模型一的建立和求解一)样本的统计分析从含量的角度考虑,对于给出的20个已知类别的样本数据,我们利用MATLAB绘制出a,c,g,t的分布图如下:(其中实线表示A类,虚线表示B类)这里采用MATLAB的图

7、形函数plot做图求解,其做图格式为:plot(x,a1,x,a2,'--')。其中X是横坐标,取1到10,a1与a2分别为A类与B类中的碱基含量,'--'代表线型是虚线。28a的分布c的分布g的分布t的分布图1A与B两类a,c,g,t的分布图由上图可以看出,a,c,g,t的含量明显不同,特别是g,t的含量差别很大,因此我们可以根据a,c,g,t的含量来区分A,B两类。于是我们将已知的20种序列和未知的20种序列的a,c,g,t的含量计算出来并列表如下:表1A,B两类a,c,g,t的含量表数据号含量a%c%g%t%10.2970

8、.1710.3960.13520.2720.1550.4180.15530.2750.2200.4400.06440.4260.1110.1760.28750.2430.2240.4210.11260.3490.1320.3960.12370.3520.1050

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。