DNA序列问题模型详解.doc

DNA序列问题模型详解.doc

ID:56785523

大小:372.00 KB

页数:25页

时间:2020-07-11

DNA序列问题模型详解.doc_第1页
DNA序列问题模型详解.doc_第2页
DNA序列问题模型详解.doc_第3页
DNA序列问题模型详解.doc_第4页
DNA序列问题模型详解.doc_第5页
资源描述:

《DNA序列问题模型详解.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2015年芜湖三校数学建模竞赛题目DNA序列问题模型摘要DNA序列是由A,T,G,C四个表示4种碱基的字符组成的序列。本文研究DNA序列的结构找出序列间的差异和对八个物种的DNA序列进行分类。对于问题一首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差异:Human、Opossum、Lemur、Rat等4种DNA序列的长度相同,其他四种DNA序列的长度各不相同,每种DNA序列四种碱基的的重复情况也各不相同;G碱

2、基的丰度相对于本序列的其他碱基的丰度都要高,碱基A的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大;8种DNA序列中GG、GT的相邻的状况比较明显;各个DNA序列中碱基丰度比、、含量差不多且都含量比较高;其中,DNA序列中、、含量差不多且都含量比较低。对于问题二我们首先通过对问题一散点图的分析选取以碱基的丰度和碱基间的丰度之比为分类的指标,构建为分类的特征向量,但这些特征向量之间存在着一定的相关性,我们运用R型聚类选择出相关性程度差的特征向量为Q型聚类的指标。通过Q型聚类我们将这8种DNA序列分为3种分类方式,通过利用means方法,检验各类别在所有

3、变量上的差异,再利用单因素方差分析最终确定将8种DNA序列分为四类。分类结果如下:第一类:Human、Mouse;第二类:Goat、Rabbit;第三类:Opossum、Lemur、Rat;第四类:Gallus。关键词:数理统计;R型聚类;Q型聚类;means法;单因素方差分析法1问题重述DNA序列是由A,T,G,C四个表示4种碱基的字符组成的序列。研究DNA序列的结构及序列中隐藏的规律,成为生物信息学的重要研究课题。根据表1中八个物种的β-球蛋白基因的第一个外显子序列,请解决以下问题:1.建立数学模型刻画序列间的差异;2.对表1中八个物种的DNA序列进行分类。2基本假设1

4、)假设所给的DNA序列片段中没有断句和标点符号;2)假设具有特殊碱基的DNA序列中,特殊碱基可以剔除,其影响可以忽略;3)8个物种DNA序列具有共同的特征;4)假设给定的DNA序列均是从全序列中随机截取出来的,无法确定序列的起始位,无法从序列中辨认出氨基酸,所以,在对DNA序列分类时,从碱基层次上进行分类,而不是从氨基酸层次上分类;5)不考虑碱基序列的编码区和非编码区的区别;6)题目中所给的样本信息量足够大;7)题目附录中所给的数据真实可靠。3符号说明:各个DNA序列中碱基出现的数量,i为A、T、C或G:第i个DNA序列的总碱基数目:各个DNA序列中碱基的丰度,i为A、T、

5、C或G:各个DNA序列中碱基i和碱基j的比值,i,j为A、T、C或G:DNA序列中A、C、G、T的重复次数矩阵:DNA序列中A、C、G、T的所占百分量矩阵:第i个DNA序列相邻碱基占序列相邻情况的百分比,为A、C、T或G:R型聚类的特征向量:DNA序列中四个碱基之间丰度比矩阵4模型的建立及求解(一)问题一模型的建立及求解1)问题分析首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比(如碱基A与碱基T的丰度之比)的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差

6、异。 2)模型建立及求解(1)碱基重复出现的情况运用matlab求出8种物种DNA序列各自的碱基的重复出现的结果(即每种DNA序列中碱基的个数)和每种DNA序列的碱基数目(即序列的长度)。(matlab运算的程序代码见附录一)其运算的结果如下:[1721193517171735212220291915233419231535172320341720163720211833]Human、Opossum、Lemur、Rat等4种DNA序列的长度相同,其他四种DNA序列的长度各不相同;同时每种DNA序列四种碱基的的重复情况也各不相同,其中,Human、Goat、Mouse、Rab

7、bit碱基A的重复情况一样;Gallus、Lemur碱基A重复情况一致;Lemur、Mouse碱基T的重复情况一致;Opossum、Mouse碱基C的重复情况一致;Human、Goat、Lemur碱基G的重复情况一致;Gallus、Mouse碱基的重复情况一样;其他物种碱基重复情况各不相同。(2)碱基的丰度对8种DNA序列碱基丰度的分析,i中A碱基丰度的计算:     (4-1)其他碱基T、C、G运算方式一样。通过matlab计算出8种序列的中A、T、C、G四种碱基的丰度结果如下(matlab运算的程序代码见附录一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。