DNA模型(数学建模)

ID：38834549

大小：280.82 KB

页数：16页

时间：2019-06-20

资源描述：

《DNA模型(数学建模)》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、DNA序列的分类模型一、问题假定已知两组人工已分类的DNA序列（20个已知类别的人工制造的序列），其中序列标号1—10为A类，11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法，并且还要衡量所用分类方法的好坏，从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列（标号21—40）和182个自然DNA序列。例如A类：a1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatga

2、ccgcttgg';b1='gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt';……三、建立分类模型主要有三种分类模型：统计分类模型距离判别、Fisher判别、Bayes判别等建立信息量函数（熵函数）神经网络模型二、特征提取序列中含有四个碱基a、g、t、c，反映该序列特征的方面主要有两个：1、碱基的含量，反映了该序列的内容；统计a、g、t、c序列中分别出现的频率；记序列中A、G、T、C的含量百分比为na

3、、ng、nt、nc，则得到一组表征该序列特征的四维向量。统计出的数据结构为：学习样本A、B两类分别为：12…10nangntnc欲判别类别的样本Xi=(xi1,xi2,xi3,xi4),i=21,…,40;μA=(μA1μA2μA3μA4)μB=(μB1μB2μB3μB4)A类的几何中心：B类的几何中心：对于标号为i的序列，记它的特征向量为Xi=(na，ng，nt，nc)i。2、碱基的排序①　字符出现的周期性；②　统计三个字符出现的频率；在遗传学中每三个碱基的组合被称为一个密码子，如agg，att，gag等，共有43=64个。其数据结构：如何将64个密码子减成几个？经分析

4、知，可以将64维的密码子简化为只有8维的密码子。A类序列的特征密码子：GGA，CGG，GGC，AGGB类序列的特征密码子：TTA，TTT，ATT，TAT降维处理建立的准则是见表1模型一：构造辨析纸1、计算特征密码子出现频率八个密码子：GGA，CGG，GGC，AGG，TTA，TTT，ATT，TAT，AB其数据结构为对20个人工DNA序列进行分类，准确率已经达到95%。对182个自然序列进行分类其准确率不高，必须采用其它方法进行分类。模型二：多维向量空间的判别分析模型如上图所示，向量OA、OB分别代表了A、B两类向量的重心位置。OC是任一个二维向量，与OA、OB成夹角α和β。

5、当时，可断定OC属于A类，否则，OC属于B类。定义判别式：判断准则如下：1）当W>0时，判断向量OC属于A类；2）当W<0时，判断向量OC属于B类；3）当W=0时，不能判断；将2维向量推广到64维向量,向量中的每个元素对应一个密码子在这个片段中出现的频率，第i个片段的向量表示为：而A、B两类的重心向量分别为：由此可计算夹角余弦，从而计算判别函数：思考：1、如何统计DNA序列片段中碱基a，g，t，c的频率；编程实现。2、试分别用统计方法（欧氏距离、马氏距离和Fisher判别）对人工或自然序列进行分类。3、DNA序列的特征提取其它方法。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 16



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

DNA模型(数学建模)

DNA模型(数学建模)

相关文章

相关标签