欢迎来到天天文库
浏览记录
ID:38834549
大小:280.82 KB
页数:16页
时间:2019-06-20
《DNA模型(数学建模)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、DNA序列的分类模型一、问题假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号1—10为A类,11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法,并且还要衡量所用分类方法的好坏,从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序列(标号21—40)和182个自然DNA序列。例如A类:a1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatga
2、ccgcttgg';b1='gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt';……三、建立分类模型主要有三种分类模型:统计分类模型距离判别、Fisher判别、Bayes判别等建立信息量函数(熵函数)神经网络模型二、特征提取序列中含有四个碱基a、g、t、c,反映该序列特征的方面主要有两个:1、碱基的含量,反映了该序列的内容;统计a、g、t、c序列中分别出现的频率;记序列中A、G、T、C的含量百分比为na
3、、ng、nt、nc,则得到一组表征该序列特征的四维向量。统计出的数据结构为:学习样本A、B两类分别为:12…10nangntnc欲判别类别的样本Xi=(xi1,xi2,xi3,xi4),i=21,…,40;μA=(μA1μA2μA3μA4)μB=(μB1μB2μB3μB4)A类的几何中心:B类的几何中心:对于标号为i的序列,记它的特征向量为Xi=(na,ng,nt,nc)i。2、碱基的排序① 字符出现的周期性;② 统计三个字符出现的频率;在遗传学中每三个碱基的组合被称为一个密码子,如agg,att,gag等,共有43=64个。其数据结构:如何将64个密码子减成几个?经分析
4、知,可以将64维的密码子简化为只有8维的密码子。A类序列的特征密码子:GGA,CGG,GGC,AGGB类序列的特征密码子:TTA,TTT,ATT,TAT降维处理建立的准则是见表1模型一:构造辨析纸1、计算特征密码子出现频率八个密码子:GGA,CGG,GGC,AGG,TTA,TTT,ATT,TAT,AB其数据结构为对20个人工DNA序列进行分类,准确率已经达到95%。对182个自然序列进行分类其准确率不高,必须采用其它方法进行分类。模型二:多维向量空间的判别分析模型如上图所示,向量OA、OB分别代表了A、B两类向量的重心位置。OC是任一个二维向量,与OA、OB成夹角α和β。
5、当时,可断定OC属于A类,否则,OC属于B类。定义判别式:判断准则如下:1)当W>0时,判断向量OC属于A类;2)当W<0时,判断向量OC属于B类;3)当W=0时,不能判断;将2维向量推广到64维向量,向量中的每个元素对应一个密码子在这个片段中出现的频率,第i个片段的向量表示为:而A、B两类的重心向量分别为:由此可计算夹角余弦,从而计算判别函数:思考:1、如何统计DNA序列片段中碱基a,g,t,c的频率;编程实现。2、试分别用统计方法(欧氏距离、马氏距离和Fisher判别)对人工或自然序列进行分类。3、DNA序列的特征提取其它方法。
此文档下载收益归作者所有