资源描述:
《数学模型在生物序列相似性分析中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数学模型在生物序列相似性分析中的研究与应用指导老师:李玉双小组成员:刘小芳王红伟王晶氨基酸的分类马尔科夫模型模型的参数估计和假设检验转移概率矩阵(5×5)转移概率矩阵的柱状图提取数值特征九物种相似性分析(Ⅰ)氨基酸的分类经证实20种天然氨基酸可以分为以下五类:{C,M,F,I,L,V,W,Y}I{A,H,T}A{G,P}G{D,E}E{N,Q,R,K,S}K任意给定的蛋白质序列,用相应的代表字母替换每个氨基酸残基,那么蛋白质序列就被转化为一条5-字母序列。问题简化并有意义(反映物理化学性质和相互作用)human(AP_000649,603aa)1mtmhttmttltltslip
2、pilttlvnpnkknsyphyvksivastfiislfpttmfmcldqe61viisnwhwattqttqlslsfkldyfsmmfipvalfvtwsimefslwymnsdpninqffky121lliflitmlilvtannlfqlfigwegvgimsflliswwyaradantaaiqailynrigdi181gfilalawfilhsnswdpqqmallnanpsltpllglllaaagksaqlglhpwlpsamegp241tpvsallhsstmvvagifllirfhplaenspliqtltlclgaittlfaavcaltqndik
3、k301ivafstssqlglmmvtiginqphlaflhicthaffkamlfmcsgsiihnlnneqdirkmg361gllktmpltstsltigslalagmpfltgfyskdhiietanmsytnawalsitliatslts421aystrmilltltgqprfptltninennptllnpikrlaagslfagflitnnispaspfqt481tiplylkltalavtflglltaldlnyltnklkmksplctfyfsnmlgfypsithrtipyl541glltsqnlplllldltwlekllpktisqhqistsiit
4、stqkgmiklyflsfffpliltll601lit(II)马尔科夫模型马尔可夫模型,因安德烈·马尔可夫得名,是利用某一变量的现在状态和动向去预测该变量未来的状态及其动向,为决策提供依据的一种分析技巧(或称分析方法).马尔可夫过程是一个无后效性的随机过程,即£时刻所处状态的概率只和t一1时刻的状态有关,而与t一1时刻之前的状态无关.马尔可夫过程中的时间和状态可以是连续的,也可以是离散的,称时间离散、状态离散的马尔可夫过程为马尔可夫.马尔可夫链是一种有效的概率模型.作为一种信号统计模型,马尔可夫模型已被广泛地应用到语音识别、计算机视觉、计算分子生物学和生物信息学等领域.该模型
5、之所以在各个领域得到广泛应用,这主要是由于(1)它的数学结构非常丰富,适用于各个研究领域的理论;(2)在很多重要领域,它的结果和实际符合的相当好.(III)模型的参数估计和假设检验最大似然估计、矩法估计等估计方法能够准确判断将马尔科夫模型(Markovchainmodels)运用到蛋白质序列的分析研究工作中的可行性与可信性;只有得到了较好的估计检验结果、问题才有继续实施的必要,当然,也看到了一些学位论文中有关问题的可行性结果。(IV)转移概率矩阵(5×5)在条件概率p(=j
6、=i)中,=J表示在n时刻系统(或过程)处于状态J,故条件概率p(=j
7、=i)表示系统在时刻n一1处于状态
8、i条件下,在时刻n系统转移到状态J的概率,称此条件概率为马氏链的转移概率,记为.一般地,转移概率构成的转移概率矩阵如图(IV)转移概率矩阵(5×5)5×5型的转移概率矩阵转移概率矩阵的研究意义:马尔可夫模型的统计特性主要反映在转移概率上.因此,可以利用转移概率来分析生物序列和结构.(V)转移概率矩阵的柱状图运用Matlab编写程序,要求做到在同一幅图中描绘出9个物种五大类氨基酸(由5类字符表示)的含量差别得出五大类氨基酸在物种差别性表现中的重要性程度(VI)提取数值特征根据马尔科夫模型得到的转移概率矩阵,可借助矩阵范数等数学工具作为数学不变量,用来刻画5-字母序列(VII)九物种
9、相似性分析物种的相似性结果分析一般可以通过描绘相似性矩阵来进行,根据矩阵中对应元素值的大小分析两物种的相似性程度这一步的结果直接说明了本模型选取的可行性,希望我们可以得到突破性成果!谢谢!!!