欢迎来到天天文库
浏览记录
ID:5855069
大小:2.71 MB
页数:64页
时间:2017-12-14
《生物信息学第三章:序列比对》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、生物信息学第三章序列比对为什么要序列比对?寻找进化过程中的同源序列;基于同源物鉴定的功能预测;基本假设:序列的保守性功能的保守性注意:1.蛋白质一般在三级结构的层面上执行功能;2.蛋白质序列的保守性决定于其编码DNA的保守性;通常本章内容提要第一节:数学基础:概率及概率模型第二节:双序列比对算法的介绍Dotmatrix动态规划算法(Needleman-Wunsch,Smith-Waterman算法)FASTA和BLAST算法第三节:打分矩阵及其含义第四节:多序列比对第一节序列比对的数学基础排列组合从N个物品中取
2、出k个物品的排列数:从N个物品中取出k个物品的组合数:概率模型概率模型:一个能够通过不同的概率产生不同结果的模型。概率模型可以模拟或者仿真某一类型的所有事件,并且对每个事件赋予一个概率。色子模型:一个色子存在6个概率值:p1,p2,…,p6,其中,掷出i的概率为pi(i=1,2,…,6)。因此:pi≥0,且考虑三次连续的掷色子,结果为[1,6,3],则总概率为:p1p6p3概率分布考虑连续变量x,例如:物体的重量。则当重量确切为1公斤时的概率,为0。变量的区间:P(x0≤x≤x1)当区间无限小->0时,上式:P
3、(x-δx/2≤x≤x+δx/2)=f(x)δxf(x)称为概率密度函数因此:且二项分布1.事件只有两种可能出现的结果。例如掷硬币,正面记为“1”,反面记为“0”。2.则掷硬币N次,有k次是1的概率为:二项分布的期望值与标准方差期望值E(x)=μ方差VarX=σ2泊松分布(Poissondistribution)1.稀有事件发生的概率:在一个连续的时间或空间中,稀有离散变量出现的概率2.N->∞,E(x)=μe=2.71828…泊松分布与二项分布的近似对于大的N及小的p值的二项分布,能够相当准确地用一个参数为μ
4、=Np的泊松分布近似。当实验次数很多而概率很小时:二项分布~泊松分布例1:鸟枪法的覆盖率假设:需要测序的BAC长度200kbp;总共测序的序列数量:N;每次测序:500bp;每次测序的覆盖率p:500/200kbp=0.0025因此:每个点平均覆盖到的次数:μ=N*pk:测序能够覆盖到点X的次数。鸟枪法:覆盖率点X被覆盖k次的概率:(二项分布~泊松分布)当点X一次都不被覆盖时,k=0;此时的概率为:覆盖率vs.准确性例2:泊松分布Prof.Gene发现一种序列上的调控信号,在人的基因组上平均每500kbp一个。
5、那么,随机给一条1mbp的序列,在上面发现5个这样的信号,完全是随机产生的概率是多少?本例中,E(x)=μ=2(1mbp/500kbp)统计显著性:p-value<0.05超几何分布与二项式分布的区别:不放回抽样。例:有N个球,其中红球M个,白球N-M个,每次拿出一个球再放回,总共n次,其中有m个球是红球的概率为(二项式分布):p=M/N超几何分布(2)上例改为:有N个球,其中红球M个,白球N-M个,每次拿出一个球不放回,总共n次,其中有m个球是红球的概率为:并且,0≤m≤M6、N个球,其中红球M个,白球N-M个,每次拿出一个球不放回,总共n次,其中至少有m个球是红球的概率为:并且,0≤m≤M7、放的饮料牛奶a=3b=1a+b=4茶c=1d=3c+d=4合计a+c=4b+d=4n=8Fisher'sExactTest计算公式:=统计显著性假设检验中的P值(Pvalue)Pvalue:一种在原假设为真的前提下出现观察样本以及更极端情况的概率。显著性水平A:认为预先设定的显著性水平阈值,P8、e计算:P(a=39、a+b=c+d=a+c=b+d=4)=0.229P(a=410、a+b=c+d=a+c=b+d=4)=0.014例3:超几何分布Prof.Gene从人的26873个蛋白质中预测了2264个能结合某类金属离子X。现已知,人的26873个蛋白质中有421个蛋白质具有某种功能结构域D,而在预测的2264个X金属蛋白中,有94个具有结构域D。问:结构域D在2264个X金属蛋白中
6、N个球,其中红球M个,白球N-M个,每次拿出一个球不放回,总共n次,其中至少有m个球是红球的概率为:并且,0≤m≤M7、放的饮料牛奶a=3b=1a+b=4茶c=1d=3c+d=4合计a+c=4b+d=4n=8Fisher'sExactTest计算公式:=统计显著性假设检验中的P值(Pvalue)Pvalue:一种在原假设为真的前提下出现观察样本以及更极端情况的概率。显著性水平A:认为预先设定的显著性水平阈值,P8、e计算:P(a=39、a+b=c+d=a+c=b+d=4)=0.229P(a=410、a+b=c+d=a+c=b+d=4)=0.014例3:超几何分布Prof.Gene从人的26873个蛋白质中预测了2264个能结合某类金属离子X。现已知,人的26873个蛋白质中有421个蛋白质具有某种功能结构域D,而在预测的2264个X金属蛋白中,有94个具有结构域D。问:结构域D在2264个X金属蛋白中
7、放的饮料牛奶a=3b=1a+b=4茶c=1d=3c+d=4合计a+c=4b+d=4n=8Fisher'sExactTest计算公式:=统计显著性假设检验中的P值(Pvalue)Pvalue:一种在原假设为真的前提下出现观察样本以及更极端情况的概率。显著性水平A:认为预先设定的显著性水平阈值,P8、e计算:P(a=39、a+b=c+d=a+c=b+d=4)=0.229P(a=410、a+b=c+d=a+c=b+d=4)=0.014例3:超几何分布Prof.Gene从人的26873个蛋白质中预测了2264个能结合某类金属离子X。现已知,人的26873个蛋白质中有421个蛋白质具有某种功能结构域D,而在预测的2264个X金属蛋白中,有94个具有结构域D。问:结构域D在2264个X金属蛋白中
8、e计算:P(a=3
9、a+b=c+d=a+c=b+d=4)=0.229P(a=4
10、a+b=c+d=a+c=b+d=4)=0.014例3:超几何分布Prof.Gene从人的26873个蛋白质中预测了2264个能结合某类金属离子X。现已知,人的26873个蛋白质中有421个蛋白质具有某种功能结构域D,而在预测的2264个X金属蛋白中,有94个具有结构域D。问:结构域D在2264个X金属蛋白中
此文档下载收益归作者所有