欢迎来到天天文库
浏览记录
ID:56277319
大小:23.50 KB
页数:1页
时间:2020-06-05
《生物信息学中的e-value和z-scores.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、生物信息学中的e-value和z-scores发信站:日月光华(2005年05月11日13:20:31星期三),站内信件blast里面的话e-value和z-score都是和序列匹配的显著程度有关的,核酸序列和蛋白序列都适用。你用blast搜索数据库,在每一对query和hit序列都会有一个e-value和一个z-score。E=-ln(1-p)其中的p表示你的query序列和目的序列匹配是由于随机造成的概率,也就是假阳性概率p的范围在0-1之间所以E的范围是0到正无穷假如一条很短的序列ATGG它匹配了另一条序列ACGG那么这两条序列的p值应该是(1/4)^3*(3/4)
2、=0.01171875E=-ln(1-p)=0.011787956(不知道计算有没有失误....)不过原理就是这样的因此e-value越小则序列匹配得越好z-score统计学上的意义是某变量与均值的偏差再除以方差,越大的话可能性越小与一些数据库的参数有关还有normalization的过程复杂我不写了总之,e-value和z-score是衡量序列相似性的指标,e越小,z越大,则两序列越相似evalue一般越小越好,也取决于你对数据的要求,一般0.01以上的是肯定不可信的。
此文档下载收益归作者所有