生物信息学 考试整理.doc

生物信息学 考试整理.doc

ID:56277332

大小:27.00 KB

页数:2页

时间:2020-06-05

生物信息学 考试整理.doc_第1页
生物信息学 考试整理.doc_第2页
资源描述:

《生物信息学 考试整理.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Primarydatabase:数据直接来源于实验获得的原始数据,只是经过简单的归类、整理和注释Seconddatabase:由一级数据衍生而来,是对生物学知识和信息的进一步整理Genbank:一个来源于有7万种生物的核苷酸序列数据库Swiss-prot:经过注释的蛋白质序列数据库,提供序列查找以及相似蛋白质序列搜索SRS:序列搜索系统,是一种数据库搜索工具,它开放源代码软件,可以在本地计算机网络中安装和运行Entrez:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库、使用方便、能够进行交叉检索等特点Bioinfo

2、rmatics:生物与信息技术的结合,其特征是:多科学交叉、以互联网为媒介、数据库为载体。利用数学知识建立各种数学模型;利用计算机为工具对实验数据进行分析处理;利用生物学知识对结果进行解释Genomics:研究基因组合如何利用基因的一门学科。该学科提供基因组信息,以及相关数据库系统利用,试图解决生物、医学、工业领域的重大问题Proteomics:这一词起源于蛋白质和基因组学这两个词的组合。指一种基因组所表达的全套蛋白质。即,包括一种细胞乃至一种生物所表达的全部蛋白质重复序列:真核生物基因组中具有的多数反复存在的DNA序列组成密码子偏好:密码子

3、的使用频率并不是完全随机的,而是有一定的偏好性,即有的密码子比起其他同义密码子来说使用频率更高,序列记录的三种格式,以及格式的特征FASTA序列格式第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“

4、”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。NBIR/PIR序列格式第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来

5、是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。GDE序列格式:与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。(1)比对工具,(score,e-value代表意义)、(比对结果看什么):BLAST、FASTABLAST:它是一种基于局部比对的搜索工具,每个比对的显著性以“P值”“E值”衡量。E值:评估相似性,是绝对的,越低越好;E值适合有一定长度,而且复杂度不能太低的序列;当E值小于10-4时:表明两序列有较高的同源性,而不是因为计算错误;当E值小于10-6时,表明两序列的同源性非常高,几乎没有必

6、要在做确认;比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。ØP值:p值表示比对结果得到的分数值的可信度。P-0表示越显著结果越可信;P-&结果随机产生的可能性越大,低P值表明重要的匹配,这些匹配可能会有生物学意义ØScore:衡量匹配结果的质量,是相对的(与选取的计分依据有关),越高越好FASTA:是一种数据库相似搜索,可在线或者下载利用,速度快、灵敏度高基因查找(哪些信息可以用来定位基因)①查找重复序列(一般不编码序列,避免对基因定位的干扰)②同源性比对③根据基因的结构特征找ORF、TATA框/CAAT框等,找到基

7、因④鉴定看是不是基因记分矩阵(PAM、BLOSUM),(什么时候使用P、什么时候用B说出道理)PAM:点可接受突变记分矩阵1PAM=1%突变PAM基于全局比对1PAM:一个进化单位在残基发生突变的概率,即在100个AA中可接受突变的个数是1(AA:残基间相似程度)PAM100%:可接受突变的次数是100次,有些位点可以发生多次突变,有些可以不发生突变,不同的PAM值反映了进化距离的不同PAM250突变80%,相似性20%;PAM120:突变66%,相似性34%;PAM90:突变50%,相似性50%PAM250:20%水平上反映出2个序列之间的

8、相似性(或者20%相同序列之间的比较);PAM后面的参数越大,相似性越低;PAM60:用于比对相距60个PAM单位的序列PAM计分值相关性几率:>0替代可能性大;=0随机替代;<0替代可能性小BLOSUM:模块替代矩阵,基于局部比对的替代矩阵基于局部比对①每个单元值都可以计算;②参数越大相似性越高;③BLOSUM62最常用;BLOSUM50所代表的进化距离要比BLOSUM62要长BLOSUM80%:用来比较80%相似度的序列。blast序列查找:同源序列(直系同源、旁系同源)同源序列(homologoussequence):在同一物种不同个体

9、间或不同物种间相同或相似的DNA序列直系同源(orthology):在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因;旁系同源(Paralogs):

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。