欢迎来到天天文库
浏览记录
ID:29617483
大小:2.35 MB
页数:19页
时间:2018-12-21
《fasta序列查询方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、1.FASTA序列查询及含义登录NCBI官方网站(http://www.ncbi.nlm.nih.gov/)[NationalCenterforBiotechnologyInformation]用NCBI查找到你所需要的序列(核酸、蛋白质),如下图所示图中有你所搜索的基因的名称、来源物种、长度、发现方式、发现年份、编号和描述点击FASTA,得到FASTA序列FASTA格式是指序列文件的第一行是由大于符号打头,之后跟随文字说明,第二行是序列本身,使用标准的核苷酸或蛋白质单字母符号,每行通常为60个字符(不超过80个字符)。对于核酸序列,除了为大
2、家所熟知的A、G、C、T、U外,R代表C或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱)B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。1.编码的氨基酸序列在核酸序列界面的右下角有Protein选项,点击后即可进入氨基酸序列得到的序列依然是使用FASTA格式的。1.蛋白质功能域在蛋白质FASTA格式界面点击RUNBLAST,相当于BlASTp,能与蛋白质数据库进行比对,得到其功能域结果1.在基因组上的位置在核酸FA
3、STA格式界面上,在其右下角的Relatedinformation一栏中点击mapviewer,即可得到该基因在基因组上的位置。上图所示,即为该基因在基因组中的定位(小鼠CD40基因位于二号染色体165,053,700-165,073,600bp处)1.ORF(开放度码框)ORFFinder是指基因的开放度码框进入http://www.ncbi.nlm.nih.gov/gorf/gorf.html将FASTA格式文本添加到序列区或者直接输入该基因的编码1.GpC岛的预测GpC岛是指基因组中富含双碱基的序列。进入http://www.ebi.a
4、c.uk/Tools/seqstats/右侧Cpgplot(EMBOSS)一栏中选择LaunchCpgplot选项。将FASTA格式文本加到序列区或直接导入该基因文本。点击左下角的Submit选项。1.转录终止信号预测(polyA)polyA是基因转录的末端。进入http://linux1.softberry.com/berry.phtml?topic=polyah&group=programs&subgroup=promoter将FASTA格式文本加到序列区或直接导入该基因文本。1.启动子序列进入http://www-bimas.cit.n
5、ih.gov/molbio/proscan/将FASTA格式文本加到序列区。1.基因功能进入http://www.uniprot.org/Uniprot中查找你所要寻找的基因找到你所做的物种的那一项,比如本篇中就是mouse点击你所要查找的物种该蛋白的名称,得到图中的结果,即能得到基因功能结果在图中继续向下拉滚动条,能找到亚细胞定位在Ontologies栏目最下方有GO分类链接能得到具体的GO分类信息1.进化树分析进化树我用的是MEGA5,网页那个没有听。MEGA5,可以到官网下载,这已是最新的5.22版本。http://pan.baidu.
6、com/s/1uwfCZ操作过程如下(1)检索数据库,如下图(2)检索数据库时会在软件中进入NCBI中,查找你所做的基因(3)接下来是添加基因,好像只能一个一个地添加,点击进入,得到genebank结果(4)接下来就可以直接添加序列信息了,如下图中,在右上角的添加按钮,点击就可以直接把序列信息添加到MEGA5中进行操作(5)依次添加多个序列。然后点击最上边的序列,按住Shift在点击最下边的序列,选定全部序列(6)导出序列,以便下一步构建进化树,导出为MEGA格式吧,其他的没有时间尝试(7)导出完成后在你所导出的目录下会有一个MEGA格式的文
7、件,在MEGA5主目录中用上述导出的文件构建进化树。(8)选择你的文件然后点击下图中的Compute,等待几秒钟,进化树就构建成功了1.蛋白质相互作用http://string-db.org/搜索基因,例如CD40选择你所对应的物种,点击Continue然后蛋白质相互作用的关系就能得到了,点击对应的蛋白还能得到详细的信息1.可变剪切http://wangcomputing.com/assp/index.html把序列粘贴到对应位置,点击Submit即可得到可变剪接的分析结果
此文档下载收益归作者所有