欢迎来到天天文库
浏览记录
ID:51098639
大小:53.00 KB
页数:12页
时间:2020-03-18
《构建系统进化树的详细步骤.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、构建系统进化树的详细步骤1.建树前的准备工作1.1相似序列的获得——BLASTBLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意矚慫润厲钐瘗睞枥庑赖賃軔朧。为“基本局部相似性比对搜索工具”(Altschuletal.,1990[62];1997[63])。国际著名生物信息中心聞創沟燴鐺險爱氇谴净祸測樅。都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCB
2、I、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotideBLAST(blastn)-在Search文本框中粘贴检测序列-点击BL
3、AST!-点击Format-得到resultofBLAST。残骛楼諍锩瀨濟溆塹籟婭骒東。BLASTN结果如何分析(参数意义):>gi
4、28171832
5、gb
6、AY155203.1
7、Nocardiasp.ATCC4987216SribosomalRNAgene,complete酽锕极額閉镇桧猪訣锥顧荭钯。sequenceScore=2020bits(1019),Expect=0.012/12Identities=1382/1497(92%),Gaps=8/1497(0%)Strand=Plus/Plus彈贸摄尔霁毙攬砖卤庑诒尔肤。Query:1gacgaacgctggcggcgtgcttaaca
8、catgcaagtcgagcggaaaggccctttcgggggt60謀荞抟箧飆鐸怼类蒋薔點鉍杂。
9、
10、
11、
12、
13、
14、
15、
16、
17、
18、
19、
20、
21、
22、
23、
24、
25、
26、
27、
28、
29、
30、
31、
32、
33、
34、
35、
36、
37、
38、
39、
40、
41、
42、
43、
44、
45、
46、
47、
48、
49、
50、
51、
52、
53、
54、
55、
56、
57、
58、
59、
60、
61、
62、
63、
64、Sbjct:1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt58厦礴恳蹒骈時盡继價骚卺癩龔。Query:61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc120茕桢广鳓鯡选块网羈泪镀齐鈞。
65、
66、
67、
68、
69、
70、
71、
72、
73、
74、
75、
76、
77、
78、
79、
80、
81、
82、
83、
84、
85、
86、
87、
88、
89、
90、
91、
92、
93、
94、
95、
96、
97、
98、
99、
100、
101、
102、
103、
104、
105、
106、
107、
108、
109、
110、
111、
112、
113、
114、
115、
116、
117、
118、Sbjct:59acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc118鹅娅尽損鹌惨歷茏鴛賴縈诘聾。Score:指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,籟丛妈羥为贍偾蛏练淨槠挞曉。就比对很好了,多数情况下为0;Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同;Gaps:一般翻译成空位,指的是对不上的
119、碱基数目;Strand:链的方向,Plus/Minus意味着提交的序列和参比序列是反向互补的,如果是Plus/預頌圣鉉儐歲龈讶骅籴買闥龅。Plus则二者皆为正向。1.2序列格式:FASTA格式由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“>”开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:12/12>E.coli1aaattgaagagtttgatcatggctcagat
120、tgaacgctggcggcaggcctaacacatgcaa渗釤呛俨匀谔鱉调硯錦鋇絨钞。61gtcgaacggtaacaggaagaagcttgcttctttgctgacgagtggcggac……铙誅卧泻噦圣骋贶頂廡缝勵罴。>AY631071JiangellagansuensisYIM0021gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctt
此文档下载收益归作者所有