欢迎来到天天文库
浏览记录
ID:36877746
大小:7.55 MB
页数:125页
时间:2019-05-10
《《数据库的搜索》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据库的搜索——BLAST工具的应用曹毅生命科学学院生物序列的相似性相似性(similarity):是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。当然可进行自身局部比较。生物序列的同源性同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高
2、的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。相似性和同源性关系序列相似性比较和序列同源性分析序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列
3、同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;序列对位排列(sequencealignment)将两条或多条序列对位排列,突出相似的结构区域序列1序列2用核苷酸或蛋白质序列进行数据库检索(Sequence-baseddatabasesearching)两条DNA序列对位排列分析两条蛋白质序列对位排列分析分析功能分析物种进化检测突变、插入或缺失序列延长序列定位基因表达谱分析用途序列对位排列分析的种类序列对库对位排列分析从数据库中寻找同源序列主要涉及核苷
4、酸数据库和蛋白质数据库两序列对位排列分析多序列对位排列分析最流行的序列数据库快速搜索程序BLASTFastA何为BLAST?——What为何BLAST?——Why何处BLAST?——Where如何BLAST?——How何时BLAST?——WhenBLAST何为BLAST?原文:BasicLocalAlignmentSearchTool直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库用法:以一个或几个蛋白质或核酸序列为检测序列,搜索蛋白质或核酸序列数据库,寻找与检测序列中一个或多个
5、片段具有较高相似性的一组序列,为何BLAST??使用方便、功能齐全速度快、结果可信NCBI精心维护、持续开发配套数据库不断更新免费服务(NCBI、EBI、TIGR)免费下载,本地安装何处BLASTNCBI-NationalCenterforBiotechnologyInformation(US)EBI-EuropeanBioinfromaticsInstitute(EU)TIGR-TheGenomeInstitute(US)Sanger-SangerInstitute(UK)UK-CropNet-TheUKCropPlantBioinformatic
6、sNetwork(UK)WU-BLAST-WashingtonUniversity(US)BLAST的搜索策略意译:基于局部序列排比的常用数据库搜索工具用法:以一个或几个蛋白质或核酸序列为检测序列,搜索蛋白质或核酸序列数据库,寻找与检测序列中一个或多个片段具有较高相似性的一组序列,复习:二进位制与十进位制的转换(101.101)2=1×22+0×21+1×20+1×2-1+0×2-2+1×2-30.BLAST的操作流程——How(1)Choosethesequence(query)(2)SelecttheBLASTprogram(3)Chooseth
7、edatabasetosearch(4)ChooseoptionalparametersThenclick“BLAST”NP_006735Step1:Chooseyoursequence三种主要的输入方式:剪切然后粘贴DNA或蛋白质序列使用FASTA格式的序列简单地使用索引号码(如一个RefSeq或GenBank(GI)的序号)。SequencecanbeinputinFASTAformatorasaccessionnumberExampleoftheFASTAformatforaBLASTquery一个FASTA格式的序列以一个单行的说明开始,接下
8、来是若干个行的序列数据。在一个BLAST搜索中输入accessionnumber通常要容易些。BLAST程序
此文档下载收益归作者所有