欢迎来到天天文库
浏览记录
ID:39131950
大小:3.30 MB
页数:71页
时间:2019-06-25
《《计算机基础》课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、王禄山计算机应用生物信息数据库与生物信息中心授课大纲生命信息学——生命科学与计算机技术的交叉。生物信息学的研究内容:(1)生物信息中心(2)生物信息数据库及格式。生物信息数据的检索工具——Entrez文献的检索与管理软件——Referencemanager序列同源搜索分析工具——Blast核酸、蛋白质序列比对分析软件——DSgeneDNASIS生物大分子空间三维结构显示与分析软件——Rasmol生物图像对比分析软件——ScionImage(NIHimage)生物科学数据处理软件——Origin重要生物信息中心重要生物信息数据库数据库检索工具生物分析相关软件生物信息研究内容一、重要生物信
2、息中心BioinformaticsCentresNCBINationalCenterforBiotechnologyInformation(US)www.ncbi.nlm.nih.govEBIEuropeanBioinformaticsInstitute(EU)www.ebi.ac.ukDDBJDNADataBankofJapan(JP)www.ddbj.nig.ac.jpExPASyExpertofProteinAnalysisSystem(Switzerland)www.expasy.chPDBProteinDataBank(US)www.rcsb.org/pdb/CBIPKU北京大
3、学生物信息中心(CN)www.cbi.pku.edu.cn/chinese/BioSino中国生物信息中心(CN)www.biosino.orgNCBI:http://www.ncbi.nlm.nih.govhttp://www.cbi.pku.edu.cn/chinese/http://www.biosino.org/二、重要生物信息数据库生物信息学数据的表示形式生物信息学数据的表示形式平面文件(flat-file)信息在文件中顺序存放且具有特定格式记录(Entry)通过“获得号”(accession#)唯一确定同一文件间和不同文件间信息的联系均通过accession#实现关系数据库
4、(relationalDB)基于实体联系模型(E-R模型)表中的记录(record/tuple)键唯一确定表之间通过外键建立联系信息表示:关系数据库semanticmappingAttributesRelations查询语义映射和处理过程结果语义匹配生物信息学数据存在的问题信息源分布在世界各地不同的站点上涉及多个数据源的全局问题无法立刻得到答案PainfullycollectingunstructuredinformationaroundthesitesManuallyputtingpiecestogetherHopefullygettingtherightpicture...总之,信息
5、源的特点是:自治的(autonomous)分布式的(distributed)异构的(heterogeneous)数据集成DataIntegration数据集成XMLXMLSiteASiteBDataIntegration生物信息学最重要的任务是从海量数据中提取新知识生物数据库的种类序列数据库核酸序列数据库(EMBL、GenBank、DDBJ)常用蛋白质序列数据库(Swissprot,PIR)结构数据库蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP、CATH)其它数据库生物数据库的种类序列数据库主要核酸序列数据库:GenBank、EMBL、DDBJ主要蛋白质序列数据库:Swisspr
6、ot,PIR美国的核酸数据库GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。核酸序列数据库核酸序列核酸序列是由4种核苷酸的单字母(ATGC)符号排成的序列。蛋白质序列数据库SWISS-PROT和PIR是国际上
7、二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像(mirror)站点。SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。PIR数据库的数据由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列。蛋白质序列MNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFI
此文档下载收益归作者所有