资源描述:
《长足寄蝇生物信息综合数据库的搭建》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、长足寄蝇生物信息综合数据库的搭建 0引言 现今生物信息技术尤其是在昆虫学领域,迫切需要将生物学基础研究全过程的信息通过计算机技术和手段进行综合存储,同时将生物形态学与分子生物学数据结合起来,根据研究领域的特点和科研成果交流需要,实现信息交流与共享、多格式信息存储、生物信息决策与KDD应用等方面信息. 1设计背景 本文以中国长足寄蝇亚科的系统分类研究的需求为出发点,以全面合理的存储寄蝇数据、提升现有寄蝇研究成果和数据共享性为目的,力求实现通过计算机手段对国内外寄蝇研究的现有成果进行总结与分类,实现寄蝇信息的高效管理等而搭建
2、长足寄蝇生物信息综合数据库. 相比较常见的单一数据库模式,该系统的数据仓库由关系数据库和多维数据库共同组建.数据展现平台用Java基于MVC设计模式实现,并将该平台分为OLAP相结合,即混合模式HOLAP.数据检索方面,针对唯一索引、主键索引和聚集索引3种任取其一均不能满足生物系统海量信息检索的复杂性和高效行,在该系统中采取了唯一索引、主键索引及聚集索引相结合的方式. 2数据存储与检索 系统模型是统一业务系统的核心,模型设计的好坏直接关系到系统建设的成败.在建模时需要将寄蝇亚科研究的现有成果进行存储,并对其进行全面总结、分
3、类和分析. 2.1元数据设计 系统形态学、分子生物学、物种形态信息标准、分类研究历史和生物综合防治和科学考察全过程信息采集等信息按照生物信息化元数据标准建设.包括生物本体53类元数据信息,共515个元数据属性.寄蝇科、亚科、族、属、种的基本研究成果和分类检索成果、物种基本信息和研究历史.包括:模式标本,鉴定和订正已知种、发现和记述新种、新纪录种外部形态、绘制头部与外生殖器结构特征图;补充未记载雌性或雄性标本. 27种形态分类描述属性、分子生物学研究的成果和实验过程.包括:DNA、引物PCR反应图片、测序线粒体COI和28S
4、rRNA基因片断成果与数据、同源分析比对和分子系统树成果等.检视标本采集过程信息、标本管理信息、保存和储存状态和标本分类研究信息和生物形态/生境信息.系统形态分类研究.包括:板图、头胸、腹尾器.其他信息包括寄蝇进化、生态利用和害虫生物控制依据和解决对策、生境特征、科学考察信息、生物地理、自然地理情况(经纬度、行政区位置、海拔、自然区划、地貌、国内/外分布)和研究程度和研究文献等基础生物本体信息. 2.2信息存储类型 信息存储类型有简单文本属性信息、板图图片、实验图片、科考图片、系统发育树研究成果信息对象、基因分子数据大对象格
5、式、统计与热点图形、自定义、共享格式数据、各类格式研究与交流文档对象等. 生物信息化数据库建库、元数据与采集标准建立.包括中国寄蝇科寄蝇信息数据库元数据标准和生物信息数据采集工作标准与指导方法及野外科学考察研究描述信息. 2.3数据设计与挖掘 系统一共包括53个表,包括5种信息、族属代码、人员权限、公共代码等相关表格.图1所示是族属E-R图,该模型主要描述了物种的分族、分属情况,以及其国内外分布情况. 图2所示是物种信息E-R图,该模型以物种无主题,主要描述了和物种信息有关的地域、地貌、生物地理分布等有关信息. 3
6、数据挖掘 数据挖掘是指从大量数据中提示出隐藏的、未知的事物的特性或是规律,根据这些规律制定出合适的算法,然后根据算法进行数据的检索.数据挖掘的功能主要是描述和预测2方面,包括概念描述、关联、分类、聚类、演变分析等.以上功能也是现今应用于生物信息数据挖掘的几个主要方面.本系统建设中主要应用聚类、分类和关联分析算法. 3.1聚类分析 本系统使用聚类的目标是:通过聚类分析实现寄蝇分类,进而推断出系统发育树.根据实际情况和需求,因为寄蝇亚科各族属种之间的进化关系本身就是模糊的,相较于划分法、层次法等传统聚类非此即彼的硬划分,模糊聚
7、类的软划分显然更适用寄蝇信息数据库.系统聚类的实现决定采用基于模糊等价关系建立系统发育树,从而实现对寄蝇实体族属种等的分类,通过建立系统发育树一目了然的展现分类效果. 1)动态聚类方法的流程(如图3所示).通过对比发现,系统聚类是一次形成分类结果,对分类方法的要求很高,相应的计算量也很大.理所当然的,该系统选用动态聚类方法. 2)模糊等价关系的采用.从数学上讲,一个确切的分类通常是由一个明确的等价关系确定.类似的,一个模糊的分类,也可以利用一个模糊的等价关系实现. 3)基于模糊等价关系的动态聚类的优化.通过优化、动态聚
8、类过程、获取样本向量和构造模糊相似矩阵,建立模糊等价关系矩阵,最后对模糊等价关系矩阵执行动态聚类的算法,得出最后分类,聚类过程结束.依据得出的分类,即可以推断出系统发育树.实践证明,基于模糊等价关系的动态聚类建立的系统发育树是值得信赖的. 3.2分类分析 分