欢迎来到天天文库
浏览记录
ID:21868066
大小:52.00 KB
页数:5页
时间:2018-10-25
《基于本体的分布式生物数据集成》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于本体的分布式生物数据集成:本体具有很强的语义表达能力,这为方便分布式异构生物数据集成提供了语义表达的基础。本文给出了一种基于混合本体的生物数据集成方法,通过构建局部本体、全局本体,建立本体与本体、本体与数据库之间的映射,整合异构生物数据库。 关键词:生物数据集成 本体 各生物信息机构都不同程度的构建了生物信息系统,但由于生物信息系统建设的阶段性、技术性和一些人为的因素,导致相同的数据以不同的方式建模,在不同的软硬件下运行,形成了不同程度的异构,使得相互联系的系统之间不能交换和共享信息。信息集成技术就是为实现各个数据源之间信息的交流和共享而发展起来的,目标是屏
2、蔽各底层数据源的异构性,提供给用户一个统一的数据视图,使用户和应用能够在单一的视图下完成多数据源的数据查询和使用工作,最终实现信息的共享。 生物信息系统的异构一般分为四种类型[1]:结构异构、语法异构、系统异构和语义异构。已经有许多技术被开发用来解决不同类型的异构问题,如CORBA、D、联邦数据库及虚拟数据库等技术和方法的使用。尤其是XML作为公共的语言标准被广泛使用后,由于它所具有的通用的语法格式,使得数据源之间能够采用统一的数据模型交换信息,有效的解决了数据集成中数据交换的问题,但语义异构的问题仍未有效解决。 目前已经有许多基于本体的生物数据语义集成方法被提出。文献[2]提
3、出用映射表来描述全局本体和局部本体中同等概念的映射关系,但它只能描述简单的一对一对应关系,对于需要转换后再关联的映射却无能为力。文献[3]提出用本体描述语言来描述全局本体和局部本体的映射,通过加入公理来解决需要转换的相同概念之间的映射,但这样加大了全局本体形成和维护的难度。本文针对生物数据的特征,给出了一种基于混合本体的数据集成方法,提出在全局本体和局部本体的映射中加入属性转换来解决语义冲突问题,达到了理想的效果,并且具有较好的可维护性和可扩展性。 本体最早是一个哲学概念,是对客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工智能领域被普遍接受的是Studer所作
4、出的定义“本体是共享概念模型的明确形式化规范说明”[4]。 本体用于数据集成系统的主要意义在于,它使本体作为一个中介或代理,让大量的异构的底层数据源对用户来说是透明的。即用户可以不知道数据源的结构,仅提交一个针对本体的查询,系统基于语义定义和映射关系,可以自动地将针对本体的查询重写为针对数据源的查询。这样,用户就可以仅仅提出需要什么数据,而不需要指出如何去发现数据。 在基于本体的生物数据集成的方法中,目前存在3种方法,即单本体方法、多本体方法和混合本体的方法[5]。 由于生物数据的异构性、多样性等特征,本系统使用混合本体的方法来完成多数据库的集成。其基本思想如下:通过生物数据
5、库定义局部本体,映射数据库中的表和属性到本体中;通过本体与本体之间的映射,实现多数据库之间的交互;根据局部本体定义全局本体,为所有的本体提供一个统一的映射源,并为用户提供统一的访问方式。 本系统的关键在于构建本体和建立本体之间以及本体与数据库的映射。其中,本体的构建过程如下: 1)根据数据库定义局部本体。主要考虑局部本体中的表以、属性(表的列)、属性值(表中每一行的具体列值)来构建本体。由于生物学本体相对比较成熟,而且很多生物学数据库都是依据某一个本体或词汇表构建,所以,构建局部本体的过程可以参考具体的生物学本体。 2)通过局部本体构建全局本体。由于局部本体所使用的生物学本体
6、或词汇表各不相同,所以,需要集中所有的局部本体,考虑局部本体之间词汇的关系,来建立全局本体。 由于生物本体数据之间的关系相对简单,主要使用本体中的“is-a”关系,考虑本系统的目标主要是完成分布式数据的查询,所以本系统中本体的关系仅仅使用“is-a”关系。 本系统中本体的映射包括全局本体与局部本体的映射以及局部本体和数据库之间的映射,其中,全局本体和局部本体之间的映射主要使用目前比较成熟的本体匹配算法。下面主要介绍建立局部本体和数据库之间的映射。 1)通过建立属性与局部本体的映射建立数据库和局部本体的映射 如图1所示,它表示数据库表的属性和局部本体的映射关系。例如:sp和O
7、rganism映射,表示spis-aOrganism,同时,sp是所有Organism父类的实例。 2)通过建立表名与本体的映射建立数据库和局部本体的映射 使用和上面相似的方法,实现表名和本体的映射。如图2所示,它表示数据库表名和本体的映射关系。由于表所表示的内容可能无法用一个本体概念进行描述,所以,表名通常会映射到多个本体概念中。例如:ename同时和Mouse及Enzyme映射,表示enameis-aMouse,同时enameis-aEnzyme。 通过构建
此文档下载收益归作者所有