欢迎来到天天文库
浏览记录
ID:34158273
大小:832.05 KB
页数:49页
时间:2019-03-03
《网格环境下基于驱动的可扩展数据管理研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、华中科技大学硕士学位论文现整体无序的状态,大量的资源的利用率较低。而同时对于一些大型的科学计算任务,各高校靠自身的资源已经无法满足这些应用的需求,如何将各个高校和科研机构的各种资源联合起来共同完成大型的应用任务成为一个迫切的问题。为了解决上述问题,教育部在“十五”211工程公共服务体系建设中设立“中国教育科研网格ChinaGrid”[5-6]重大专项,使用网格技术来将CERNET上分散、异构、局部自治的巨大资源整合起来,通过有序管理和协同计算,消除信息孤岛,发挥综合效能,实现资源的广泛共享、有效聚合、充分释放,提供高效的计算服务
2、、数据服务和信息服务。中国教育科研网格公共支撑平台CGSP是ChinaGrid的网格核心中间件,在CGSP之上开发人员可以构建的网格应用,而无需关心底层的网格细节。它为教育和科研系统中的各种资源进行整合,屏蔽网络资源的异构性和动态性,为各种科学计算和工程研究提供高性能、高可靠、安全方便的透明网格服务,形成一套面向CERNET的公共网格服务体系。网格服务一般涉及到对数据文件的处理,大多数网格平台都有自己的数据空间来管理不同用户使用网格服务时所需要的数据资源。当提供数据服务作为网格平台的主要服务时,其数据管理空间往往具有强大的数据管
3、理功能,能够为不同介质的分布式的数据资源进行有效管理。CGSP也提供基于网格服务的数据管理功能,为基于CGSP的网格应用提供强大可靠的数据服务,本文针对CGSP数据管理模块的数据资源类型扩展性展开研究。1.2数据管理及其扩展性的意义1.2.1网格数据管理的特点和意义在CERNET中存在大量对密集数据要求高的应用任务,如遥感图像处理和共享、生物医学计算等;这些任务对于数据要求的特点:(1)数据量大。对存储资源容量要求大,需要可靠,合理,高扩展性的存储体系和存储机制,同时对于数据的备份和恢复也有相应的要求。(2)协同性强。多个科研机
4、构常常需要共享数据资源来完成复杂的科学任务,如何从地域分布的协作和处理,从数据源中获取到数据信息,这就需要高效的传输方式,远程访问方式和迁移机制。(3)存储资源虚拟化。应用不关心数据实际的存储位置以及存储形式,实际的存储资源可能是一个或多个存储系统构成的资源池组,用户只需要指定逻辑空间上的文件路径,就能够方便的访问数据。网格技术的目标是实现网络虚拟环境下高性能资源的共享和协同工作,以解决一致使用各种分2华中科技大学硕士学位论文散资源的问题。网格数据管理即数据网格提供广域环境下异构,分布式资源的数据存储资源管理,作为应用程序、用户
5、等同底层存储系统之间的中间件,对应用程序提供一致的管理和使用存储资源的接口,对用户屏蔽广域操作的复杂性和广域网络上存储系统的异构性,很好的满足了CERNET上应用对于数据的几点要求。[7]数据网格的标准化由GridForum的DataGroup制定和建立,该工作组定义DataGrid为:有效结合数据和计算资源的分布式系统。GridForum将网格分为七个方向:P2P、安全、调度、性能和信息服务、体系结构、数据管理、应用和编程模型,数据管理(datamanagement)已成为网格技术研究的热点和主要内容之一。网格数据管理具备以下
6、几个特征:1.异构性(Heterogeneity)。数据网格可以包含多种不同的数据资源。其构成的数据资源有多种类型,不同类型的数据源在体系结构、数据访问方式、数据传输方式已经应用程序接口存在较大的差异性;2.可扩展性(Scalability)。数据网格的规模往往会随着应用的需求而不断变化,从本地局域网系统的少量数据存储需求发展为跨越全国的大型数据网格系统。同时,由于系统的扩展,如何调配数据存储资源的加入和离开,解决的网络状况问题带来的性能问题成为重要的课题;3.自适应性(Adaptability)。在分布式的系统中,大量的数据和
7、存储资源,这些资源受到网络原因,硬件原因,外界条件的限制,发生故障的概率很大,由此引起的问题,需要网格数据管理很强的自适应性,对应用和用户屏蔽这些故障。[8]在由GGF制定的OGSAV1.0(OpenGridServiceArchitecture,Version1.0)对数据服务(DataServices)的要求有这样的描述:1.数据访问(dataaccess);容易和高效的访问不同类型的数据(如数据库,文件和数据流等),访问方式独立于数据的物理位置,同时抽象化数据源访问格式;2.数据一致性(dataconsistency);必
8、须保证缓存或者副本数据被改变的情况下保持数据的一致性;3.数据持久性(datapersistency);数据以及相关元数据应该在完整的生命周期内被维护,同时可以使用多种生命周期管理模型;4.数据整合(dataintegration);数据服务应该提供整合异构,互
此文档下载收益归作者所有