欢迎来到天天文库
浏览记录
ID:34404680
大小:206.87 KB
页数:6页
时间:2019-03-05
《非结构化数据之归档存储技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、非结构化数据之归档存储技术朱立谷,孙志伟,郅斌,柳昊(中国传媒大学计算机学院,100024)一、引言固定内容(FixedContent)就是自创建以后不再更改并具有长时间保存价值的数据对象,如办公office文档、E-mail、电视新闻、医疗图片等。固定内容包含了与企业业务相关的内容,可为企业提供价值的信息,也称之为参考数据(ReferenceData)。固定内容的数据对象大致可以分为以下三类:1)电子文档,主要包括电子图书、e-mail、网页、办公文档,以及诸如工程绘图的CAD/CAM等。2)数字图像,主要包括医学检查图像、图片、地震/油气藏/天文/卫星地球物理图像
2、信息等。3)连续媒体,主要包括音频、视频。固定内容都是非结构化或半结构化的数据,与交易数据(数据库)相比,固定内容的数量增长速度更高。IDC调查显示,全球数据量增长中75%来自固定内容数据。同时,一些国家的法规对固定内容的归档存储提出严格要求。例如,2002年7月25日,美国发布了《萨班斯-奥克斯莱法案》(Sarbanes-OxleyAct,SOX),SOX敦促企业必须建立正确的IT基础架构,选择适当的电子文档存储技术以便实现法规遵循;2006年12月1日正式生效的新版《美国联邦民事诉讼规则》(USFederalRulesofCivilProcedure,FRCP)规
3、定了电子文档的存储必须满足电子发现(e-discovery)与法规遵循等方面的具体要求,让律师和法官能够更容易地对电子文档进行搜索。在传统的网络存储和文件系统中存储的是二进制流文件,不允许对固定内容对象建立更丰富的数据模型,因此,在传统的文件系统存储中要找到需要的内容非常困难。可见,用户面临的挑战从数据存储变成了数据管理,帮助用户迅速找到需要的信息成为存储系统一个新的功能需求。二、文件存储与搜索技术现状与研究进展为了实现对数量庞大的数字内容进行高效地存储与搜索,学术界和企业界从网络存储架构和文件搜索技术两个方面进行了大量的研究。2.1网络存储架构的研究由于基于块(SA
4、N)和文件(NAS)的网络存储不能同时满足高性能和数据共享的需求,提出了对象存储的概念。对象存储能有效结合SAN和NAS系统的优点,通过数据和元数据的分离以简化管理,支持直接访问磁盘以提高性能,可同时满足高性能和数据共享的需求。在面向对象的存储的研究和开发中,有两个分支引起了学术界和工业界的广泛关注和重视:其中一个分支是智能存储,如NASD、LUSTRE等;另外一个分支则是基于内容的存储,如CAS(ContentAddressableStorage,内容寻址存储)。在CAS中,传统的文件名被一个根据文件内容通过某种特定算法计算出来的字符串所取代,它是一个表征该数据对象
5、的全局惟一的数字标识符,或称为数字指纹,一种常用的方法是根据数据内容计算出固定长度的Hash来代替文件名。CAS维持一个描述组成原数据对象的各个数据块的数字标识符清单,它为具体应用提供可用的CAS数据块来重组原数据对象。对于网络存储系统的客户端而言,只需使用这一数字标识符来实现对内容的存取。由于CAS是基于对象的接口,在数据对象的存储过程中,它可以达到块接口的速度和效率,同时,在数据对象共享和管理之中,它又能够有文件接口的便利。因此CAS对于固定内容数据的存储,具有很高的性能。CAS将应用和内容的物理位置完全隔离,可以自动检测数据对象的变化,实时保护数据对象不被恶意的
6、修改,维持数据对象的完整性。同时,数据对象的数字指纹是从内容得到的全球唯一的ID,它可以用于WORM(WriteOnlyReadMany)和内容认证。除此之外,CAS技术提供了单一实例存储,可消除数据冗余,提高存储空间效率。由于相同内容的数据对象其数字指纹是一致的,因此,在同一CAS系统中相同内容的文件将只允许存在非策略性的一个存储实例。由于CAS技术的上述特点使之在文件归档和法规遵循等领域所具有的独特优势,特别适合非结构和半结构化数据的长久保持。但目前主要的CAS产品使用API来实现存储,必须在API基础上开发应用程序,或者依靠其它产品(主要是内容管理系统)并与其它
7、产品进行集成才能应用,而这样的集成系统往往是昂贵而低效的。2006年ESG的一份研究报告(ContentAssistedSearch,BrainGarrett,May2006)认为,让存储系统具有搜索功能是CAS技术发展的必由之路。2.2文件搜索技术的研究在过去十几年之内,文件系统技术并未进行大的变革,而新数据类型(如e-mail、多媒体)不断出现,它们包括了丰富的元数据。传统的文件系统是基于目录和文件的层次型结构,没有给予元数据信息足够重要的位置,对于存储在文件系统中的数据都缺乏语义支持,因此,不能提供高层的、基于语义的关联式数据存取。认识到现有的
此文档下载收益归作者所有