海量存取催生-云数据库-

ID：39202316

大小：891.37 KB

页数：4页

时间：2019-06-27

资源描述：

《海量存取催生-云数据库-》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、中国计算机报/2008年/10月/27日/第C08版专题如何有效地管理Web数据是伴随Web兴起就出现的热门研究课题，而云计算自其诞生之日起，就离不开Web以及对Web数据进行管理。海量存取催生“云数据库”中国人民大学信息学院王仲远在云计算平台下，Web数据管理进入了一个新的阶段，这就是对Web规模海量数据进行有效管理的研究。数据库在Web上的应用越来越成熟，基于数据库开发的各种各样的Web应用服务也越来越多。我们经常会访问的一些网站，如电子商务网站、招聘及求职信息网站、各种内容管理系统以及SNS网站等，其背

2、后都有数据库存在，这些数据库就称为Web数据库。由于这种基于Web数据库开发的网络应用逐渐兴起，导致Web上的数据量急剧增长。深层网络数据集成研究2001年7月，BrightPlanetcom针对DeepWeb的数量做了一次比较全面的统计，其发表的白皮书称:整个Web上大约有43000-96000个Web数据库，以及7500TB的数据(约为SurfaceWeb的500倍)。而经过数年发展，根据UIUC所发表的一篇DeepWeb(深层数据网络)综述估计，截至2004年，全世界范围内DeepWeb的网站数量已经达

3、到307000个，其背后的数据库数量已经达到366000-535000个。虽然这两年没有新的权威统计报告出来，但是我们有理由相信，Web数据库的数量以及DeepWeb的规模仍然是呈现上升趋势。面对如此多的“隐藏数据”，传统搜索引擎根据链接进行网页抓取的方式却不能完全发掘，因为有许多数据必须是用户提交一个查询之后才会动态生成的。并且，虽然一些DeepWeb网站为自身流量考虑，为搜索引擎提供一些数据页面浏览的入口，造成搜索引擎也能够索引动态页面的现象(例如我们搜索一本书的时候，常常能够在搜索结果中发现购书网站的页

4、面)，但是根据UIUC的统计，目前主流搜索引擎例如Google、Yahoo只能够覆盖到其中32%的数据，而大部分数据仍然不能够通过搜索访问到。因此，在DeepWeb上进行大规模数据集成显得越来越急迫。为此，WAMDM实验室(网络与移动数据管理实验室)也成立了一个DeepWeb数据集成研究项目——Jobtong项目。这个项目最初是研究在工作信息领域上的数据集成，我们期望通过这种研究，形成一套面向领域的DeepWeb数据集成的方法。目前，此项目已不再局限于工作信息领域。我们已经成功在多个领域快速地构造了这样的应用

5、。Jobtong集成系统主要包括:底部被集成的数据源，例如DeepWeb数据、XML数据以及其他提供接口查询的网页；多个配置文件单元，这多个配置文件单元的每一个与上述多个数据源的每一个相对应；统一的集成单元，用于集成底层的各个数据源，它利用数据源所对应的配置文件，采用统一的方式，对数据源中的数据进行抽取；还有本地服务器，用于保存集成起来的所有数据，这样用户检索时，便可以直接在本地服务器上进行检索，提高效率。这样的集成系统可以快速挖掘DeepWeb中的数据，并将其方便地提供给用户进行检索，从而解决对于这些海量“

6、隐藏数据”的获取问题。据我所知，目前Google内部也有相关小组在做此方面的研究，相信在不远的将来，我们也可以看到Google对于这部分数据的处理与展现。Google的软件平台尝试当然，如果仅仅能够将获取这些海量数据，但不能够进行合理的组织，那么也不能称作对这些Web数据进行了有效的管理。为此，我们将要介绍Google的文件系统以及其开发的BigTable(大表)系统，正是这些系统，组成了一种云计算的基础软件平台的雏形。第1页共4页当我们使用Google进行关键字搜索，享受Google强大搜索所带来的便捷的时

7、候；当我们赞叹Google地图搜索是如此之精确以至于能够清楚地看到我们所居住的房屋的时候；当我们已习惯使用Google个性化主页，让Google按照我们的想法随心所欲地提供我们想要的资讯的时候⋯⋯是否有人静下心来思考这样一个问题:在这样强大的搜索背后，究竟是什么技术在支持呢?是什么系统在管理这样一个已超出我们所能想象的巨大的数据资源呢?是数据库吗?不是!Google的观点是，现有的数据库没法满足海量数据存储的需求，即使有，存储及查找代价也会让人无法忍受。Google每天所面对的，是成千上万台服务器，是上千TB

8、的数据，是每秒数百万的读/写。而且，在这样的情况下，还要实现高效的查询。Google开发了自己的文件系统——GoogleFileSystem(Google文件系统，简称GFS)。GoogleFileSystem与以往的文件系统的区别在于，Google的文件系统是一个大规模的分布式文件系统，它能够处理大规模的分布式数据。Google文件系统包括Master(控制服务器)和Chunkserver(块服务

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

海量存取催生-云数据库-

海量存取催生-云数据库-

相关文章

相关标签