大数据修仙【还我数据】.docx

大数据修仙【还我数据】.docx

ID:52350466

大小:12.45 KB

页数:5页

时间:2020-03-26

大数据修仙【还我数据】.docx_第1页
大数据修仙【还我数据】.docx_第2页
大数据修仙【还我数据】.docx_第3页
大数据修仙【还我数据】.docx_第4页
大数据修仙【还我数据】.docx_第5页
资源描述:

《大数据修仙【还我数据】.docx》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大数据修仙【还我数据】  数字化vs纸质    英国广播公司(BBC)1986年为了纪念原版《末日审判书》出版900周年,花费了250万英镑,开展了“末日审判项目(DomesdayProject)”――一个现代版的《末日审判书》。900年前的《末日审判书》是1086年威廉一世下令对英国土地使用情况进行大规模调查的结果汇编。900年后,为了“末日审判项目”,超过100万英国人贡献了文本、照片和视频资料。考虑到这些资料应当永久保存下去,于是它们被存储在两张定制的光盘上,并使用BBC的特殊计算机阅读显示,以便后人能了解20世纪人们的生活情况。  但仅仅15年

2、后,当有人试图使用同样的计算机来阅读光盘上的资料时,却没有成功。与此同时,那本抄写在羊皮纸上的原版《末日审判书》却还依然保存在英国档案馆里,900多年后的今天,凡是懂得拉丁文的人都可以翻阅。  同样,那些十几年前把数据存储在5.25英寸软盘上或使用WordStar格式文本的人现在都面临着与BBC“末日审判项目”相似的问题,除非我们采取有效的保护措施,否则,大批已经生成的数字信息极有可能在我们有生之年就无法读出和使用了。  这种情况不能完全归咎于计算机行业越来越快的更新换代,实际上,数字存储技术天生就存在缺陷。2004年11月,美国国家档案记录局电子档案

3、处的处长曾公开承认,将电子资料保存10年以上(更不用说永远保存),“仍然是全球性的难题。各国政府、大公司以至个人,都还解决不了。”    数据劫难    美国加州圣何塞的数据存储顾问TomCoughlin说,如果把硬盘从电脑上拆下来后放在办公室的架子上,它最终可能将无法使用。他解释说,因为每天的温度有变化,热能跑到存储介质里面去,会慢慢引起存储信息的磁性颗粒出现自发逆转,直到原始数据丢失。不过,一般前10年不会出现数据丢失的问题,但10年后,谁也说不准数据何时就会变得无法使用。  TomCoughlin说,磁带也面临同样的问题,但一般几十年后才会因热擦

4、除而丢失数据,那是由于磁带的比特密度低于硬盘。但是,磁带也有自己的问题:脱层。当磁性介质与磁带脱离,或者受到霉菌侵蚀时,就会出现脱层。有时候,磁带介质不得不重新经过烘焙工艺,以便能最后一次读取数据,并将其内容迁移到另外的介质上。  USB闪存盘也会受到热擦除的影响,并且还面临着更大的风险,因为它们用的是最廉价的控制器。TomCoughlin说:“我不会将USB闪存盘用于归档。”如果使用USB闪存盘归档,那就要祈求USB端口在几十年后仍能使用,而谁也不知道笔记本电脑在20年后将会是啥样,更不用说50年后了。  至于DVD和CD,美国国会图书馆的项目经理B

5、illLeFurgy说,他所在的单位曾用烤箱对DVD和CD做了加速老化试验,结果发现,其盘片之间存在着很大的差异,就连同一品牌的盘片之间也有很大差异。他说:“有些寿命可以达到10年,而另外一些的寿命却短得多。5年后,我就要担心可靠性了。”  其他存储专业人士也抱怨,DVD的传输速度太慢,不适合于归档。DVD的传输速度通常不到磁带的1/4;另外,每存储数GB内容,就要更换DVD盘片。  与其他存储介质一样,CD和DVD同样存在其阅读器在几十年后是否还在的问题。    在线存储的生命力    那么在线存储如何呢?在线存储时,当硬件设备启动后,可立即访问。其

6、中的数据不断受到检测,以确保其完整性,并易于复制。但美国斯坦福大学图书馆负责“大量拷贝确保数据安全(LOCKSS)”项目的首席科学家DavidS.H.Rosenthal却抱怨,在线存储也可能很快遭到损坏,眼下还看不到具有归档所必需的长期可靠性。  Rosenthal调查了让1PB的在线存储数据在100年后仍可使用的可能性达到50%有何要求。他在分析了众多存储服务商发布的有关磁盘维护的数据后发现,要达到1PB数据在100年后仍可使用的目标,在线存储的可靠性必须提高10亿倍。  他指出,就算我们真的有望把在线存储的可靠性提高10亿倍,也根本没有现实的方法来

7、测试这样一种系统,总不能给它接通电源,然后等上100年吧?  由于数字化数据的存活率如此之低,所生成的数字格式的信息又如此之多,“50年后我们可能会面临数字黑暗时代,将来的学者们将无法了解我们现在的文化。”美国电影艺术与科学学院(奥斯卡颁奖组织)的科学和技术委员会理事AndyMaltz说。    数据保存标准    由于日渐意识到这个问题,众多组织一直在致力于解决归档问题,着重研究如何减小格式过时带来的风险。  防止格式过时通常需要编制元数据词典。元数据是指有关文件的信息,与文件一同存储。那样一来,将来的用户不会像科学家在1999年那样陷入困境:他们无

8、法解读含有美国宇航局在1975年火星探测数据的磁带。最终是科学家找到了一些打印资料,才得以分析

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。