浅谈网页长期保存的策略与方法探讨

浅谈网页长期保存的策略与方法探讨

ID:19226606

大小:24.96 KB

页数:14页

时间:2018-09-30

浅谈网页长期保存的策略与方法探讨_第1页
浅谈网页长期保存的策略与方法探讨_第2页
浅谈网页长期保存的策略与方法探讨_第3页
浅谈网页长期保存的策略与方法探讨_第4页
浅谈网页长期保存的策略与方法探讨_第5页
资源描述:

《浅谈网页长期保存的策略与方法探讨》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、浅谈网页长期保存的策略与方法探讨摘要:网页作为网络信息的重要表现形式,承载了海量的信息资源,有着非常大的价值。但是网页自身却非常容易变更或者消失,给网络信息资源的安全造成了威胁。有必要对网页进行长期保存,以保护网络信息资源。笔者通过对国内外众多网页长期保存项目的对比分析,提出了我国在网页长期保存上的策略以及评估、选择、收集、整理、存储和利用的方法,以期对我国的网页长期保存项目提供建设性意见。  关键词:网页;长期保存;策略;方法    网络信息作为数字信息的一种,随着互联网技术的应用和发展而飞速地增长。网页对于网络信息而言,具有非常重要的作用

2、。如何妥善地保存和维护这些网页,使这些含有海量信息的网页能够长久地存在,并能被人们获取利用,是摆在我们面前的一道难题。    1 网页长期保存的必要性    网页数量骤增  据中国互联网络信息中心(CNNIC)的统计,自XX年开始,中国的网页规模基本保持翻番增长,XX年网页数量达到336亿个,年增长率超过100%(见图1)。而Google在XX年宣称,其索引的网页数量已经突破1万亿,并且其数量还在以每天数以亿计的速度在增长,“互联网上的网页已经多得无法计算了”。大量网页的背后是海量的信息资源,它们不仅是人类知识的宝库,也是人类记忆的财富。我们

3、有必要将其妥善保存。br>      网页信息变化快  网页信息的变化体现在两个方面:  一是网页内容的变更,通常是管理员定期或不定期地更新网页,以便增加新信息或修改之前的信息。这并不会引起网页数量的变化,但是一定程度上更新了网页的信息,因此原网页的部分信息可以认为是丢失了。  二是网页的新增或删除,通常由网站管理者新增某些网页或者删除某些网页。一旦删除,该网页便从互联网上消失,其他用户无法再访问。网页的增删会引起网页数量的变动。  相关学者研究发现,在6个月内近50%的网页会发生变化,68%的网页1年内将被从网上移除。  而WallaceK

4、oehler的观察结果更为显著,他发现%的网页6个月内会发生变化,如观察时间为1年,则比例上升为%。此外,有%的网页6个月后不能再被访问到,1年后上升到%。  不管是网页的更新还是网页的增删,都预示着网页信息处于不断变动的状态中,若我们不能及时高效地将当前的网页收集保存起来,很有可能下一秒钟该网页就变得面目全非甚至完全消失了。    网页的寿命较短  相关研究提出,网络信息资源的寿命可以用其自身的生命周期或者利用价值情况来衡量。因此我们用“半衰期”来作为网页寿命的指标。“半衰期”源于物理学领域,原指放射性元素的原子核有半数发生衰变所需的时间,

5、这里是指网页的本身会发生衰变或者其价值发生衰变所需的时间。  在网页的生命周期中,网页的半衰期是指一定数量的网页内有半数的网页消失或者被删除所需要的时间,根据WallaceKoehler通过观察得出的结论,1年后有%的网页无法访问到,因此他得到网页的半衰期为年。也就是说,网页在互联网上存活年之后,其消失的几率会大大增加。  在网页的价值周期中,网页的半衰期是指网页吸引一半读者所用的时间。一般而言,质量越高或者价值越大的网页,其吸引的读者会越多,其存活周期越长,半衰期也就越长。而像网络新闻这样具有时效性的网页,其半衰期则非常短,通常为36个小时

6、左右。这意味着一条新闻在互联网上张贴36个小时之后,读者数量就会大为减少。    2 国外关于网页长期保存的实践    该如何管理这些有着海量信息但随时都会被更改或删除的网页,让宝贵的知识财富世代留存,供后人研究和使用?世界上很多国家包括美国、澳大利亚、英国、法国等都进行了相关的尝试。  澳大利亚的PANDORA项目:开始于1996年,由澳大利亚国家图书馆领导,收集并保存澳大利亚范围内的在线出版物和网站并提供长期的利用。收集澳大利亚范围内,具有长期保存价值的在线出版物和其他有用的网络资源。主要方法是开发数字归档系统(PANDAS)来自动收集、

7、描述、提供档案的利用。到XX年2月,已经收集了3300个专题,144万个文件,约405GB。  美国的MINERVA项目:始于XX年,由国会图书馆负责,其目的是评价、选择、收集、编目以及保存数字材料,为将来的研究者提供利用。项目主要收集互联网上重要的政治事件、重特大事件,采集工作由网络机器人完成,并将结果分专题进行收集和存储,目前国会图书馆已经完成13个专题的收集。  美国的IA项目:开始于1996年,由非营利组织InternetArchive发起,其目的是建成“网络图书馆”,存储历史上曾经存在过的数字资源,使现在和以后的学者和研究人员能够永

8、久访问。其收集的内容涉及音频、视频、软件、文本以及Web等领域,采用网页快照的方式,通过网络机器人程序自动抓取或接收Alexa公司和其他机构的捐赠。到目前共收集了自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。