浅谈web archive保存研究:现状、意义与发展策略

浅谈web archive保存研究:现状、意义与发展策略

ID:9534770

大小:54.00 KB

页数:4页

时间:2018-05-03

浅谈web archive保存研究:现状、意义与发展策略_第1页
浅谈web archive保存研究:现状、意义与发展策略_第2页
浅谈web archive保存研究:现状、意义与发展策略_第3页
浅谈web archive保存研究:现状、意义与发展策略_第4页
资源描述:

《浅谈web archive保存研究:现状、意义与发展策略》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、浅谈Web Archive保存研究:现状、意义与发展策略 摘要:分析了WebArchive保存问题的国内外研究现状,阐述了研究的意义并提出了相应的发展策略。  关键词:WebArchive;现状;意义;发展策略    类似经历应该不会感到陌生:打开一个URL,网页上显示——Thepasecan-notbefound或TheServiccInvalid.ablc。巨量的webAnhive在不断地增加的同时,一边也在不断地消失,按照Ntoulas等人的研究,网页每周以8%的速度在更新之中,即每周大约有3.2亿个新网页产生,数据量相当于3.8TB,网页之

2、间的链接关系也在不断地发生着变化,每周大约新产生25%的新链接:而根据另一项研究r2)则表明,一个WebArchive的平均寿命只有44天。  WebArchive作为全球最大的信息资源库,存在着大量对文化遗产、学术研究、社会经济与政治具有重要价值的信息,但其产生的“自发性”与存在的“流逝性”的双重特点,使其成为一种珍贵而又脆弱的信息资源。而设置各种馆库选派专人进行管理各个时期所形成的档案信息资源,这是人类自古以来就形成的惯例,在网络环境下也不例外。因此,如何保存并让其成为后世不可缺少的智慧遗产,就成为当今人类社会信息管理中越来越重要的课题与研究领

3、域。    1研究现状    1996年,互联网档案馆(TheInterArchive)产生,标志着人类对webArchive保存研究的开始,它是一个非赢利性的WebArchive数据库,面向全球用户,免费、公开其收集的全部WebArchive信息资料;同年,澳大利亚国家图书馆开展了名为PANDO-RA项目,其主要是保存该国的在线出版物:同年,瑞典成立了Kulturarw3的web信息资源采集项目;2000年,美国国会图书馆提出了NDIIPP计划,webArchive作为其六个收集范围中的主要组成部分;2003年,由12个成员机构发起的国际网络保存

4、联盟IIPC正式成立,其成立的目标就是:保存来自全球的webArchivc内容,使其能够持续地提供访问。到2008年,该联盟已吸纳了37个成员机构,其中也包括亚洲的日本。各种相关项目还在不断地出现,其研究的内容与深度在不断地拓展,并且,已开始将成果转化到实际应用和商业化操作的服务模式,如HanzoArchive公司提供为企业级存档服务以及商业化服务应用(Archive-it)。  相对于国外而言,我国的研究要晚些,中国“Web信息博物馆”自2002年1月18日第一次搜集以来,已保存了30多亿页的中文Web资源:国家图书馆“网络信息采集与保存”项目,

5、保存了自2003年以来.域名下的网站和所有中文网站的Web信息。    2研究意义    网站已经成为机构在网络空间开展业务活动的主要平台,根据NIC2008年发布的《中国互联网络发展状况统计报告》,中国网站数量已达到1919000个。WebArchive中存在着大量的具有原始记录性的信息资源,其对于组织机构本身与社会来说都具有保存的意义。    2.1WebArchive保存是网站复原的保障。网站复原也就是使保存起来的网页内容以原来的样貌呈现给用户,这其中包括其链接。比如,现在您想看看2000年时的新浪网站是个什么样子,上面有哪些信息?那么它将完

6、整地展现在您的眼前,就犹如在访问原始网站一样。在这个意义层面,百度做得比较成功,它考虑到某些网站提供的信息可能由于内容更新或更换URL地址而无法显示,百度将搜索到的绝大部分内容都存放在自己的cache.baidu.中,即百度快照,当原始的链接无效时,用户可以通过它查找到相应的信息,从而满足用户的信息需求。    2.2WebArchive保存保证了社会记忆的完整性,网页信息资源同样也是社会活动中直接形成的原始性信息记录,就如同我们所有的社会活动形成的原始记录一样,它准确地反映了我们的社会现实,如网络日志、博客(Blog),等等,它就犹如传统意义上的

7、日志一样,成为个体的社会关系、日常活动等各种资源的汇聚节点。在网络环境下信息来源、自主跟踪关键字,以“自我”为中心,把最快、最高价值的信息聚合起来,实现所有互联网信息的“一站式”阅读体验,这种全新的社会记忆方式,充分反映了信息技术发展给人们间交流带来的便利。另一方面,对于组织机构来说,网页信息是组织机构业务活动过程的最直接证明。对于整个社会来说,网页信息更是构成社会记忆不可缺少的组成部分,是沟通历史的桥梁。数字文化遗产概念的兴起其实也是充分地反映了人们对这个问题的重要性有了进一步的认识。 2.3、.html、.shtml、.xml等静态网页的常见形

8、式,到以.asp、.jsp、.php、.perl、.cRi等为后缀的形式,再到以Blog、TAG、SNS、RSS、l、aj

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。