网络资源的自动获取识别归档技术之研究

网络资源的自动获取识别归档技术之研究

ID:32412065

大小:177.03 KB

页数:4页

时间:2019-02-04

网络资源的自动获取识别归档技术之研究_第1页
网络资源的自动获取识别归档技术之研究_第2页
网络资源的自动获取识别归档技术之研究_第3页
网络资源的自动获取识别归档技术之研究_第4页
资源描述:

《网络资源的自动获取识别归档技术之研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、l◆ⅢI◆¨¨◆Im◆IH1.I-l◆I¨I◆⋯I◆⋯◆l¨I◆憎I◆啊I◆⋯◆¨¨◆川I◆⋯◆l¨I◆I川◆IHI◆l¨I◆川I◆◆⋯◆ⅢI◆l¨I◆川I◆ll¨◆l川网络资源的自动获取识别归档技术之研究川◆l¨I◆川I◆l川◆IHl◆⋯◆l¨I◆l¨I◆川I◆⋯●川I◆⋯◆¨¨◆l¨I◆⋯◆ⅢI◆I¨I◆⋯◆川}◆l川●川f◆㈨◆l¨I唐光前(汕头大学汕头515063)摘要论述了研究网络资源的自动获取识别归档技术的必要性、网络资源的自动获取识别归档技术的关

2、_E是对网络费潭底层的HTML信息进行自动获取识别归档处理

3、、获取网络资源底层的HTML信息的两种方式、HTML信息的基本架构及架构规律、自动识别网络资源过程中通常遇到的问题及解决办法、实现网络费源自动归格过程中需要处理好的三个问题及解决办法、以C#语言为鳊辑语言,实现网络资源自动获取、自动识别、自动归档的鳊程思路等。关■词网络资源获取技术识别技术归档技术C#HTML实物资源的第二大区别是,前者存在于Intemet中,而且是动态1研究暇铬资■的自动获取识别归档技术的必要性的。Internet中的资源是虚拟的。是通过其对应的网址来揭示目前,大多数高校图书馆都在开展网络资源的收集整

4、理工的,而网址是可变更的,特别是某些专业性很强的个人网站,其作,如由CALIS中心组织,48个“211工程立项高校图书馆参网址的变更性更强。有过上网经验的人对这一点应该深有体加共建的重点学科导航库项目,已完成213个重点学科导航库会。对于这种动态资源,其收集整理的工作量远远小于对它进建设。共收录了6万多个比较重要的学术网站⋯。笔者有幸参行维护的工作量,负责人必须频繁地对其网址的有效性进行测加了该项目。在近两年的工作实践中,总体感受是:大家对于收试。很显然,测试手段必须通过软件进行,手工是完成不了的。集整理网络资源的重要

5、性的认识是一致的,对这项工作的热情这就要求网络资源的整理软件必须具有与IntemetExplorer等很高,投入的人力很多,如深圳大学图书馆就投入了十几个人。浏览器集成的功能,为浏览、查找、获取、识别和归档网络资源但是获取识别网络资源的手段并不高明。方法比较原始,以致提供便利;另一方面要具有网址有效性测试的功能。研究网络绝大多数高校图书馆的网络资源的收集规模不大,多数在1000资源自动获取识别归档技术就能够实现这些功能。条左右,达到上万条的只有清华大学图书馆、深圳大学图书馆、2网络资一的自动获取识别归档技术的关一是对啊

6、络资■底汕头大学图书馆和电子科技大学图书馆等少数几家。问题出层的HTML信息进行自动获取识别归档处理在什么地方?笔者认为,绝大多数高校图书馆对网络资源的自动获取识别归档技术研究不够。网络资源是以网页的形式存在于Internet中的,网页是以其实,实现网络资源自动获取识别归档技术的意义不亚于文件的形式存于IntemetInformationServer5.0等网络资源服计算机编目取代手工编目的意义。我们知道,网络资源与书本务器上的,尽管该文件可以是jsP、ASP、X、PL或HTML等式实物资源存在着很多区别。其一就是前者

7、的数量惊人,且增格式文件,但在IntemetExplorer等浏览器中呈现时,不同格式长迅速。著名的Google搜索引擎收集了30亿个网页。但是据的文件所呈现的底层信息是一致的,都是HTML信息。这就意发表在<自然杂志上的一份研究报告称,没有一个搜索引擎可味着获取了网络资源底层的HTML信息,兢等于获取了网络资以覆盖网络资源总量的16%,并且随着网络资源迅速增长,这源。就可以进一步地识别归档网络资源。个比例还会下降。可见,网络资源是多么的丰富。面对如此浩3如何获取网络资■鹿晨的mML信息瀚的资源,我们肯定不能采用现有的

8、图书编目手段加以处理,因为速度太慢,一天最多只能处理60条左右。我们肯定也不3.1获取网络资源底层的耵ML信息的两种方式能采用现有编目软件对网络资源进行处理,因为现有的编目软第一种方式:通过IntemetExplorer等潮览器定位罔络资件的处理对象是静态的图书,在软件设计时不可能将网络资源源,然后单击鼠标右键呈现上下文菜单,接着单击“源文件菜的特点考虑进去,而图书的著录项目与网络资源的著录项目区单项。就可以从弹出式窗口中看到HTML信息。这种方式直观别很大,比如两者的著录重点是不一样的对网络资源进行收简单,但是在网络

9、资源自动获取时并不实用,从刚才的表述中集整理时,着重著录标题和网址。这就要求我们除了对网络资你就会发现它需要太多的人工参与,如人工定位到网络资源。源的特点进行研究之外,还需要对网络资源的获取方式、识别人工呈现上下文菜单,人工呈现HTML信息,所以笔者主张在方式和归档方式进行深入研究,找到一种能够保证著录速度快网络资源自动化处理过程

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。