欢迎来到天天文库
浏览记录
ID:46780181
大小:84.00 KB
页数:6页
时间:2019-11-27
《深网及其查找途径探析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、深网及其查找途径探析萤文鸳(嘉兴学院图书馆嘉兴314001)摘要:深网资源是互联网上重要的一部分,但普通搜索引擎很难将其索引。本文首先阐述了深网的概念,然后详细分析研究深网的原因及它的四种类型,最后提出了查找深网资源的若干途径。关键词:网络资源深网信息检索中图分类号:G253文献标识码:ADiscussionontheWaytoRetrieveDeepWebDongWenyuan(LibraryofJiaxingCollegeJiaxing314001)Abstract:Thedeepwebresourceisanim
2、portantpartofInternet,butgeneralpurposeenginescan'tindexit.Thispaperrelatesthedefinitionofthedeepweb,thenanalyzesthereasonstoresearchingitandfourtypesofdeepwebindetail.Atlast,theauthorpointsoutseveralwaystoretrievethedeepweb・Keywords:NetworkResourcesDeepWebInfor
3、mationRetrieval信息技术、网络技术和通信技术的£速发展,极大地改变了人们的牛活方式,网络成为人们生活屮不可或缺的一部分,人们获取信息的主渠道也正在从以纸质文献为主转变为以网络信息资源为主。但是,互联网上的信息资源急速增长,其内容也鱼龙混杂、泥沙俱下,同时现在大多数网络用户都采用普通搜索引擎来查找资源,但普通搜索引擎由于其多方面的原因而无法搜索互联网上大量有价值的信息资源,也即深网(DeepWeb)o深网的质量和数量上都要优于浅网(SurfaceWeb),因此,如何检索、利用深网,使Z能为广大用户的生活、科
4、研服务就成为一个迫切需要解决的问题。为此,本文首先阐述了深网的概念,然后详细分析了研究的原因及深网的类型,最后提出几种杏找深网的有效途径,以期能对网络信息资源的检索、利用有所启发。1深网的概念“深网”是一个山BrightPlanet公司于2000年首创的术语,同吋也被称为隐形网页或隐蔽网络。到目前为止,国内外学术界还没有就深网的概念达成共识,如BrightPlanet认为深网是那些将信息内容存储在检索数据库屮而仅仅响应肓接杏询提问的网站⑴。ChristSherman和GaryPrice则认为与深网同义的隐形网页是指虽然
5、通过互联网可以获取,但普通搜索引擎山于受技术限制而不能,或者经审慎考虑后而不作索引的那些文木页、文件或其他通常是高质量、权威的信息叫MichaelDahn也持GaryPrice类似的观点,认为:“深网由可检索的但内容不能被普通搜索引擎索引的信息资源组成。这些信息资源包括数据库、档案资料和交互式工具如计算器、字典。由于这些信息资源被嵌入在成千上万的个人web站点,因此对于目询的搜索引擎来说是不可见的⑶。”2研究深网的原因在网络信息资源海量增长的今天,为什么还要研究深网呢?主要原因就是深网不仅貝有普通网页所具有的共同特征,
6、还另有一些浅网所不具有的特征,而这些特征对用户来说是非常重要的,具体来说有以下几个方面:①相对不可见,深网并非不可检索,而只是普通搜索引擎无法索引,因此说深网的不可见是札I对的;②形成原因复杂,深网的形成,既有技术方而的原因,如搜索引擎无法索引动态网页,乂有非技术原因,如知识产权保护的负而影响,搜索引擎的成本限制等;③资源丰富,数据量大,据BrightPlanet公司针对深网的调査显示⑷,目丽存在着超过200,000个深网的站点,其资源数量大约为7500TB,是WWW的400-550倍,其中包括55()()亿私人文档;
7、④发展迅速,深网是互联网上发展最快的信息资源,从200()年到2004年期间深网已经增长了3-7倍,现已有307,000个站点,450,00()个数据库和1,258,00()个界血何。⑤资源质量相对较高,深网比浅网所涉及的范围更小,内容更为精深,因而质量更高。此外,95%的深网可以免费获取,并且大约-•半的深网存在于主体明确的网络数据库中。3深网的类型冃前,对深网有不同的划分方法,如按具体类型可分为未被链接的网页、非HTML网页、特殊文件、关系数据库文件、实时或流动文件和动态网页⑹;按其形成原因乂可以分为不透明网、专有
8、网、私人网和真正的隐形网⑺o下而予以详细介绍:①不透明网(TheOpaqueWeb),总体来说,搜索引擎可以索引但没有索引的网页就是不透切网页,它是深网最基木的组成部分,具体包K-spider爬行以外的网页、链接屮断的网页以及未被链接的网页,因为搜索引擎的搜索范围是受到一定的限制的,这样就使得普通搜索引擎无法索引互联网上的所有信息
此文档下载收益归作者所有