资源描述:
《基于p2p网络搜索技术的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于P2P网络搜索技术的研究与应用基于P2P网络搜索技术的研究与应用1概述 近年来,P2P网络发展迅.Lule等基于P2P技术的文件共享软件在互联网上迅速传播,P2P技术在国际国内都引发了研究的新热潮。由于P2P蕴含着巨大的技术潜力和商业价值,许多学术机构、如Microsoft、Sun和Intel等大公司先后投入到对P2P技术的研究之中。Microsoft公司成立了Pastry项目组,主要负责P2P计算技术的研究工作,Intel公司宣布成立P2P工作组,SUN公司的JXTA平台和斯坦福大学的P2P研究。 1
2、.2P2P服务主要有两个特点 1)首先是它使得用户通过互联网直接交互。P2P使得网络上的沟通变得容易、更直接共享和交互,真正地消除中间商。P2P直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。 2)另一个重要特点是改变互联网现在的以大网站为中心的状态、重返非中心化,并把权力交还给用户。P2P的模式与面对面地或者通过电话交流和沟通类似。P2P共享技术与传统文件共享存在很大的区别。P2P的共享文件不是在集中的服务器上等待用户端来下载,而是分散在所有Inter用户的硬盘上,从而组成
3、一个虚拟网络。这样每个用户都可以从虚拟网络中任何一个人的机器下载电影、音乐等类型的文件,同时每个人也可以把自己的文件共享给其他人使用。从网络上分析P2P是互联网整体架构的基础。互联网最基本的协议TCP/IP并没有客户机和服务器的概念,所有的设备都是通讯的平等的一端。 新一代的网络搜索技术中,以网络资源集中程度和网络体系结构可以分为集中式P2P网络、分布式P2P网络和混合式P2P网络三类。P2P网络中进行资源定位是首先要解决问题,对三类P2P网络搜索技术进行对比和研究。 2传统的C/S网络架构搜索技术 传统
4、Client/Server模式所有的资源都存放在中央服务器上,客户机只能被动从服务器上读取信息,而且客户机之间不具备交互的能力,其典型的模式是图1[2]。传统的C/S的网络形式上是有一个中心服务器来负责共享信息,来回答工作站点的查询,然后根据查询下载需要的信息。这种形式具有中心化形式。 3集中式P2P网络搜索技术 第二代P2P是纯分布式,网络中没有服务器,链状的节点之间构成一个分散式网络,既没有集中的目录服务器,又对P2P网络拓扑(P2P成员的连接集合)和文件放置没有任何精确的控制,系统中每个结点只维护自己
5、存储的文件及其索引。分布式P2P网络分有分布式非结构化P2P网络和分布式结构化P2P网络两种。 1)分布式非结构化P2P网络搜索 在分布、动态的网络环境下要找到其他节点上的资源,一个直接的想法就是广播,把需要查找的内容向每个和它连接的节点发出请求,收到查询请求的节点在本地搜索资源,如果在本地资源中发现,就把搜索到的结果返回给请求者;否则把请求继续向除了请求者以外的所有已知节点转发,也是Gnutella处理查询的基本思想。 分布式非结构化拓扑的P2P网络典型代表是Gnutella,Gnutella和Naps
6、ter的最大区别在于没有中心服务器,采用了完全随机图的泛洪搜索和随机转发机制。非结构化P2P网络结构图如图2。 这种形式不需要有中心服务器和中心路由器,其上的每一个Peer都作为对等实体,地位完全平等,每一个Peer既可以作为客户机又可作为服务器,并且它们与邻接的Peer有相同的能力。Gnutella是一种非集中式文件共享系统,系统的参与者自我组织一个虚拟的相互协调的网络,为了一个共同的目的,即在P2P形式下以分布式文件搜索为机制,共享资源。Gnutella网络采用类似IP数据包中TTL的机制来决定是否继续转
7、发消息,Gnutella的优点在于很好的解决了中心化的问题,没有中央服务器而采用了分布式P2P技术。其缺点是:搜索要求要经过整个网络或者至少是一个很大的范围才能得到结果,占用了更多宽带,而且需要花费很长时间才能有结果返回。同时,这种纯分布式的P2P模式很难被企业所利用,因为它缺少对网络上的用户结点树以及他们所提供资源的一个总体把握。同时安全性不高,易遭受恶意攻击,如攻击者发送垃圾查询信息,造成网络拥塞等。 2)分布式结构化P2P网络搜索 由于非结构化的P2P网络中随机搜索造成的不可扩展性,目前,研究的重点在
8、于如何有效地查找信息,最新的成果就是基于DHT(DistributedHashTable,分布式散列表)的分布式发现和路由算法。应用层将数据对象(文件、数据块或索引)通过哈希算法获得键值,将该键值提交给DHT后,返回结果就是键值所在节点的IP地址[3]。 在DHT技术中,网络节点按照一定的方式分配一个唯一节点标识符(NodeID),资源对象通过散列运算产生一个唯一的资源标识符(Obje