IJ:/;5IIEFC?:F=9KG/I-M!"""文章编号:)""),%"+()!""")"%,""*+,"’基于./0的百万级123搜索引擎的设计与实现陈华,罗昶,王建勇"> IJ:/;5IIEFC?:F=9KG/I-M!"""文章编号:)""),%"+()!""")"%,""*+,"’基于./0的百万级123搜索引擎的设计与实现陈华,罗昶,王建勇" />
基于web的百万级ftp搜索引擎的设计与实现new

基于web的百万级ftp搜索引擎的设计与实现new

ID:34539960

大小:81.94 KB

页数:3页

时间:2019-03-07

基于web的百万级ftp搜索引擎的设计与实现new_第1页
基于web的百万级ftp搜索引擎的设计与实现new_第2页
基于web的百万级ftp搜索引擎的设计与实现new_第3页
资源描述:

《基于web的百万级ftp搜索引擎的设计与实现new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第!"卷第%期计算机应用L=E-!"M7=-%!"""年%月6=>IJ:/;5IIEFC?:F=9KG/I-M!"""文章编号:)""),%"+()!""")"%,""*+,"’基于./0的百万级123搜索引擎的设计与实现陈华,罗昶,王建勇,段晖,薛明(北京大学计算机系网络与分布式系统研究室,北京)""+&))摘要:本文以“天网”123搜索引擎为例,介绍了百万级123搜索引擎的设计与实现,并重点分析了系统所采用的关键技术和方法。关键词:123;搜索引擎;...中图分类号:23’%’-4文献标识码:5系统在用户端以...网页的形式供

2、浏览器浏)引言览,通过调用6(8(6=>>/9:(?:/@?A89:/;B?C/)程序进根据中国互联网络信息中心(67786)有关中国行搜索。6(8是个短生命周期进程,因而在服务端89:/;9/:发展状况统计报告(截止到)%%%年底),中国需要有专用的搜索服务器以提高效率。6(8程序使上网用户数是+%"万。每年网民的增长率超过用263D83协议与服务器连接。服务器将主要数据’""<。而搜索引擎则是除电子邮件以外网民使用库读入内存,由6(8程序提供的搜索请求提供快速最多的服务。与相对众多的...搜索引擎相比,搜索服务。同时,数据库的

3、生成需要一个搜集建库功能强大的123搜索器并不常见,由此限制了人们程序。考虑优先目录的搜集频率不同以及用并行搜对具有大量信息与资源的123站点的访问。实现一集建库以解决网络传输速度问题,将数据库分为原个高速、海量、功能强大而又基于./0的123搜索始数据库与目标数据库。搜集程序将搜集的原始结引擎将为网络用户提供极大方便。为此,北京大学果直接写入原始数据库,建库程序依靠原始数据库计算机系网络与分布式系统研究室最新开发出了生成最终使用的目标数据库。整个系统结构如图)“天网”123搜索引擎,并已作为“天网”中、英文搜索所示:引擎[)]的

4、一个子系统在网上提供服务,获得了广大用户的一致好评。本文将从“天网”123搜索引擎的系统结构与算法出发阐述一种百万级123搜索引擎的设计与实现的方案。!123搜索引擎的系统结构设计123搜索器与...搜索器都是对字符串进行匹配与查找,以找出网络文档的链接,但123搜索器与...搜索器有很大不同。比如123搜索引擎不要求显示结果的内容摘要,对123站点各目录的数据刷新要求有不同的刷新速率,查询时需要文件信图)123搜索引擎的系统结构息、站点信息过滤等。因而设计123搜索器时应从在这个方案里,搜索服务器作为6EF/9:DG/;H/;机

5、网络用户对123搜索的实际需要出发,重点实现数制的G/;H/;端提供服务,作为6EF/9:端的6(8程序可据的实时性、搜索的快速性和功能的强大性。用远程连接的方法与之传递信息,同时搜集建库程!-)系统结构序也可和服务器分离并行运算。因而6(8程序与网系统结构的好坏决定了开发周期的长短、系统页、服务器和搜集建库程序是三个相对独立的模块。的稳定性和高效性,甚至决定了系统最终是否能够我们可以把6(8程序和网页放在./0服务器上,搜成功实现。从使用分布式计算和系统模块化的角度索服务器运行在具有大量硬盘空间和充足内存的高出发,我们设计了以下

6、这种方案并在“天网”123搜速机器上,而搜集建库程序运行在网络带宽大的机索引擎上成功实现。器上。它们同处于一个局域网内,用263D83协议互收稿日期:!"""#"$#!($修改稿)基金项目:国家%&’重大基础研究基金资助(()%%%"’!&"*)作者简介:陈华()%&+,),男,广东人,在读本科学生;罗昶()%&+,),男,广东人,在读本科学生;王建勇()%*%,),男,山东人,讲万方数据师,博士,研究方向:分布式系统与算法、搜索引擎技术-第E期陈华等:基于!"#的百万级&’(搜索引擎的设计与实现7E相通讯。分布运算使!"#服务、

7、搜索服务与搜集建机。根据&’(站点内每个目录内容更新快慢的不同库可以并行执行,从而减轻了单机的负载,避免了单我们指定了一些优先目录。搜集程序以较高的频率一服务器瓶颈问题。刷新优先目录的原始数据库,并定时刷新所有的原$%$数据库结构始数据库。为了加快搜集的速度,我们采用多线程在上述方案中,数据库分为原始数据库和目标方式同时搜集多个站点的文件信息,并指定一个超数据库,分别由搜集程序和建库程序生成。设立原时时间,以结束所有搜集,并转入建库程序。始数据库的好处有几个方面,如可优化目标数据库,建库程序将原始数据库转化为临时的目标数据多线程同

8、时对多个站点搜集数据而互不干扰,对优库。完成后通知服务器暂停搜索服务,用更改名称先目录进行更高频率的独立搜集,以及对所有数据的方法将临时的目标数据库迅速切换为最终目标数统一编号使输出结果具有顺序性等等。在原始数据据库,服务器重新读入目标数据库的索引

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。