搜索引擎——原理技术与系统

搜索引擎——原理技术与系统

ID:15488297

大小:3.45 MB

页数:279页

时间:2018-08-03

搜索引擎——原理技术与系统_第1页
搜索引擎——原理技术与系统_第2页
搜索引擎——原理技术与系统_第3页
搜索引擎——原理技术与系统_第4页
搜索引擎——原理技术与系统_第5页
资源描述:

《搜索引擎——原理技术与系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华夏英才基金学术文库搜索引擎—原理、技术与系统SearchEngine:Principle,TechnologyandSystems李晓明闫宏飞王继民著byLiXiaoming,YanHongfeiandWangJimin科学出版社2004内容简介本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分

2、类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。本书可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料,对广大从事网络技术、Web站点的管理、数字图书馆、Web挖掘等研究和应用开发的科技人员也有很大的参考价值。前言随着互联网的不断发展和日益普及,网上的信息量在爆炸性增长,在2004年4月,全球Web页面的数目已经超过40亿,中国的网页数估计也超过了3亿。目前人们从网上获得信息的主要工具是浏览器,而通过浏览

3、器得到信息通常有三种方式。第一,直接向浏览器输入一个关心的网址(URL),例如http://net.pku.edu.cn,浏览器返回所请求的网页,根据该网页内容及其包含的超链文字(anchortext)的引导,获得自己需要的内容;第二,登录到某个知名门户网站,例如http://www.yahoo.com,根据该网站提供的分类目录和相关链接,逐步“冲浪”浏览,寻找自己感兴趣的东西;第三,登录到某个搜索引擎网站,例如http://e.pku.edu.cn,输入代表自己所关心信息的关键词或者短语,依据返回的相关信息列表、摘要和

4、超链接引导,试探寻找自己需要的内容。这三种方式各有特点,各有自己最适合的应用场合。第一种方式的应用是最有针对性的,例如要了解北京大学计算机系网络与分布式系统实验室在做些什么工作,从某个渠道得知该实验室的网址为http://net.pku.edu.cn,于是直接用它驱动浏览器就是最有效的方式。第二种方式的应用类似于读报,用户不一定有明确的目的,只是想看看网上有什么有意思的消息;当然这其中也可能是关心某种主题,例如体育比赛,家庭生活等等。第三种方式适用于用户大致上知道自己要关心的内容,例如“国有股减持”,但不清楚哪里能够找到

5、相关信息(即不知道哪些URL能给出这样的信息);在这种场合,搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表,由用户一个个试探看是否为自己需要的。现在的搜索引擎技术已经能做到在多数情况下满足用户的这种需要。CNNIC的信息统计指出,目前搜索引擎已经成为继电子邮件之后人们用得最多的网上信息服务系统。同时,随着网上信息资源规模的增长,尤其是其内容总体和我们社会的演化发生着越来越密切的联系,研究网上存在的海量信息逐渐成为许多学科关注的一个方向。为此,不少研究人员也有采样搜集特定内容、一定数量网页的需要。本书以我们设计、实

6、现并维护运行北大“天网”搜索引擎的经验,介绍大规模搜索引擎的工作原理和实现技术。我们要向读者揭示,为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其中相当一部分可能正是用户需要的。我们按照上、中、下三篇展开相关的内容。上篇讲搜索引擎的基本工作原理,要解决的是为什么搜索引擎能提供如此信息查找服务的问题,以及它在功能上有什么本质的局限性。这一篇的内容包括网页的搜集过程,网页信息的提取、组织方式和索引结构,查询提交和响应的过程以及结果产生,等i等。

7、这其中,虽然我们假定读者熟悉URL,HTML,HTTP,CGI,MIME等基本概念,但在上下文中也给予了必要的介绍,力图保持行文的流畅性。这一部分内容对于需要构建小规模搜索引擎的研究人员会有直接的参考价值。中篇讨论和大规模实用搜索引擎有关的技术问题。所谓大规模在这里指至少维护超过1千万的网页信息,提供相关的查询服务。所涉及的内容包括并行分布处理技术的应用,数据局部性的开发,缓存技术的应用,以及搜集的网页在提供服务之前的预处理问题和高效倒排文件的建立技术等等。这一部分的讨论有比较强的计算机系统结构的风格,我们向读者展示计算

8、机系统结构课程中的那些概念是如何生动地体现在一个实际应用系统中的。这一部分的内容对构建大规模数字图书馆的技术人员也应该有帮助。下篇介绍挑战性更强一些的内容。一般地讲,前面所述可以称为是“通用搜索引擎”,为最广泛的人群提供信息查询服务是它的基本宗旨。这意味着它的应用模式必须尽量简单,即关键词或查询短语的提交和匹配响应。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。