搜索引擎技术之概要预览

搜索引擎技术之概要预览

ID:41722603

大小:347.77 KB

页数:16页

时间:2019-08-30

搜索引擎技术之概要预览_第1页
搜索引擎技术之概要预览_第2页
搜索引擎技术之概要预览_第3页
搜索引擎技术之概要预览_第4页
搜索引擎技术之概要预览_第5页
资源描述:

《搜索引擎技术之概要预览》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、搜索引擎技术之概要预览ByJuly前言近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下來的冲动,以作备忘。本文从最基本的搜索引擎的概念谈起,到全文检索的概念,再到网络蜘蛛,分词技术,系统架构,排序的讲解,而后到图片搜索的原理,结合google搜索引擎谈其技术原理,最终以儿个开源搜索引擎软件的介绍结束全文。由于本文初次接触此类有关搜索引擎的技术,参考了互联网上诸多牛人的文章与作品,

2、有不妥之处,还望诸君海涵。再者因本人见识浅薄,才疏学浅,有任何问题或错误,欢迎不吝指正。同时,正式进军搜索引擎领域的学习与研究。谢谢。1、什么是搜索引擎搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一口了然的信息地图,供用户随时查阅。Googleo谷歌结构之法算法之道Google捜索手气不偌Googlecomhk使用下列语言:中文(繁禮〉English搜索引擎的工作原理以最简单的语言描述,即是:4.

3、搜集信息:首先通过一个称为网络蜘蛛的机器人程序來追踪互联网上每一个网页的超链接,市于互联网上每一个网页都不是单独存在的(必存在到其它网页的链接),然后这个机器人程序便由原始网页链接到其它网页,一链十,十链百,至此,网络蜘蛛便爬满了绝大多数网页。2.整理信息:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。3.接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来口大量用户的几乎是同时发出的查询,它

4、按照每个用户的耍求检查口己的索引,在极短时间内找到用户需耍的资料,并返回给用户。整理信息及接受查询的过程,大量应用了文本信息检索技术,并根据网络超文本的特点,引入了更多的信息。接下来,下文便由网络蜘蛛,分词技术,到系统架构,排序一一介绍。2、网络蜘蛛网络蜘蛛即WebSpider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都

5、抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页屮链接的所有网页,然后再选择其屮的一个链接网页,继续抓取在此网页屮链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路Z后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。至于两种策略的区别,下图的说明会更加明确

6、。厂度优先的抓取顺序:A-B.C.D.E.F-H.G-I深度优先的抓取顺序:A-F-GE-H-IDedeCmsV3由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。3、中文分词下图是我无聊之际,在百度,谷歌,有道,搜狗,搜搜,雅虎中

7、搜索:结构之法的搜索结果比较(读者可以永久在百度或谷歌中搜索:结构之法4个字,即可进入本博客):«■t«a••rABtrifYB*MM*fflMXM*M■・■・•r-Tt・■,*>■••««••'N■24!<■•■・•《・•■Bear・•■M?»U"・・・*r?CMrr・・・iyBe•—“••e・<•>*«««?i,•••■»«・•・•«•e

8、AY般緒當•+从上图可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。