[设计]搜索引擎原理

[设计]搜索引擎原理

ID:35493452

大小:64.36 KB

页数:6页

时间:2019-03-25

[设计]搜索引擎原理_第1页
[设计]搜索引擎原理_第2页
[设计]搜索引擎原理_第3页
[设计]搜索引擎原理_第4页
[设计]搜索引擎原理_第5页
资源描述:

《[设计]搜索引擎原理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、搜索引擎原理概述搜索引繁,通常指的是收集了因特网上几T万到几十亿个网页并对网页屮的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。[编辑本段]搜索引擎结构划分搜索引擎的基本上分为四个步骤:1.爬行和抓収搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛。搜索引擎从已知的数据库岀发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎会跟踪网页屮的链接,访问更多的网页,这个过程就叫

2、爬行。这些新的网址会被存入数据库等待抓取。所以跟踪网页链接是搜索引擎蜘蛛发现新网址的最基木的方法,所以反向链接成为捜索引擎优化的最慕木因索没有反向链接,搜索引擎连页面都发现不了,就跟谈不上排名了。搜索引擎抓収的贝面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。2.索引蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程既是索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。3.搜索词处理用户在捜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词

3、,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。4.排序対搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并口根据排名算法计算岀哪些网页应该排在前血,然示按照一定格式返回到“搜索”页面。再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没冇SEO的帮助,捜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。[编辑本段]搜索引擎数据结构搜索引禁的核心数据结构为倒排文件(也称倒排索引),倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件,即次索引。倒排文件中包括了所有副键值,

4、并列出了与z有关的所有记录主键值,主要用于复杂查询。与传统的SQL查询不同,在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排文件”。倒排文件简单一点可以定义为“用文档的关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍屮,索引是关键词,书的页面是索引目标)。搜索引擎原理收藏在浩如烟海的Internet±,特别是其上的Web(WorldWideWeb万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使川哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题。一、搜索引擎的分类获得

5、网站网页资料,能够建立数据库并提供杏询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullTextSearchEngine)和分类目录Directory)。全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)"或叫''网络蜘蛛(crawlers)"的软件,通过网络上的各种链接口动获取大量网页信息内容,并按以定的规则分析整理形成的。Google.百度都是比较典型的全文搜索引擎系统。分类冃录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原

6、始的分类目录,比如"网址之家"(http://www.hdol23.com/)。全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却菲常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般対全文搜索引擎的查询称为搜索“所有网诂”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类目录的杏询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索(http:/

7、/dir.sina.com.cn/)和雅虎中国搜索(http://cn.search,yahoo.com/dirsrch/)o在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权H.也把它们称作搜索引繁,主要有这两类:1•元搜索引擎(METASearchEngine)o这类搜索引擎一般都没冇白己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界血集中显示。元搜索引擎虽没有“网络机

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。