web搜索引擎优化技术之搜索引擎的定义

web搜索引擎优化技术之搜索引擎的定义

ID:17600645

大小:33.00 KB

页数:3页

时间:2018-09-03

web搜索引擎优化技术之搜索引擎的定义_第1页
web搜索引擎优化技术之搜索引擎的定义_第2页
web搜索引擎优化技术之搜索引擎的定义_第3页
资源描述:

《web搜索引擎优化技术之搜索引擎的定义》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、随着网络技术的迅速发展,万维网成为巨量信息的载体,如何有效地检索和利用这些信息成为巨大挑战。在未知链接地址时,用户要在这种信息海洋里查找信息无异于大海捞针。搜索引擎(SearchEngine)技术应势而生,成功地解决了这一难题。搜索引擎为用户提供信息检索服务,作为辅助人们检索信息的工具,是在Web上发现信息的关键技术,是用户访问万维网的最佳入口。根据权威调查显示,搜索引擎的导航服务已成为非常重要的互联网服务,全球80%的网站,其访问量70%-90%都来自于搜索引擎,因此,让搜索引擎收录更多的网页,就是提高网站访问量的最有效办法。搜索引擎借助于自动搜索网页的软件,在网络上通过各种链接获得

2、大页面文档的信息,并按照一定算法与规则进行归类整理,形成文档索引数据库,以备用户查询。提供这种服务的网站便是“搜索引擎”。搜索引擎收集因特网上数以十亿计的Web文档,并对其每术语即关键词进行索引,建立索引数据库,当用户查找某个关键词的时候,所有在包含该关键词的文档都将作为搜索结果罗列出来。这些结果将按照与搜索关键词的相关度高低,依次排列显示。搜索引擎搜索和收集的Web文档类型有HTML、PDF、博客、FTP文件、图片、字处理文档(Word、PPT)、多媒体文件等。本文主要涉及页面或Web文档。商业运作成功的著名搜索引擎有Google、Yahoo、MSN,AskJeeves和百度等。1.

3、1.1搜索引擎的工作原理搜索引擎有两个重要组成部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。搜索引擎的原理基于三段式工作流程,即搜集,预处理,提供服务。它以一定的策略在互联网中发现和搜集信息,对信息进行处理和组织,以便为用户提供检索服务,从而起到信息导航的目的。因此,搜索引擎的工作原理包括搜索引擎收录页面、建立索引和向用户提供查询服务等。1网页搜集搜索引擎使用软件按某种策略自动获取文档,软件名称不同,如Robot、Spider、c

4、rawler,Wanderer等。Robot直译为机器人,crawler直译为爬行器,spider直译为网络蜘蛛,Wanderer直译为漫游器,它们是搜索引擎用来抓取网页的工具或自动程序。著名搜索引擎的探测器(Robot):谷歌的为googlebot,百度的为baiduspider,MSN的为MSNbot,Yahoo的为Slurp。搜索引擎将检索首页,并根据其中的链接去搜索网站其它页面。搜索引擎从Web中抓取页面的过程如同蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl),被称为Webcrawling或Spidering。搜索引擎要从互联网上抓取网页,利用其Spider(蜘蛛)

5、自动访问互联网,并沿着网页中的URL爬到其它网页。搜索引擎将Web看作是一个有向图:·搜集过程从初始网页的URL开始,找出其中所有URL并放入队列中;·根据搜索策略从队列中选择下一步要抓取的网页URL;·重复上述过程直到满足系统的停止条件。网页抓取策略分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致蜘蛛的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。Web有两个重要特征:信息海量和更新频率快,这使得Webcrawling极其困难。巨量信息意味着在给定时间蜘蛛只能下载部分Web页面,这需要蜘蛛有针对性地下载。快速的更新频率意味着蜘蛛在下载某个网站的最后一

6、个页面时,说不定前面下载的页面已经被更新了。CrawlingWeb在某些程度上相似于在晴空万里的夜间观望天空,你所看到的只是群星在不同时刻状态的反映,因它们的距离不一。蜘蛛所获取的页面集合也非Web的快照,因这不代表任一时刻的Web。如今,网络速度虽然有所提高,但仍然满足不了处理速度和存储容量的要求。因此,搜索引擎的Spider一般要定期重新访问所有网页,时间间隔因搜索引擎和目标网页而异,以便更新索引数据库,比较真实地反映出网页内容的更新情况,如增加新网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。从而使得网页的具体内容及其变化情况比较准确地体现在用户的查询结果中。2预处

7、理预处理旨在为收集到的Web文档建立逻辑视图。在传统的信息检索中,文档逻辑视图是“bagofwords”模型,即文档被视同为一些单词的无序集合。而在Web搜索引擎中,这种视图被逐步扩展了,如用词频、权重、Web文档的元信息、文档的权威性和使用情形等。搜索引擎要处理蜘蛛所搜索到的信息,从中抽取出索引项,以便用户检索,索引项分为:·内容性索引项·元数据索引项,指文档的作名、URL、更新时间、编码、长度等搜索引擎要给索引项赋于权值,以表示该索引项对文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。