欢迎来到天天文库
浏览记录
ID:27718527
大小:302.00 KB
页数:6页
时间:2018-12-05
《武汉领航者优化师解读搜索引擎的核心技术架构》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、武汉领航者优化师解读搜索引擎的核心技术架构武汉领航者优化师介绍到,搜索引擎是武汉领航者企业最专业的产品之一。每一位搜索引擎竞价客服对于搜索引擎的基本知识都要有所学习和掌握。武汉领航者优化师表示,搜索引擎的核心技术架构,大体包括以下三块,第一是蜘蛛/爬虫技术;第二是索引技术;第三是查询展现的技术。下面武汉领航者优化师将依次进行介绍和阐述:一、蜘蛛也叫爬虫,是将互联网的信息,抓取并存储的一种技术实现。武汉领航者优化师表示,搜索引擎的信息收录,很多不明所以的人会有很多误解,以为是付费收录,或者有什么其他特殊的提交技巧,其实并不是,
2、搜索引擎通过互联网一些公开知名的网站,抓取内容,并分析其中的链接,然后有选择的抓取链接里的内容,然后再分析其中的链接,以此类推,通过有限的入口,基于彼此链接,形成强大的信息抓取能力。有些搜索引擎本身也有链接提交入口,但基本上,不是主要的收录入口,不过作为创业者,建议了解一下相关信息,百度,google都有站长平台和管理后台,这里很多内容是需要非常非常认真的对待的。反过来说,在这样的原理下,一个网站,只有被其他网站所链接,才有机会被搜索引擎抓取。如果这个网站没有外部链接,或者外部链接在搜索引擎中被认为是垃圾或无效链接,那么搜索
3、引擎可能就不抓取他的页面。分析和判断搜索引擎是否抓取了你的页面,或者什么时候抓取你的页面,只能通过服务器上的访问日志来查询,如果是cdn就比较麻烦。而基于网站嵌入代码的方式,不论是cnzz,百度统计,还是googleanalytics,都无法获得蜘蛛抓取的信息,因为这些信息不会触发这些代码的执行。一个比较推荐的日志分析软件是awstats。但关于蜘蛛的话题,并不只基于链接抓取这么简单,延伸来说:第一、网站拥有者可以选择是否允许蜘蛛抓取,有一个robots.txt的文件是来控制这个的。第二、最早抓取是基于网站彼此的链接为入口,
4、比如说,客户端插件或浏览器,免费网站统计系统的嵌入式代码。第三、无法被抓取的信息。有些网站的内容链接,用一些javascript特殊效果完成,比如浮动的菜单等等,这种连接,有可能搜索引擎的蜘蛛程序不识别,当然,我只是说有可能,现在搜索引擎比以前聪明,十多年前很多特效链接是不识别的,现在会好一些。有些网站会给搜索特殊页面,就是蜘蛛来能看到内容(蜘蛛访问会有特殊的客户端标记,服务端识别和处理并不复杂),人来了要登录才能看,但这样做其实是违反了收录协议(需要人和蜘蛛看到的同样的内容,这是绝大部分搜索引擎的收录协议),有可能遭到搜索
5、引擎处罚。所以一个社区要想通过搜索引擎带来免费用户,必须让访客能看到内容,哪怕是部分内容。二、武汉领航者优化师解读搜索引擎的索引系统蜘蛛抓取的是网页的内容,那么要想让用户快速的通过关键词搜索到这个网页,就必须对网页做关键词的索引,从而提升查询效率,简单说就是,把网页的每个关键词提取出来,并针对这些关键词在网页中的出现频率,位置,特殊标记等诸多因素,给予不同的权值标定,然后,存储到索引库中。如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面
6、集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:(1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;(2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;(3)之前的准备工作完成后,接下来即
7、是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。三、查询展现武汉领航者优化师指出,用户在浏览器或者在手机客户端输入一个关键词,或者几个关键词,甚至一句话,这个在服务端,应答程序获取后处理步骤如下:第一步,会检查最近时间有没有人搜索过同样的关键词,如果存在这样的缓存,最快的处理是将这块缓存提供给你,这样查询效率最高,对后端负载压力最低。第二步,发现这个输入查询最近
8、没有搜索,或者有其他条件的原因必须更新结果,那么会将这个用户输入的词,进行分词,如果不止一个关键词,或者是一句话的情况下,应答程序会又一次分词,将搜索的查询拆成几个不同的关键词。第三步,将切分后的关键词分发到查询系统中,查询系统会去索引库查询,索引库是个庞大的分布式系统,先分析这个关键词属
此文档下载收益归作者所有