seo代码优化第四课.doc

seo代码优化第四课.doc

ID:55472429

大小:86.00 KB

页数:14页

时间:2020-05-14

seo代码优化第四课.doc_第1页
seo代码优化第四课.doc_第2页
seo代码优化第四课.doc_第3页
seo代码优化第四课.doc_第4页
seo代码优化第四课.doc_第5页
资源描述:

《seo代码优化第四课.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、研究搜索引擎剖析搜索引擎算法 (1)通用搜索引擎 对所有网页和文件进行收录整理并提供搜索服务,又可以分为两类,一类以Google为代表,几乎完全是由程序自动控制整个流程,人为的干预很少,效率比较高,比较公平,但缺点是由于程序的信息处理能力的局限性,对于网页内容的分类不够准确,有可能给用户提供实际并不需要的页面链接;另一种以Yahoo为代表,依靠人工建立庞大细致的分类体系,方便用户找到自己最需要的页面,这样可以最大限度保证分类的准确性,但是互联网上的信息量正以前所未有的速度增长,人工分类的效率相比之下就过于低下了,不能满足“查全”的要求。 (

2、2)专业搜索引擎 针对某一特定领域或特定文件类型进行收录整理并提供搜索服务。例如CiteSeer,就是典型的专业搜索引擎。其他的如中国北大天网FTP搜索引擎,专门针对FTP目录下的文件进行搜索;最近随着博客(网络日志)兴起而兴起的博客搜索引擎,由于博客的分类机制比较稳定,而且博客的世界里常常关心的是最新的最有意思的一些新闻,因此未来很可能有大的发展;音乐搜索引擎、电影搜索引擎,针对特定的音频、视频文件格式提供搜索;等等。 (3)元搜索引擎 元搜索引擎是基于通用Web搜索引擎GSE框架建立的一种搜索机制。GSE框架结构主要由用户、Web服务器

3、、Web信息获取与处理接口、任务调度器、连接管理器Web及搜索引擎组成。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。通用Web搜索引擎框架将因特网上众多的现有的Web搜索引擎看成一个整体,为用户提供一个透明的分布式异构Web搜索引擎环境,该种方式的引擎可以看作元搜索引擎,它为用户提供一个统一的、集成的查询请求,元搜索引擎根据知识库中的信息转换为各个Web搜索引擎所能识别的格式,然后发给各个搜索引擎,由这些搜索引擎完成实际的信息检索。元检索引擎在

4、搜索到各个Web搜索引擎系统返回的结果后,经过比较分析,然后以一定的格式返回用户。 3、搜索引擎目前主要存在的问题    现在的搜索引擎可谓“百花齐放”,Google、Yahoo、百度、天网等搜索引擎激烈竞争,连之前很少涉及搜索引擎领域的微软也按捺不住,推出了MSN搜索引擎。但是仍然有许多问题:    (1)网络信息量太大,而且处于不断的更新当中,难以进行全面的收录,而且收录得越多,全面的更新越困难。    (2)对于搜索引擎使用者的真正需求,程序并不能准确判断。同样的关键词,不同的人可能需要查找的内容不一样。要在返回查找结果的过程中,将所

5、有结果按重要程度从高到低的顺序组织起来呈现给用户,排序算法是十分关键的。目前许多搜索引擎都使用基于关键字查询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。然而“据估计近85%的用户只浏览搜索引擎返回的第一页结果”因此,如何将用户最感兴趣、最重要的页面放在搜索结果的前面就成为影响搜索质量的一个重要因素。    (3)现在越来越多的人为了能够在搜索引擎返回的结果中排位靠前,特别针对搜索引擎的算法进行一定的优化,如在网页中大量添加热门搜索词汇等,影响搜索引擎的正确判断,使得用户得到许多毫无用处的结果。    (4)分词技术不完善,对中

6、文的检索结果很多不能与用户期望的很好匹配。 4、几种排序算法简介(1)HITS算法 它是由康奈尔大学(CornellUniversity)的JonKleinberg博士于1998年首先提出的,HITS的英文全称为Hypertext-InducedTopicSearch。目前,它为IBM公司阿尔马登研究中心(IBMAlmadenResearchCenter)的名为“CLEVER”的研究项目中的一部分。Kleinberg认为搜索开始于用户的检索提问,每个页面的重要性也依赖于用户的检索提问,他将用户检索提问分为三种:特指主题检索提问(specif

7、icqueries,也称窄主题检索提问)、泛指主题检索提问(Broad-topicqueries,也称宽主题检索提问)及相似网页检索提问(Similar-pagequeries)。而HITS算法则专注于改善泛指主题检索的结果。Kleinberg将网页(或网站)分为两类,即hubs和authorities。应该注意的是,每个页面也有两个级别(ranking),即hubs(中心级别)和authorities(权威级别),authorities为具有较高价值的网页,依赖于指向它的页面,而hubs为指向较多authorities的网页,依赖于它所指

8、向的页面。HITS算法的目标就是通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。 (2)PageRank算法 虽然Web页面

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。