欢迎来到天天文库
浏览记录
ID:44298558
大小:191.73 KB
页数:11页
时间:2019-10-20
《基于搜索引擎下的网站的优化策略》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、燕山大学里仁学院基于搜索引擎下的网站优化的策略姓名:霍智杰张丽娟专业:电子商务20110402摘要在全球化和信息化的大背景下,互联网正在以惊人的速度发展。当前,搜索作互联网发展的引擎,越来越显出其“新门户”的特点,数据显示,搜索引擎使用率达到81.9%,用户规模3.75亿人,相对中国网民规模4.75亿,已经成为网民第一大应用。rfl2011年互联网报告得岀,我国的网站数量有所下降,但是网页的数量和容量却仍在飞速增长。如何使网站或者在网页在茫茫网海屮占到一席Z地,以及如何优化搜索引擎显得颇为重要。本文针对如何使网站或者网页得到最大化的优化,使其更好的被搜索进行
2、讨论。本文共分五章,第一章主要简述研究的意义;第二章主耍描述网络爬虫的原理;第三章主要介绍搜索引擎的工作方式;第四章主要阐述网站优化的几种策略;第五章是结语。第一章绪论第一节研究网站优化的意义截止2010年12月,中国的网站数,即域名注册者在中国境内的网站数(包括在境内接入和境外接入)减少到191万个,年降幅41%。网站数量的下降与国家加大互联网领域的安全治理有关,网站等互联网基础资源的质量随着“水分”的溢出而得到提升。虽然网站数量大幅下降,但网页的数量和网页字节等互联网资源数却在大幅增加。下图是2006〜2010年我国网页数和增长率的概况。2006~201
3、0年网页数量2006~2010年网页增长百分比基于此,从企业的角度来看,优化网站来提高企业的竞争力,势在必趋。第二章网络爬虫的原理什么是网络爬虫呢?把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。网络蜘蛛在抓取网页的吋候,网络蜘蛛一般有两种策略
4、:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起如网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,这是最常用的一种方式,因为这个可以并行处理,提高遍历网页的效率。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接的处理,等处理完一条线路后,再转入下一个起始页,继续跟综链接。这个方法对网络蜘蛛的设计者来说比较容易设计。网络爬虫的任务就是根据一定的策略获得WEB页面和决定链接的访问顺序。而如何评价和预测链接的“重要程度”,是决立网络蜘蛛中搜索策略的关键。针对此,学者们提出了许多评价标准和模型。如FishSearch是最
5、早的网络爬虫草系统之一,采用深度优先算法;Herseovic对Fish系统进行了改进,将“鲨鱼”算法引入网络蜘蛛的搜索策略,利用向量空间模型计算页面的相似度,根据链接周围文本价值和链接的“继承价值决定优先级及爬行的深度。诸如此类还有很多,但改进网络爬虫的技术的出发点是为了提高查准率和查全率,因为最终使用搜索引擎的是用户。从用户的角度出发,对搜索引擎评价的三个重要指标是查准率、查全率和查询速度。了解了网络蜘蛛的工作原理,我们就可以针对此做出相应的策略。第三章搜索引擎的工作方式搜索引擎是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处
6、理后,为用户提供检索服务的系统。上一章讲到的网络蜘蛛(也叫做网络爬虫)与搜索引擎是一个怎样的关系呢?网络蜘蛛是搜索引擎的一部分。现代大规模高质量的搜索引擎一般采用卜•图所示的称之为三段式的工作流程,即:网页搜集、预处理和查询服务。搜索引擎组成屮介绍的蜘蛛完成网页搜集,分词器和索引器完成预处理功能,査询服务由检索器完成。目前常用的中文搜索引擎有不少,但只有3、4个效果最好,像百度、GOOGLE、3721、雅虎,其余的像中搜、MSN、新浪、网易、搜狐也有•定搜索量,但效果明显不如前儿位。搜索引擎按其工作方式主耍可分为三种,分别是全文搜索引擎、目录搜索引擎和元搜索
7、引擎。(1)全文搜索引擎。全文搜索引擎是名副其实的搜索收擎,它们是通过从互联网上提取的各个网站的信息而独自建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的顺序排列将结果返回给用户。(2)冃录索引。目录索引仅仅是按目录分类的网站链接而己。用户可以不用关键字搜索,仅靠目录也能找到自己想要的信息。(3)元搜索引擎。元搜索引擎在接受用户查询请求时,同时在其他多个搜索引擎上进行搜索,并将搜索到的结果返回给用户。了解了搜索引擎,下面一章就如何提高优化自己的网站和网页,做几点讨论。第四章网站优化的几种策略第一节对关键字的优化关键字是描述网站或者网页或者产品的
8、词语,选择适当的关键字是建立一个高排名网站的第-步。
此文档下载收益归作者所有