欢迎来到天天文库
浏览记录
ID:19334823
大小:17.09 KB
页数:6页
时间:2018-10-01
《搜索引擎的原理及spider程序浅析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、搜索引擎的原理及spider程序浅析 摘要:当今世界,互联网在人们的生活中扮演着越来越重要的角色。通过互联网,企业可以随时发布各种信息,使得企业借助互联网,可以取得不断的发展;而普通的互联网的用户,则可以通过互联网方便的查询各种各样的信息。尤其是3G手机的普及及应用,搜索引擎更是受到人们的青睐,该文就搜索引擎的原理及核心程序Spider做下简要分析。 关键词:互联网;搜索引擎;Spider 中图分类号:TP393文献标识码:A文章编号:1009-3044(XX)25-6118-02 搜索引擎是一个为因特网用户提供信息搜索服务的网站,它使用一些些
2、程序和算法把因特网上的所有信息归类,以帮助人们在浩瀚的“网海”中搜查找所需要的信息。 随着互联网的不断发展和日益普及,网上的信息量在爆炸性的增长,全球Web页面的数目已经超过40亿以上,中国的网页数目估计也超过了3亿以上。由于信息的飞速增长,用户通过互联网一个一个查找已不可能。新的信息查询技术——搜索引擎技术就应运而生,并得到了飞速发展。搜索引擎以一定的算法在互联网中搜集发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。 另一方面,由于互联网的发展,随着更多的网民迫切需要通过网络了解更多的公司及产品,国内外众多企业也逐渐意识到网络对
3、于自身发展的重要性。企业为了推广自己的产品,就需要让更多的人知道、访问自己公司的网站,尤其是被潜在的客户浏览,就需要借助专业的网站推广手段,而搜索引擎,正是网站推广中最廉价、最高效的方式。搜索引擎是目前最重要、效果最明显的网站推广方式,也是最为成熟的一种网络营销方法。搜索引擎的搜索排名也成了搜索引擎公司的新亮点。 目前比较流行的“搜索引擎”主要有百度、谷歌等。下面就其中的几个简要介绍一下: 百度:百度是全球最大的中文搜索网站,在中文检索方面处于绝对领先地位,百度除提供网页搜索外,还提供MP3、文档、地图、视频、新闻等多样化的搜索服务,率先创造了以百
4、度贴吧、知道为代表的搜索社区,将无数网民头脑中的智慧融入了搜索。另外近几年还推出了百度百科,搜集新词汇新名词,成了新的亮点。“百度一下”已经成为了人们进行搜索的新动词。 谷歌:“谷歌搜索引擎”由美国谷歌公司开发研制。谷歌的使命就是要为您提供网上最好的查询服务,促进全球信息的交流。谷歌开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对0多亿以上网页进行整理,谷歌可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,谷歌每天需要提供2亿次以上查询服务。谷歌近期推出的谷歌地球、地图、卫星等服务,使用户足不出户便知天下。
5、从搜索引擎的工作原理来区分,搜索引擎有两种基本类型:一类是纯技术型的全文检索搜索引擎,如百度、Google等,其原理是通过爬行程序到各个网站收集、存储信息,并通过一定的算法建立索引数据库供用户查询。另一类称为分类目录,这种搜索引擎并不采集网站的任何信息,而是利用各网站向搜索引擎提交网站信息时填写的关键词和网站描述等资料,经过人工审核编辑后,如果符合网站登录的条件,则人工输入数据库以供查询。分类目录的好处是,用户可以根据目录有针对性地逐级查询自己需要的信息,而不是像技术性搜索引擎一样同时反馈大量的信息。 搜索引擎的实现原理,根据搜索引擎的工作原理不同而
6、不同,若是通过Spider来实现的,则分下边四个过程:首先在互联网上搜索网页搜索完网页后建立相应的索引数据库然后在索引数据库中搜索最后通过一定算法对搜索结果进行处理和排序。具体过程是从互联网上抓取网页,首先使用能够从互联网上自动收集网页的爬行程序,遍历整个网络,并沿着任何网页中的所有链接爬到其它网页,不断的重复这过程,并把爬过的所有网页收集到服务器中并建立索引数据库。由索引数据库中的相关语言将收集回来的网页进行分析,提取相关信息,根据一定的算法计算,得到每一个网页针对页面内容中及超链接中每一个关键词的相关度,然后用这些相关信息建立索引数据库,在索引数据
7、库中检索,当用户输入关键词后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页,按一定算法对搜索结果进行处理排序。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来显示给用户。图1是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错、相互依赖。 下边就Spider即网络蜘蛛程序做下简要分析: 蜘蛛程序即就是把互联网形容成一个大的蜘蛛网,那么Spider程序就是在网络上的蜘蛛。网络蜘蛛就是在互联网上寻找链接点,然后沿着链接点一个一个爬行下去寻找所有的链接点,最后提取出爬行过的链接点进入一定的数据库。 网络蜘蛛一
8、般有两种搜索方法:广度优先遍历法和深度优先遍历法。广度优先是指从图中某个顶点A出发,在访问了A
此文档下载收益归作者所有