资源描述:
《搜索引擎综述.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、学习园地信息检索的工具。搜索引擎已经成为信息领搜索引擎综述域的产业之一。它要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论张磊和技术,具有综合性和挑战性。又由于搜索引擎有大量的用户,摘要:由此衍射出许多商机,具有很好的经济价值。本文简述了搜索引擎的概念,地位,现状,2.起源及发展起源,发展等,并对其分类、性能指标,关键技[1]第一代搜索引擎出现于1994年。这术等方面做了一定的研究和讨论,在此基础类搜索引擎一般都索引少于1,000,000个网上对其发展趋势和前景作了相关展望。页,极少重新搜集网页并去刷新索引。而且其关键词
2、:搜索引擎,数据挖掘,Web信息检索速度非常慢,一般都要等待10秒甚至更检索;长的时间。在实现技术上也基本沿用较为成IntroductionofSearchEngine熟的IR(InformationRetrieval)、网络、数据库ZhangLei等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,Abstract网络爬虫WorldWebWorm(WWWW)平均每Thispaperdescribesthedefinition,posi-天承受大约1500次查询。tion,status,developmentofs
3、earchengine.It[2]大约在1996年出现的第二代搜索引alsoholdsdiscussionofcategory,performance,擎系统大多采用分布式方案(多个微型计算keytechnologyofsearchengine.Lookingfor-机协同工作)来提高数据规模、响应速度和用wardisalsopresentedattheendofpaper.户数量,它们一般都保持一个大约50,000,Keywords:searchengine,webinformation000网页的索引数据库,每天能够响应10,extrac
4、tion;000,000次用户检索请求。1997年11月,当1.概念、地位及现状:时最先进的几个搜索引擎号称能建立从2,随着网络日益融入人们的日常生活和000,000到100,000,000的网页索引。Altavista工作,作为一个信息平台,网络内容不断丰搜索引擎声称他们每天大概要承受20,000,富,整个网络逐渐堆积成一个前所未有的超000次查询。大型信息库。因此怎样快速有效的从海量数[3]自1998年出现了一个搜索引擎空前据中找出所需的信息就变成一个困难的问繁荣的时期,我们统称这一时期的搜索引擎题,搜索引擎正是为了解决"信息丰富,知识为
5、第三代搜索引擎。第三代搜索引擎的发展贫乏"奇怪现象问题而出现的技术。有如下几个特点:搜索引擎是一个信息处理系统,它以一[1]索引数据库的规模继续增大,一般的定的策略在互联网中搜集、发现信息,对信息商业搜索引擎都保持在几千万甚至上亿个网进行理解、提取、组织和处理,并为用户提供页。检索服务,从而起到信息导航的目的,一般包[2]除了一般意义上的搜索以外,开始出括信息搜集、信息整理和用户查询三部分。从现主题搜索和地域搜索。很多小型的垂直门用户的角度来看,它就是一个帮助人们进行户站点开始使用该技术。(2008/8泰州科技)·33·学习园地[3]由于搜索
6、返回数据量过大,检索结果hoo(现已采用Robot技术)、LookSmart、Open相关度评价成为研究的焦点。相关的研究又Directory等。可以分为两类:一类是对超文本链的分析,[2]基于Robot搜索引擎:基于Robot的在这方面Stanford大学的Google系统和搜索引擎多提供对全文的检索,有时也叫做IBM的Clever系统做出了很大的贡献;另一全文搜索引擎(FullText)。通过Robot程序类是用户信息的反馈,DirectHit系统采用的从互联网上搜集信息而建立索引数据库,检就是这种方法。索与用户查询条件匹配的相关记录,然
7、后按[4]开始使用自动分类技术。Northern一定的排列顺序将结果返回给用户。这类搜Light和Inktomi的DirectoryEngine都在一索引擎的代表是:Google、Fast/AllTheWeb、定程度上使用了该技术。AltaVista、Inktomi、Teoma、WiseNut等;国内[4]第四代搜索引擎的特征是主题搜索代表为:百度(Baidu),"天网"、OpenFind等。引擎。随着信息多元化的增长,千篇一律的[3]元搜索引擎:这类搜索引擎没有自己给所有用户同一个入口显然已经不能满足的数据库,而是将用户的查询请求同时向多特
8、定用户更深入的查询需求。同时,这样的个搜索引擎递交,将返回的结果进行去重、通用搜索引擎在目前的硬件条件下,要及时排序等处理后,作为自己的结果返回给用更新以得到互联网