欢迎来到天天文库
浏览记录
ID:9863072
大小:190.00 KB
页数:17页
时间:2018-05-12
《搜索引擎技术、现状、以及未来发展趋势的文献综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、搜索引擎技术、现状、以及未来发展趋势的文献综述[摘要]随着最近10年中国互联网的快速发展,互联网已经彻底改变了人们的生活方式,而在互联网的发展过程中,搜索引擎发挥了巨大的推动作用。本文对搜索引擎的发展历史,采用的技术,发展现状,出现的问题以及未来发展方向进行了综述,让读者对搜索引擎有个宏观的了解。[关键词]搜索引擎,汉语分词,调查报告[正文]一、搜索引擎概述搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,
2、在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。二、搜索引擎的重要发展历程1.1990年,Montreal的McGillUniversity三名学生(AlanEmtage、PeterDeutsch、BillWheelan)发明Archie(ArchieFAQ),成为所有搜索引擎的祖先。2.1993年,MITMatthewGray的WorldwideWebWanderer,是世界上第一个Spider程序。3.1994年4月,杨致远和DavidFilo共同创办了Yahoo!。4.1995年,一种新的搜索引擎形式出现了——元搜索引擎(MetaS
3、earchEngine),即Washington大学硕士生EricSelberg和OrenEtzioni发明的Metacrawler。5.1996年8月,sohu公司成立。6.1998年,Google成立。7.2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。三、搜索引擎的技术层面(1)搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎(
4、MetaSearchEngine)。1.全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网
5、页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。全文搜索引擎:2.目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。目录索引:3.元搜索引擎(METASearc
6、hEngine) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。 除上述三大类引擎外,还有以下几种形式: 1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式
7、”搜索引擎更确切些。 2、门户搜索引擎:如AOLSearch、MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 3、免费链接列表(FreeForAllLinks,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。 由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。(2)搜索引擎的原理1、抓取网页
此文档下载收益归作者所有