中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展

ID:1320136

大小:96.00 KB

页数:9页

时间:2017-11-10

中外搜索引擎研究的现状与发展_第1页
中外搜索引擎研究的现状与发展_第2页
中外搜索引擎研究的现状与发展_第3页
中外搜索引擎研究的现状与发展_第4页
中外搜索引擎研究的现状与发展_第5页
资源描述:

《中外搜索引擎研究的现状与发展》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中外搜索引擎研究的现状与发展夏旭李健康(第一军医大学图书馆广州510515)摘要:以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。关键词:搜索引擎研究进展综述信息资源管理由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(SearchEngines),用于快速搜索WWW网络乃

2、至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。1搜索引擎的定义、检索机制、检索规则和词表应用1.1定义搜索引擎,Searchengines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索

3、途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特

4、定主题的检索专指性强等特点。1.1.1常规搜索引擎和元搜索引擎自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预

5、先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、FunCityWebSearch、HyperNews、Linksearch、Savvysearch、Metacrawler、BestSearch、W3SearchEngines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、BluesquirrelWebseeker等。Metacrawler(http:

6、//www.metacrawler.com)能同时调用6个搜索引擎;Savvysearch(http://www.savvysearch.com)可有选择地调用21个独立的搜索引擎,检索Web、Usenet新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion(http://www.profusion.com)最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch

7、、Copernic98等也是元搜索引擎。1.1.2集中式搜索引擎和分布式搜索引擎9基于搜索机器人的搜索引擎如AltaVista和目录式搜索引擎Yahoo从体系结构上看都是集中式的,从因特网上取回Web页,经过处理后将所有这些信息集中存到某个站点,用户通过访问该站点实现查询,通常它们之间没有协作,各自独立地搜集和处理信息,造成了大量重复工作,也浪费了网络带宽和CPU资源,给各Web站点带来了严重的负担,这种集中式的体系结构

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。