欢迎来到天天文库
浏览记录
ID:34561204
大小:889.39 KB
页数:4页
时间:2019-03-07
《浅析搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、CSTᒦਪᄰቧኧ્ᇋஔኧၣฤ્൙ᆪૹ浅析搜索引擎彭轲廖闻剑(武汉邮电科学研究院,湖北武汉430000)摘要:介绍了搜索引擎的概念、分类、原理、组成结构、基本工作方式和流程,对现今搜索引擎中所使用的技术进行初步的比较和分析,并对将来的研究方向进行了展望。关键词:搜索引擎;检索;索引TheAnalysisofSearchenginePengKeLiaoWenjian(WuhanResearchInstituteofPosts&TelecommunicationsHubeiWuhan430000)Abstract:Inthispaper,weillustrateth
2、ebasicconcepts,category,principleandarchitectureofthesearchengines.Thensearchengines’technologywhichwasusednowadayswillbecomparedandanalyzed.Andaprospecttothefuturestudywillbemadeatlast.Keywords:Searchengine;Search;index.1引言在这个信息爆炸的时代,从网络上寻找自己所需要的信息越来越离不开搜索引擎,这种快捷而便利的方式已越来越受人青睐,而Baid
3、u,Google,Yahoo等搜索引擎的成功标志着搜索引擎已不再是IT人士才懂的专有名词。搜索引擎带给我们的庞大的信息量和便捷的操作使得复杂的互联网高维网状结构简化为平面,平面的中心是信息的使用者,各种信息触手可及。由于搜索引擎公司Google上市的刺激,使得各方开始认真思考搜索的意义,从而使得搜索引擎研究成为学界较为热门的研究话题。2什么是搜索引擎搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应。目前网上的
4、搜索引擎模式为获得信息——整理,建立数据库——提供查询。网络搜索引擎一般都有其后台数据库,连接方法多样,可以通过CGI实现客户端与服务器端的交互,或使用Active数据库控件实现WEB与数据库的连接。CHINASCI-TEC2008.01—1193—CHINASCI-TECᒦਪపଆᆪማ3搜索引擎的分类3.1按搜索范围划分按搜索范围划分因特网上的搜索引擎可分为两大类。第一类是全文检索(Fulltextsearch)的搜索引擎,用户能够对各网站的每个主页中的每个词进行搜索。全文搜索引擎的优点是查询全面而充分。当全文搜索引擎遇到一个网站时,会将该网站上所有开放的网页全
5、部获取下来,并收入到引擎的数据库中。只要用户输入查询的“关键字”在引擎库中的某个主页中出现过并且最贴近关键词,则这主页就会作为匹配结果优先返回给用户。全文检索真正提供了用户对Intemet上所有信息资源进行检索的手段,给用户以最全面最广泛的搜索结果;第二类是建立在分类学基础上的目录分类式搜索引擎。它通过人工方式将所收入的站点进行分类而建立数据库,以提供查询。目录分类式搜索引擎当遇到一个网站时,先将该网站划分到某个分类下,再记录一些摘要信息该网站进行概述性的简要介绍。用户提出搜索要求时,搜索引擎只在网站简介中搜索。分类搜索引擎的优点是将信息分门归类,用户可清晰方便
6、地查找到某类信息,这符合传统的信息查找方式,尤其适合希望了解某方面或范围的信息,并不严格限于查询关键字的用户。3.2按工作机理划分3.2.1机器人搜索引擎由一个称为蜘蛛(Spider)的机器人程序按设计者和网站定制的策略自动在互联网中抓取相应的信息,并通过分析抓取的网页文件获取网页中存在的新的URL链接,以此达到层层深入抓取的目的,抓取结束后采用单机存储或分布式存储的方式进行磁盘存储,然后由索引器为搜集到的信息建立索引,根据用户的查询输入检索索引库,并将查询结果返回给用户。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回多而杂,必须进行人工筛选。
7、3.2.2元搜索引擎这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。4搜索引擎的工作机理搜索引擎又称网络检索引擎,其英译名为Searchengine,Robot,Worm,广义上是指一种基于互联网的信息查询系统。一个网络搜索引擎一般由信息采集器、索引数据库和检索索引库的检索软件和用户接口四部分,如图1所示。4.1搜索器简而言之,搜索器就是帮助用户查找到特定信息的一种工具。而搜索引擎中的搜索器却承担了另一个网络数据抓取功能。只有正确地获取、表示、存储、组织信息,同时提供便
8、利的访问方式,才能方便用
此文档下载收益归作者所有