搜索引擎原理介绍与分析

搜索引擎原理介绍与分析

ID:34142426

大小:97.46 KB

页数:3页

时间:2019-03-03

搜索引擎原理介绍与分析_第1页
搜索引擎原理介绍与分析_第2页
搜索引擎原理介绍与分析_第3页
资源描述:

《搜索引擎原理介绍与分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、开发研究与设计技术本栏目责任编辑:谢媛媛搜索引擎原理介绍与分析曲卫华,王群(中国地质大学(北京)信息工程学院,北京100083)摘要:本文对当前的搜索引擎原理进行了简要的分类介绍,概述了中文搜索引擎的特殊性和难点,并给出了两种中文分词算法。关键词:搜索引擎;中文分词;全文检索;目录搜索;元搜索中图分类号:TP301文献标识码:A文章编号:1009-3044(2006)35-0113-02IntroduceandAnalyzingofSearchEnginePrincipleQUWei-hua,WANGQun(SchoolofInformationEngineering,ChinaUnive

2、rsityofGeosciences(Beijing),Beijing100083,China)Abstract:Thispapersimplyintroducesandcategorizescurrentsearchengineprinciple,makeasummaryofparticularityanddifficulty,atthesametime,anddescribetwokindsofchineseparting-wordsarithmetic.Keywords:SearchEngine;Chinesepartiingwords;FullTestSearchEngine;Se

3、archDirectory;MetaSearchEngine1引言(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易也都属于信息的飞速增长,使搜索引擎成为人们查找信息的首选工这一类。具,Google、百度、中搜、雅虎、等大型搜索引擎一直是人们讨论的目录搜索引擎比Robot搜索引擎需更多的人工干预、其数据话题,另外还有许多针对不同信息如新闻、图片、铃声、购物等的库由人工建立。编辑人员先访问某个Web站点,根据内容归类,再特定搜索引擎。通过使用搜索引擎,使人们检索信息的能力获得把网址、简介、类别等描述信息存入库中,查询时,搜索软件只需了极大的提高,成本有效的降低。但是,当前

4、人们对搜索引擎的工检索这些描述。作原理还不是很了解,随着因特网的普及、网络用户的增多、搜索目录界面一般采用分级结构,用户从基本的大类入口一级级技术的多样化,研究搜索引擎原理对帮助人们方便的、准确的、及向下访问,直至找到中意的内容;用户也可利用目录提供的搜索时的、专业的检索信息具有重要的现实意义。功能直接查询关键词。由于目录依靠人工分类,因此搜索出的结2不同搜索引擎的简单介绍果往往比Robot搜索引擎更精确,但目录只在保存的站点描述中2.1按技术原理,搜索引擎大体可分为三大类进行搜索,站点本身的变化不会反映到搜索结果中。2.1.1全文检索搜索引擎由于目录和基于Robot的搜索引擎有各自的优缺

5、点,很多搜全文搜索引擎(FullTextSearchEngine)是名副其实的搜索引索引擎都同时提供目录和基于Robot的搜索服务,以便尽可能地擎,国外具代表性的有Google、Yahoo、AltaVista、Teoma、WiseNut提供全面准确地查询结果。等,国内著名的有百度(Baidu)、北大天网、中搜等。它们都是从互2.1.3元搜索引擎联网上提取各个网站的信息(以网页文字为主)而建立的数据库元搜索引擎(MetaSearchEngine)在接受用户查询请求时,同中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺时在其他多个引擎上进行搜索,它自己不进行WWW的遍历,也序将结果返回

6、给用户,因此它们是真正的搜索引擎。没有自己的索引数据库。当用户查询一个关键词时,它把查询请从搜索结果来源的角度,全文检索搜索引擎又可细分为两求转换为其他搜索引擎的命令格式,分别向其它搜索引擎提交,种,一种是租用其他引擎的数据库,如Lycos引擎。另一种是拥有然后汇总这些搜索引擎返回的结果,组织后返回用户浏览器。利自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”用Meta搜索引擎、查询范围可涉及多个搜索引擎的数据库。著名的搜星搜索引擎就是一个中文元搜索引擎。(Robot)程序。绝大部分搜索引擎都采用这种形式。拥有自己检索程序的搜索引擎由三个主要部分构成:2.1.

7、4其他搜索引擎CrawLer、数据库和查询模块。Crawler是一个程序,在开始工作时除了前面三大搜索引擎外,还有以下几种非主流形式:从一事先制订好的URL列表出发自动访问Web站点,分析提取(1)集合式搜索引擎:如HotBot在2002年底推出的引擎。该网页中超文本的URL,将其加入列表、并根据URL列表进一步访引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进问其他站点,Crawler采集到的网页信息全部存于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。