《搜索引擎及其应用》PPT课件

《搜索引擎及其应用》PPT课件

ID:45418377

大小:5.51 MB

页数:66页

时间:2019-11-13

《搜索引擎及其应用》PPT课件_第1页
《搜索引擎及其应用》PPT课件_第2页
《搜索引擎及其应用》PPT课件_第3页
《搜索引擎及其应用》PPT课件_第4页
《搜索引擎及其应用》PPT课件_第5页
资源描述:

《《搜索引擎及其应用》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、KRNET'20001信息检索第六章搜索引擎及其利用信息检索第四章搜索引擎及其发展搜索引擎概述1百度与谷歌2搜索引擎的使用技巧3主要内容信息检索1搜索引擎概述什么是搜索引擎?搜索引擎是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。信息检索搜索器索引器检索器搜索引擎的组成1搜索引擎概述搜索引擎原理信息检索抓取网页建立索引数据库检索界面1搜索引擎概述搜索引擎原理信息检索利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到

2、其它网页,重复这过程,并把爬过的所有网页收集回来。第一步:从互联网上抓取网页因特网1搜索引擎概述搜索引擎原理信息检索第二步:建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。1搜索引擎概述搜索引擎原理信息检索搜索引擎的Spider还必须一同实现对索引数据库的动态维护,以保证索引数据库准确反映网络信息资源的当前状况。1搜索引擎概述搜索引擎原理信息检索第三步:检

3、索界面的建立搜索引擎根据用户输入的检索词,在索引数据库中快速地检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。1搜索引擎概述搜索引擎原理信息检索每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。1搜索引擎概述搜索引擎原理信息检索抓取网页建立索引数据库检索界面1搜索引擎概述搜索引擎原理搜索器索引器检索器数据采集数据组织用户检索信息检索搜索引擎的发展元搜索引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索目录搜索Go

4、ogle1998Baidu1999……第三代搜索网页搜索1搜索引擎概述信息检索搜索引擎分类按工作方式分:(1)目录式搜索引擎也叫“网址大全”,将网站分门别类地存放在相应的目录中,可按关键词搜索,也可按分类目录逐层查找。如Yahoo!(雅虎)、hao123、新浪分类目录搜索等1搜索引擎概述搜索引擎的分类信息检索雅虎目录式网址搜索引擎界面信息检索搜索引擎分类按工作方式分(2)全文搜索引擎用户可以搜索一篇文章的任何部分,不论是标题还是正文。如百度、Google、必应。1搜索引擎概述搜索引擎的分类信息检索信息检索搜索引擎分类按工作方式

5、分:(3)元搜索引擎指用户同时利用多个引擎进行网络搜索的中介。元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。目前世界上著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。1搜索引擎概述搜索引擎的分类信息检索InfoSpace元搜索引擎界面信息检索元搜索引擎——觅搜、Dogpile信息检索指数确定结果排序信息检索Dogplie信息检索指明出处信息检索常用搜索引擎信息检索Google是目前最大的全球性搜索引擎之一。创始人:斯坦福大学博士生拉里·佩奇(LarryPage)和谢尔盖·

6、布林(SergEyBrin)创立。2百度与googleGoogle(谷歌)信息检索名字由来源于数学名词“Googol”,Googol表示一个1后面跟着100个零。GoogleInt.使用这一术语体现了公司整合网上海量信息的远大目标。使命整合全球信息,使人人皆可访问并从中受益。价值观:Don’tbeevil不作恶2百度与googleGoogle(谷歌)信息检索信息检索信息检索Google技术PageRankPageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术

7、。Google用它来体现网页的相关性和重要性。2百度与google信息检索Google技术PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。2百度与google信息检索Google的PageRank技术链接1链接210053链接1链

8、接2链接395033信息检索Google技术超文本匹配分析技术(Hypertex-tMatchingAnalysis)Google除了考虑检索词出现的次数,还分析关键词的字体、字号、以及字号以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页)的内

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。