因特网上的信息检索课件.ppt

因特网上的信息检索课件.ppt

ID:55887388

大小:48.50 KB

页数:23页

时间:2020-06-13

因特网上的信息检索课件.ppt_第1页
因特网上的信息检索课件.ppt_第2页
因特网上的信息检索课件.ppt_第3页
因特网上的信息检索课件.ppt_第4页
因特网上的信息检索课件.ppt_第5页
资源描述:

《因特网上的信息检索课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、因特网上的信息检索因特网信息检索方法在因特网中信息检索的方法有三种:1、基于超文本/超媒体的信息浏览从一个超文本/超媒体文档入手,沿着嵌入其中的、用户感兴趣的超链接区搜索信息2、基于目录服务的信息查询根据信息的主题降网络上的信息资源进行分类,并以目录的形式组织和表现3、基于搜索引擎的信息检索搜索引擎是一种信息检索工具,它从因特网上接受用户的查询请求,在数据库中进行检索,然后返回查询结果搜索引擎的产生最早的搜索引擎出现于1994年4月。斯坦福大学的两名博士生,美籍华人杨致远和美国人DavidFilo共同创办了超级目录索引雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。搜索引擎的分类按照

2、信息收集方法和服务提供方式,搜索引擎可分为:目录式搜索引擎全文搜索引擎元搜索引擎目录搜索引擎在目录搜索引擎中,通过人工整理分类,网络信息资源按照主题分类,并以层次树状进行组织,形成分类目录树。分类目录树从树的根结点开始逐层列出从一般到特殊的分类和各级子类节点。优点:找到的内容质量高、实用缺点:人工分类,目录的维护量大,信息更新不够及时,目录分类不够细。最著名的目录式搜索引擎:雅虎全文搜索引擎全文搜索引擎是通过从因特网中提取的各个网站的信息(以网页文字为主)而建立的索引数据库,当用户使用关键字查询时,它在库中检索与用户查询条件相符的相关记录,然后按照一定的排列将结果返回给用户。如百度、谷歌等

3、。优点:信息量大、更新较及时、不需要人工干预。缺点:返回信息量过多,有很多无关信息,广告也特别多。元搜索引擎元搜索引擎以单一的查询接口,向各种资源提交相同的查询,并组合这些资源的查询结果。这类搜索引擎没有自己的数据库,而是将用户查询请求同时向多个搜索引擎递交,将返回的结果进行重新排除、重新排序等处理,把综合的结果返回给用户。搜索引擎的工作原理目录式搜索引擎是以人工或半自动方式收集信息,有编辑人员查看信息后,人工形成信息摘要,并将信息至于事先确定的分类框架中。用户通过浏览分类目录来查看自己所需要的信息,在链接信息资源所在的位置。搜索引擎的工作原理1、目录式搜索引擎是以人工或者半自动方式收集信

4、息,由编辑人员查看信息后,人工形式信息摘要,并将信息置于事先确定的分类框架中搜索引擎的工作原理2、全文搜索引擎并不能真正理解用户的查询内容,只能把匹配查询关键词与索引数据库中的内容进行匹配。全文搜索引擎的工作过程是:从网上抓取网页建立索引数据库在索引数据库中搜索排序响应用户查询1、如何从互联网抓取网页使用蜘蛛(Spider)系统程序,自动访问因特网,并沿着网页中所有的URL爬到其他网页,重复这一过程,把爬过的网页收集回来搜索引擎的蜘蛛(Spider)系统程序会定期重新访问所有网页,以实现该网站信息的更新蜘蛛模拟器2、建立索引数据库由分析索引系统程序对蜘蛛收集到的网页进行分析,提取相关

5、网页信息(包括网页的URL、编码类型、页面内容所包含的关键词、关键词位置、生成时间、大小等),进行大量复杂的计算(算出网页中每一个关键词的相关度,即出现的次数),然后放到响应的索引数据库中3、在索引数据库中搜索排序当用户输入关键词搜索后,由搜索程序从网页索引数据库中找到符合该关键词的所有网页,按照该关键词在各网页中的相关度即次数,进行排序,并返回给用户,相关度越高,排名越靠前4、查询和响应选择最好的搜索工具每一个搜索都是不同的,如果你为每一个搜索都选择最好的搜索工具,那么每次你都会得到最好的搜索结果。最常见的选择是使用全文搜索引擎还是网站分类目录。一般的规则是,如果你在找什么特殊的内容或文

6、件,那么使用全文搜索引擎如google和altavista,如果你想从总体上或比较全面的了解一个主题,那么使用网站分类目录如yahoo和odp。对于特殊类型的信息考虑使用特殊的搜索工具,比如你要找人或找地点,那么使用专业的寻人引擎或地图和位置搜索网站。事实上几乎每种主题都有特殊的搜索工具。使用组合搜索关键词如果有个陌生人跑过来对你说"anchovypaste!"或"sibberidge!",你会有什么反映呢?大多数人会笑,或者询问那个人到底想说什么。可是搜索引擎无法作出这种选择——它们只能猜测你的问题,然后提供它们利用这有限的信息能够得到的最好结果。好的搜索请求应该包含多个能限制搜索范围的

7、关键词。使用自然语言搜索多数搜索引擎对自然语言的处理很好。事实上,搜索引擎能够从语句结构得到很有用的信息,不会象仅得到几个关键词那样容易迷失。与其输入几个不合语法的关键词,还不如试一下一句自然的提问。与其搜索“昆明公交车路线”,不如试一下“我在昆明如何乘坐公交车?"适当的名词首字母大写多数搜索引擎对特殊名词是很敏感的,这意味着,如果你使用大写的任命、地名或者其他合适的名词,将得到更好的结果。你搜索"JohnBull"得到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。