网络信息资源开发与利用第6章

网络信息资源开发与利用第6章

ID:37396047

大小:7.11 MB

页数:114页

时间:2019-05-12

网络信息资源开发与利用第6章_第1页
网络信息资源开发与利用第6章_第2页
网络信息资源开发与利用第6章_第3页
网络信息资源开发与利用第6章_第4页
网络信息资源开发与利用第6章_第5页
资源描述:

《网络信息资源开发与利用第6章》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《网络信息资源开发与利用》系列课件第6章Internet的信息检索与学术信息的开放获取2021/7/1701互联网搜索引擎搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,经过组织和处理后为用户提供检索服务的系统。1990年大学生AlanEmtage、PeterDeutsch等发明了Archie1993年JumpStation、TheWorldWideWebWorm(Goto的前身,也就是今天的Overture)和Repository-BasedSoftwareEngineering(RBSE)spider成功检

2、索整个因特网各种信息。JumpStation和WWWWorm只是以命中信息的先后顺序为结果排序,而RBSE是第一个索引Html文件正文的搜索引擎,也就是第一个在结果排列中引入关键字串匹配程度概念的引擎。1994年MichaelMauldin将JohnLeavitt的Spider程序接入到其索引程序中,创建了Lycos。同年4月DavidFilo和美籍华人杨致远共同创办了Yahoo。1995年元搜索引擎出现。2021/7/171搜索引擎的工作原理搜索器也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时搜索和发现新

3、的网页信息,并更新索引数据库,避免死链接。分析器借助词频统计、词语位置认定和一些特殊算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器根据分析器生成的关键词,建立从关键词到网页URL的关系索引倒排文档,即建立索引数据库。检索器根据用户输入的提问词,在索引数据库中进行匹配运算,然后将查询结果按相关程度排序。用户接口接收并解释用户输入的检索提问,最后将检索器查询的结果输出。搜索引擎实际上是一个WWW检索服务器,由搜索器、分析器、索引器、检索器和用户接口等部分组成。2021/7/172搜索引擎的检索功能搜索引擎的检索功能非常强大,通常包括布尔逻

4、辑检索、字符串(词组)检索、截词检索、字段检索、限制检索和位置检索,有些搜索引擎还包括自然语言检索、多语种检索、区分大小写等特殊功能,但并非每个搜索引擎都提供上述所有检索功能,也并非每种检索功能在各个搜索引擎中都有完全相同的表现。按受到搜索引擎支持的程度划分,各种检索功能的位次排列如下:布尔逻辑检索和字符串检索截词检索、字段检索和限制检索位置检索2021/7/173通用搜索引擎——百度2001年10月22日正式发布,是国内最大的商业化全文搜索引擎,其功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界领军人物Googl

5、e相媲美,在中文搜索的支持方面有些地方甚至超过了Google,是目前国内技术水平最高的搜索引擎,其独创的核心技术“超链分析”是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用。网址:http://www.baidu.com/2021/7/174基本检索逻辑算符:空格=“与”;符号“

6、”=“或”;符号“-”=“非”2021/7/175高级搜索语法语法字符含义及用法intitle:限定在网页标题中搜索site:限定在特定站点搜索inurl:限定在URL链接中搜索filetype:文档类型(如:doc、jpg、mpeg、…)限定例:“信息检索filetype

7、:all”表示结果中含有“信息检索”的所有文档类型的文件双引号(“”)或书名号(《》)检索结果的精确匹配2021/7/1762021/7/1772021/7/178调整搜索结果相关搜索在搜索结果页面下方提示若干与输入的关键词很相似的查询词,供用户从中选择结果中找相当于“二次检索”,可以帮助用户逐步缩小查找的范围,直至得到最佳结果2021/7/179百度快照百度收录的网页都会自动生成临时缓存,可供用户快速浏览2021/7/1710通用搜索引擎——Google1998年9月发布测试版,一年后正式商业运营。2005年Google中文推出,2006年4月命名为“谷歌

8、”,包含2400万个中文页面以及超过13亿的Web文件。网址:http://www.google.cn/Google是第二代搜索引擎的代表,目前被公认为全球最大的搜索引擎,并由于对搜索引擎技术的创新而获奖无数。Google所擅长的是易用性和高相关性,其先进的PageRank排序技术可以保证将重要的搜索结果排列在结果列表的前面。2021/7/1711检索界面逻辑算符:空格=“与”;符号“+”=“或”;符号“-”=“非”2021/7/1712高级搜索语法语法字符含义及用法intitle:在特定的网页标题中搜索site:在特定的域或站点中搜索inurl:在特定的U

9、RL链接中搜索link:显示所有指向特定网址的网页i

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。