中文搜索引擎技术分析与研究

中文搜索引擎技术分析与研究

ID:9933065

大小:99.50 KB

页数:14页

时间:2018-05-16

中文搜索引擎技术分析与研究_第1页
中文搜索引擎技术分析与研究_第2页
中文搜索引擎技术分析与研究_第3页
中文搜索引擎技术分析与研究_第4页
中文搜索引擎技术分析与研究_第5页
资源描述:

《中文搜索引擎技术分析与研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《中文搜索引擎技术分析与研究》目录一、搜索引擎概述1二、搜索引擎的技术发展历程2搜索引擎的雏形2第一个搜索引擎2搜索引擎的分类2三、搜索引擎的基本原理4四、国外主要搜索引擎5·AltaVista5·HotBot5·Yahoo5·Excite6五、中文搜索引擎比较71.中文搜索引擎的特点72.中文搜索引擎评价72.1关键词检索站点72.2分类搜索引擎9六、搜索引擎的技术发展趋势12一、提高搜索引擎对用户检索提问的理解12二、对检索结果进行处理12三、确定搜索引擎信息搜集范围,提高搜索引擎的针对性12四、将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检

2、索结果12姓名:姜力学号:05017317班级:电信本056指导老师:邵鹏飞13一、搜索引擎概述1.概念  本文所称的搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词全文检索、主题词检索、分类检索及其它特殊信息的检索(企业、人名、电话黄页等)。2.分类  目前因特网上的搜索引擎很明显地可分为两大类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎,当然

3、这两类搜索引擎的功能是互相借鉴和渗透的。3.检索功能  除分类浏览或自由词检索外等基本功能外,是否提供各种检索功能扩展,如逻辑检索功能(支持AND、OR、NOT),其他逻辑检索功能(NEAR、PHRASE)和各种其它功能(如截词检索)等。4.结果显示  搜索引擎总是要将检索结果返回给用户,而结果显示的好坏直接影响到搜索引擎的使用效果。因此,结果显示的内容组织,如何排序,是否提供足够的相关信息(内码、文件大小、文件日期等),对用户对检索结果的判断具有很大的影响。5.页面组织  大多数搜索引擎本身就是WEB站点,其页面组织就如同用户的使用界面一样,组织得好与坏直接影

4、响到用户的使用效果。页面是否能根据用户需求定制也是页面组织的一个重要内容。6.其他功能  搜索引擎,尤其是国外的搜索引擎,为了招揽用户,在提供搜索服务之外,还提供其他相关服务。如新闻提供、免费EMAIL,自动翻译、网上聊天,常用信息(天气、旅游等)等,以其吸引更多的用户,从而获取更多的广告收益。13二、搜索引擎的技术发展历程搜索引擎的雏形蒙特利尔大学学生艾伦.伊米杰在1990年发明的Archie算是现代搜索引擎的雏形。当时经常需要在网络中传输大量的文件,由于这些文件大多散布在分散的FTP主机中,查询起来非常不便,因此艾伦.伊米杰想到了开发一个可以通过文件名来查找

5、文件的程序,于是便有了Archie。Archie工作原理与现在的搜索引擎很相似,它依靠脚本程序自动搜索网上共享的文件,然后对相关信息进行索引,以供使用者查询。不过此时的搜索工具还只限于文件索引功能,随后出现的一些类似于Archie的搜索工具中就加入了检索网页的功能。蜘蛛程序的由来当时,电脑“机器人”一词可是非常流行,它指的是某个能够以人类无法达到的速度不间断地执行某种任务的软件程序。由于专门用于检索网络信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎中的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是马太.杰

6、瑞开发的WorldWideWebWanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与杰瑞的Wanderer程序相对应,马丁.科斯特于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是依靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo等网站。第一个搜索引擎第一个真正意义上的现代搜索引擎出现在1994年7月。当年4月,美国斯坦福大学的两名博士生,大卫.菲勒和美籍华人杨致远共同创办了大家熟知的超级目录索引Yahoo,从此搜索引擎进入了高速发展的时期。目前

7、,互联网上大大小小的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。随着互联网规模和信息量的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。搜索引擎的分类一、通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务因此是真正的搜索引擎。在美国,搜索引擎通常指的就是这类基于因特网的搜索引擎,这种引擎收集因特网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。典型的因特网搜索引擎包括ALT

8、AVISTA、INKTO

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。