欢迎来到天天文库
浏览记录
ID:16260521
大小:35.00 KB
页数:4页
时间:2018-08-08
《2011现代搜索引擎技术论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、现代智能化之WEB搜索技术摘要:在Internet的快速发展时代,搜索引擎系统技术越来越成为人们网上冲浪和获取信息的必要工具。搜索引擎,旨在Internet中主动搜索信息并自动索引、提供查询服务的一类网站。针对该问题,基于WEB的搜索引擎技术自1994年以来已经发展了三代,本文从WEB搜索技术的智能化、个性化发展轨迹和应用特点开始,深入探讨了智能搜索引擎系统的结构、构建以及相关应用算法思想。关键词:WEB搜索引擎;智能化;Lucene;中文切词一、现代智能化之WEB的定义、发展趋势与应用热点1.1定
2、义无论是从搜索引擎的工作原理分析,还是从搜索引擎各部分所涉及的主流技术分析,搜索引擎的发展始终围绕的是用户:Robot的设计要为用户搜集尽可能全的信息;PageRank技术或者HITS迭代算法或者其他的排序策略都是要为用户提供高质量的查询结果;空间向量模型在检索过程中用于相关度的计算,目的是要使结果更加符合用户查询要求。超文本链接的研究,Web文档相关度的计算都是基于信息资源本身的研究。1.2发展趋势与应用特点当前,第三代搜索引擎的发展趋势是更加智能化、个性化,并在此基础上力求具备更高的查全率与查准
3、率,更全面的查询功能。首先,通过目录型和检索型的搜索引擎技术相互结合,提供多样化和个性化的服务。以Yahoo为例,用户可以从它的首页上查看新闻、金融证券信息、天气预报、浏览黄页,可以进行网上购物、拍卖、找人,或者使用免费E-Mail和网上寻呼等服务。近期许多搜索引擎已开始提供个性化的服务,例如Yahoo的“MyYahoo”、InfoSeek的“personalizedstartpage”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面上。搜索引擎技术是当今计算机应用技
4、术的前沿学科,搜索引擎技术目前已经发展了三代。第一代是基于人工登入、检索、排序的目录式搜索引擎,以YAHOO为代表。我认为这一代搜索引擎的局限在于查全率(检出的文档与相关文档之比)比较低。目录式搜索引擎还存在两大问题:一是分类是按分类者或分类软件的分析而定,不一定与用户的意见一致;如果用户对查找目标了解比较浅显,就需要从其14个大类别开始选取,再一层一层深入,而忽略了事物的横向客观联系。当要查找一个容易引起多意理解的概念如:“病毒、神经网络”等,用户可能就会深入多个目录树型结构中去。二是如果用户查找
5、的信息没有对应的分类项,则无法进行搜索。第二代搜索引擎是基于用户输入的查询关键词检索型的搜索引擎,以Google和Baidu、AltaVista为代表,通过使用网络机器人(WEB4ROBOT)自动遍历决大多数INTERNET网页,并存贮其中的主要文本内容、图片或多媒体信息。在本地维护一个海量的网页存储数据库,存储数十亿至几百亿个网页,根据关键词的使用频度建立索引(这也是个巨量的工作)并维护之,利用特有的页面排序算法(如GOOGLE的PAGERANK)返回给用户查询结果。由于页面权值算法有其特点,尽管
6、查全率比第一代搜索引擎有很大提高,但不能保证查准率(检出的文档与目标文档之比)。另外,它们仍然是基于关键词的搜索查询,在用户方面,关键词的选择可能导致查询结果有较大的差异。第三代搜索引擎一词在2004年的曝光率(或者叫做“媒体可见性”)非常高,重要原因之一是国内服务商竞相推出“第三代搜索引擎”。“互联网提供了即时丰富的信息(以及人与人沟通参与/娱乐的平台),深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科
7、全书加上了目录和索引。不论我们想从互联网中寻找清华北大的网址、李小龙的图片,或者养猫的方法,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。1.3当前其他搜索引擎技术介绍元搜索引擎技术也日益得到人们的重视。元搜索引擎是一种集成化搜索引擎,它是多个独立型搜索引擎的集合体,没有自己的数据库,是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用,甚至是同时利用多个搜索引擎实现检索操作。元搜索引擎有代表性的是:国外的Profusion、Mamma以及国内的万纬搜索等,实用的搜索引擎必将具备对
8、多种信息类型文件的检索功能;后者是基于P2P(PeetoPeer)J技术发展起来的,因为相距万里的用户可以通过P2P共享硬盘上的文件、目录甚至整个硬盘。如果把这一理念具体运用到搜索引擎技术上来:P2P将使户能够深度搜索文档,而且这种搜索无须通过Web服务器,可以不受信息文档格式和宿主设备的限制,因此可达到传统目录式搜索引擎无可比拟的深度[1]。二、搜索引擎智能化的组成和流程2.1智能搜索引擎系统的系统结构组成智能搜索引擎系统主要由6部分组成:网页内容搜索器CRWALE
此文档下载收益归作者所有