基于关键词的网页检索和排序【文献综述】

基于关键词的网页检索和排序【文献综述】

ID:472264

大小:27.00 KB

页数:4页

时间:2017-08-07

基于关键词的网页检索和排序【文献综述】_第1页
基于关键词的网页检索和排序【文献综述】_第2页
基于关键词的网页检索和排序【文献综述】_第3页
基于关键词的网页检索和排序【文献综述】_第4页
资源描述:

《基于关键词的网页检索和排序【文献综述】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计文献综述计算机科学与技术基于关键词的网页检索和排序摘要:随着Internet的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为Internet上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。关键词

2、:网页检索系统;中文分词;相关度计算,网页排序一、网页检索研究的历史和现状目前国际上的网页检索主要分成以下几类:(1)基于目录的网页检索基于目录的网页检索将收集到的信息分配到不同的类别中,典型的基于目录的网页检索有两大问题:1.分类是按分类者或分类软件的分析而定,不一定与用户的意见一致。2.如果你查找的信息没有对应的分类项,则无法进行检索。(2)基于机器人的网页检索基于机器人的网页检索从一组已知的文档出发,通过文档的超文本连接确定新的检索点,然后用索引机器人周游这些新的线索点,标引这些检索点上的新文档,将这些新文档,加入到索引数据库。以后网页检索系统可以用这个索引数据库

3、去回答用户的提问,检索方法有深度优先和广度优先两种,广度优先算法先标引新服务器上的新文档,然后标引已知的服务器上的新文档,即找到尽量多的服务器,它保证一个服务器上至少有一片文档加入索引数据库。它能降低服务器被访问的频度,缺点是不能深入文档。深度优先的算法能较好地发掘文档结构,如相互参照的链接结构,而且相对比较稳定,缺点是有可能进入无限循环。数据检索方法有基于全文和基于标题两类。基于机器人的网页检索的缺点是不安全及产生大量的网络负载和网络服务器负载。(3)基于关键词的网页检索基于关键词的网页检索从一组客户输入的关键词出发,检索WWW上的包含此关键字的文档并传送这些文档,在

4、提交给客户前,网页检索系统会对所有检索的的文档进行排序,新一代的基于关键词的网页检索会根据访问用户的相关信息给用户提供个性化的服务,这也正是我们所希望达到的目标。(4)元网页检索元网页检索将用户的查找要求递交给其他的网页检索系统,它的注意力在改进用户界面及用不同的方法过滤它从其他网页检索系统接收到的相关文档,包括消除重复信息。元网页检索系统设计简单,但网络的负载太大。(5)分布式网页检索分布式检索系统按区域、主题或其他标砖创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且相互可以被重新定向,如果一个检索服务器没有满足查询请求的信息,它可以将查询请求发送到具有相

5、应信息的检索服务器,由于分布式网页检索系统将索引数据库划到几个分布的数据库,每个数据库变得小一些,但所有网页检索系统覆盖的范围变大,且很少有信息重复,而作为分布式系统特征之一的可扩充新也是分布式网页检索系统的优点之一,然后分布式网页检索系统需要多个索引数据库协同工作,实现交困难,目前尚没有真正的、使用的分布式网页检索系统。二、网页检索的发展和趋势元网页检索系统是共享多个独立的外部网页检索系统信息库为用户提供信息服务的系统。它的工作原理比一般的网页检索系统要简单,但在检索效果上比一般网页检索系统要优越。元网页检索系统不仅极大地扩充了传统网页检索系统的检索范围,实现真正意义

6、上遍历整个Web,并且它的智能化程度较高,尤其是Agent技术的应用,独立外部网页检索系统的每一组成部分以及众多独立的外部网页检索系统的组合都是采用基于Agent的智能化代理。严格说来,元网页检索系统不是真正的网页检索系统,只能算作一种用户代理。它自己不进行WWW的遍历,本身不需要检索和标引网页,所以也没有自己的索引数据库。当用户查询一个关键词时,它把查询请求转换为外部网页检索系统的命令格式,分别向外部网页检索系统提交,由外部网页检索系统来同时完成查询要求,然后整合外部网页检索系统返回的结果,去除重复的查询结果,统一格式,按照一定的算法重新进行结果排序,最后把结果统一返

7、回到用户查询接口。一个优良的元网页检索系统并不是机械地使用各个独立的外部网页检索系统来工作。它在发送机制,包括外部网页检索系统的强度上都是有针对性地为提高网页检索系统的检索功能而设计的。在发送机制上,用户可以设定资源来源(外部网页检索系统)、检索范围、排序策略等,也就意味着用户在查询上更具有主动性。如果用户没有对外部网页检索系统加以限定,那在元网页检索系统的查询代理模块中,需要外部引擎之间达到优化组合,从而提高网页检索系统检索的广度和精度。有实验表明,一般同时采用不超过5个网页检索系统的组合比较合适,而这种外部引擎的动态调度组合的优化,采

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。