基于web的信息检索系统的研究

基于web的信息检索系统的研究

ID:9242376

大小:90.50 KB

页数:29页

时间:2018-04-25

基于web的信息检索系统的研究_第1页
基于web的信息检索系统的研究_第2页
基于web的信息检索系统的研究_第3页
基于web的信息检索系统的研究_第4页
基于web的信息检索系统的研究_第5页
资源描述:

《基于web的信息检索系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Web的信息检索系统的研究目录第I条一、前言2第II条二、信息检索的研究目的2节2.01(一)研究目的2第III条三、信息检索的原理与技术方法3节3.01(一)、信息检索原理3节3.02(二)信息检索的技术方法5第IV条四、信息检索仿真实验11节4.01(一)、文本处理与倒排文档的建立11第V条总结28第VI条参考文献28第VII条致谢2929摘要基于Web的信息检索系统的研究,讨论了信息检索的原理、评价方法、研究现状和发展方向,也研究了主流的信息检索算法,对信息检索进行了仿真实验。重点介绍了信息检索的理论、算法和技术框架。提出了面向Web的个性

2、化语义信息检索技术。为了解决或减少检索算法中Hash地址的“碰撞”,把HASH的思想和索引顺序表检索的思想,以及二分检索法的思想结合起来提出一种基于HASH表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。关键词:信息检索;原理;算法;软件框架第I条一、前言1990年以前,没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的AlanEmtage等人发明的Archie开的,虽然它只可以实现简单意义上的FTP文件检索。随着worldwideweb的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于

3、网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的EricSelberg等发明。伴随着网络技术的发展,网络信息检索技术工具也取得了十足的发展,已成为人们获取信息的重要手段。本文对信息检索的研究内容和研究目的、信息检索的研究现状、传统检索模型等基础内容进行简单介绍;在此基础上,重点介绍了个性化信息检索的相关理论、算法和技术框架。第II条二、信息检索的研究目的节2.01(一)研究目的29随着计算机的普及和互联网的发展,要想从海量的信息中找到自己需要的信息无疑是一项极具挑战性的工作。显然,仅仅依靠人工搜索和提取,其操作过程将非常繁琐,并且速度和效率

4、极低,信息质量也得不到保证。解决人们获取信息的困难,迫切需要一些自动化的工具帮助人们快速找到真正需要的信息,这就是信息检索的任务。信息检索是互联网上最基础、最核心的技术。一个搜索引擎就是一个检索系统,它掌控着人们从信息海洋中获取有用信息的路径。第I条三、信息检索的原理与技术方法节1.01(一)、信息检索原理广义地讲,信息检索包含信息储存和信息检索两个过程。信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。而实施检索的主要方法就是利用各种检索工具(见图3.1)。信息

5、存储过程信息标引主题概念分析信息选择收集信息资源信息检索系统检索(标引)语言检索结果主题概念分析检索提问信息需求信息用户信息检索过程图3.1信息检索的原理(i)1.信息储存信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤:(1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。29(2)文献的概念分析。对所选文献进行仔细的主题分析,提炼出文献所论述的内

6、容主题,归纳为代表文献内容的若干主题概念,并确定这些主题概念之间的关系。(3)词汇转换。把文献的主题概念转换为适当的文献标识(或标引词),并以这此标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换什么的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。(4)信息检索工具的编制。概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本

7、身按照一定的方式组织形成的有序化序列,构成文献库。文献描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式。其主要作用是,使用户能够对文献内容有较为全面和准确的了解,进而做出是否需要获取原始文献的选择。随着计算机技术和通信技术的发展,现在已经有越来越多的信息检索系统采用全文本的方式,直接把原始文献本身组织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发展空间。文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。最常见的排列方式为字顺,即按照字母顺序或汉语拼音,排列为文献标

8、识的序列。其作用主要是依靠字顺组织,提供对文献标识的快速查找,并与提问标识加以比较,据此做出文献是否与提问相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。