基于语义web的信息检索系统研究与实现

基于语义web的信息检索系统研究与实现

ID:34587757

大小:2.46 MB

页数:39页

时间:2019-03-08

基于语义web的信息检索系统研究与实现_第1页
基于语义web的信息检索系统研究与实现_第2页
基于语义web的信息检索系统研究与实现_第3页
基于语义web的信息检索系统研究与实现_第4页
基于语义web的信息检索系统研究与实现_第5页
资源描述:

《基于语义web的信息检索系统研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆人学硕十学位论文1绪论1.1问题的提出及研究意义1.1.1问题提出万维网是一个巨大的信息资源库,它的迅速发展和广泛的使用已使人们足不出户便能知道天下大事。一方面,万维网为用户提供了一个开放的信息共享资源平台,相对于传统的封闭式信息系统而言,人们能以最快的速度在全球范围发布和共享信息资源;但另一方面,随着信息量的高速增长,同样也引发了“信息迷航”和“信息过载”等诸多问题,人们发现要在这个变化多端又鱼龙混杂的信息海洋中,找寻有价值的信息并不是一件容易的事。因此,要充分发挥万维网作为全球信息共享平台的巨大优势,就必须解决如何有效的访问万维网上信息资源的问题。1.1.2研究意义在现

2、代社会,谁能掌握信息的主动权,谁就能在竞争中处于有利地位。信息检索技术能帮助人们在浩瀚的海洋中抽取对用户有用的信息,能极大的节省用户的查询时间。调查数据显示,目前有68.2%的人经常使用搜索引擎,它是目前仅次于电子邮件的网络应用;另有41%的人通过搜索引擎进入购物网站,84.6%的新网站是通过搜索引擎被发现。同时,科学证明,搜索引擎是未知状态下发现有效信息的最有效方式【l】。这些数据显示,先进的信息检索技术对于网民和商业用户来说,都是极具使用价值的。信息检索主要是研究信息的表示、存储、组织和访问方法等问题【2】。国内对智能信息检索的研究相对来说比较分散,主要应用到文学、计算机、

3、交通等领域f3】,信息检索技术的研究和发展和这些相关领域的发展息息相关,主要包括:信息的组织、存储,索引,异质数据源的集成和人工智能等技术。同样的,对新型智能信息检索技术的研究也能推动相关科研领域的发展。因此,智能信息检索技术研究还具有较高的学术理论意义。1.2国内外研究现状及分析1.2.1国内外研究现状信息检索通常指文本信息检索,包括信息的存储、组织、表现、存取等各个方面,其核心为文本信息的索引和检索,起源于图书馆的参考咨询和文摘索引工作。现在,由于互联网技术对信息传播方式带来了巨大的变化,也明显的促进了信息检索技术的发展和应用,一大批搜索引擎产品也随之产生,为网民提供了快速

4、信息获取和网络信息导航工具。从某种程度上说,网络信息检索代表了当代信息检重庆大学硕十学位论文l绪论索的发展方向,所以,本文也将网络信息检索作为主要研究对象。搜索引擎按照一定的策略在互联网中搜索和发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索任务,从而起到信息导航的目的。①搜索引擎的工作原理包括如下3个过程:一是在互联网中发现、搜索网页信息。利用能够从互联网上自动收集网页的Spider系统程序,自动的访问互联网,并沿着任何网页中的所有URL链接行走,重复这一过程,把爬过的所有网页资源收集起来,本阶段也可以通过人工来完成;二是对所搜集的信息进行提取和组织,并建立信息索

5、引库。由分析索引系统程序对对所收集回来的网页进行分析,根据一定的特征提取算法提取网页资源的特征信息,主要包括网页URL、编码类型、页面内容包括的关键字、关键字位置、生成时间、大小、与其它网页的链接关系等原数据信息;三是根据资源对象的索引信息,进行信息检索和检索结果集排序等操作;信息检索程序根据用户输入的查询关键词,从索引数据库中快速检出相关信息对象,并对检出的结果提供多种排序操作,最终将排序后的结果返回【4卅。②搜索引擎的分类按照信息搜索方法和服务提供方式的不同,搜索引擎系统可以分为三大类:机器人搜索引擎、目录式搜索引擎和元搜索引掣‘7。91。Robot搜索引擎:由一个Robo

6、t(也称为spider)的程序根据某种策略自动地在互联网中搜索和发现信息,并将Robot程序搜索到的网页信息加入到搜索数据库中,工用户查询。其优点是信息量大、更新及时、无需人工干预,缺点是返回过多的无用信息,需要用户对搜索结果进行再次的筛选。这类搜索引擎的代表有:Google、Lycos等。目录式搜索引擎:该搜索引擎的索引数据库是由编目人员通过手工方式建立起来的,例如Yahoo、OpenDirectery等【10。11。这种索引由于在信息检索中加入了人的智能,所以信息分类准确、导航质量高,缺点是需要投入大量的人力、维护量大、信息总量较少和更新困难。元搜索引擎:这类搜索引擎和其它

7、两种的工作方式不同,它没有自己的数据,而是将用户提交的查询请求送到多个独立的搜索引擎上面去搜索,并对各搜索引擎返回的检索结果集中处理,以统一的格式提供给用户,因此有元搜索引擎之称。它的主要精力放在提高检索速度、智能化处理检索结果、提高个性化的检索服务以及改善用户检索界面等方面。元搜索引擎最大的特点就是其本身并不能提供信息检索服务,而需要依赖于其它搜索引擎共同完成检索任务。和其它两种检索系统相比较,其返回结果的信息量大、更全,缺点是不能充分发挥所使用收缩引擎的功能,也需要用户做进一步的筛选。例

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。