[工学]基于xml的个性化搜索算法研究

[工学]基于xml的个性化搜索算法研究

ID:24777306

大小:745.50 KB

页数:32页

时间:2018-11-16

[工学]基于xml的个性化搜索算法研究_第1页
[工学]基于xml的个性化搜索算法研究_第2页
[工学]基于xml的个性化搜索算法研究_第3页
[工学]基于xml的个性化搜索算法研究_第4页
[工学]基于xml的个性化搜索算法研究_第5页
资源描述:

《[工学]基于xml的个性化搜索算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第一章绪论1.1研究背景及意义1.1.1研究背景随着Internet网络的普及和WWW的迅猛发展,网络已成为人们获得信息的必要途径和重要手段,网络中的海量信息既给人们带来方便,也带来了许多问题。信息浩如烟海,为找到有用信息,人们经常要耗费大量宝贵的时间,所以近年来Internet个性化搜索服务越来越引起人们的关注。虽然现在有些搜索引擎可以对搜索结果进行打分并按得分的高低来呈现给用户,但是由于没有考虑到用户个人的兴趣爱好,不同用户对于同样的搜索关键词搜索出的信息是相同的,这样做并不能完全满足用户的要求

2、[1],如何从中快速准确的发掘所需信息已经成为人们所关注的一个重要问题。同时互联网上XML文档的不断增多,对XML数据的使用越来越依赖于互联网搜索引擎强大的检索能力,在XML(eXtensibleMarkupLanguage)发布之前,国际互联网的发展受到以下束缚:HTML无法描述数据内容,对数据表现的描述能力十分不够,如还不能描述矢量图形、科学符号等对象,而这一点恰恰是数据检索、电子商务所必须的,完全不能适应对新标记需求的发展需要。而XML的出现,使上述问题都得到很好的解决。随着越来越多的Web数

3、据开始采用XML进行描述、存储、交换和表现,基于XML文档的信息查询能力变得日益重要[2]。与此同时,随着个性化技术的高速发展,网络的个性化服务需求增大。Internet上存贮了大量的文档、图形、图像、音频数据、商业数据、天气和水文数据、电子政务和电子商务信息等,表现出了Web数据的多样性;而Internet本身也具有非结构化、动态性、不完全性、混沌等特点,体现了巨大、分布、多维的特性。Inter第32页共32页net上大约有近亿个工作站,用户有充分的自由,可以随意链接到Internet的任意站点上

4、,而且用户具有不同的背景、不同的兴趣和使用目的,因此,Web用户群体也表现出多样性的特点。不同层次、不同爱好和不同浏览器有不同兴趣和行为偏好的用户需要不一样的信息,因此对特定的用户开展个性化的信息查询是新的检索工具所必有功能。而现在的搜索引擎针对这个问题存在着各种缺陷,造成这种困难的实质在于Web信息检索系统(即搜索引擎)缺乏知识处理能力和理解能力,HTML信息表示非结构化,信息抽取算法能力不足、对要检索的信息仅仅采用机械的关键词匹配来实现,信息的特征没有包含语义信息,没有在结构和内容上进行融合,用

5、户模型功能单一,缺少推送机制等。新的信息检索系统要利用Web挖掘、机器学习、人工智能等先进计算机技术改进用户模型,优化信息抽取、特征选择、相关分析等算法,完善推送机制,实现个性化服务,这是解决问题的根本和关键,研发的焦点更是集中在如何更有效满足用户个性化需求等方面[3]。1.1.2研究意义Web的出现改变了人们进行信息检索的方式,搜索引擎成为人们获取信息的主要方式,信息检索的对象也从结构化的数据转向半结构、无结构化的数据。近年来基于Web的个性化、智能化信息检索研究正逐步展开,它将改变并解决目前搜索

6、引擎中遇到的各种问题和矛盾,提供从信息过渡到知识的检索方式,有效提高系统的基本效率。(l)本文针对搜索引擎对所有用户显示相同结果,没考虑用户使用行为特征的问题,展开了个性化搜索引擎的研究,这改变了传统搜索引擎的设计思路和理念;(2)本文针对个性化搜索算法中的关键技术进行了研究和开发,为提高搜索引擎的效率提供了新的方法;(3)本文在信息表示时,采用了XML统一表示方法,对网络信息表示在信息检索领域中的优化和提高有一定的借鉴意义。1.2搜索引擎的研究现状与发展趋势搜索引擎是一种联机信息检索系统,它为人们

7、提供了检索Web上相关信息的方法。它是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务,从使用者的角度上看,这种软件系统提供一个网页界面,让她通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表,这个列表的每一条目代表一篇网页,每个条目至少有三个元素:标题,URL,摘要[4]。1.2.1研究现状卡内基梅隆大学教授TomMitchell在MIT的刊物TechnologyReview上发表文章,指出第

8、一代的搜索引擎是基于关键词的搜索;第二代的搜索引擎是基于文档主题的文档分类;第三代的搜索引擎是目前的研究重点和热点,目前信息检索的主要任务是“实体抽取”(EntityExtraction)[5]。搜索引擎的发展经历了以下三个阶段:⑴第一代搜索引擎Yahoo模式为典范。它是一个综合性网站,通过等级列举式浏览检索和关键词检索查询因特网上各类学科领域的内容,提供的服务种类多而且涉及的领域广。因其提供的是免费的大众化综合性信息服务,所包括的范围广泛但不深入,故被称为水平门户网

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。