【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf

【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf

ID:32032700

大小:4.17 MB

页数:65页

时间:2019-01-30

【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf_第1页
【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf_第2页
【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf_第3页
【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf_第4页
【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf_第5页
资源描述:

《【硕士论文】基于实例学习的搜索引擎结果优化系统设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要搜索引擎是网络信息检索的主要工具,它的出现方便了人们对信息的查询,但现有搜索引擎返回的结果太多,用户很难查找到真正想要的资料。此外,人们通常无法用简单的几个词来描述自己的信息需求。对于一个查询词,搜索引擎往往会返回成千上万的网页,这些结果是动态而简单的,但绝大部分对于某个特定的用户而言都是不相关的。因此,用户必须通过浏览冗长的列表才能找到自己需要的信息。于是,信息检索中出现了“信息过载”和“信息迷失”等问题。如何提高搜索引擎的查准率是其亟待解决的问题,而如何推断用户的查询目的从而实现智能化搜索是未来搜索引擎的发展方向。此外,查

2、询词也往往具有歧义,不同用户具有不同的背景、兴趣以及使用目的。就目前而言,对于特定的关键词查询,无论任何人得到的结果都是一样的。人们越来越希望得到的结果能够符合自己的意愿,目前出现了各种改进的搜索引擎,基于用户个性词典的搜索引擎、基于聚类技术的搜索引擎、面向主题的搜索引擎等等。在一定程度上起到一定的促进作用,究其原理,实际就是基于某种技术对通用搜索引擎搜索结果的处理,其中包括对搜索结果的过滤。聚类、分类等处理。实例学习是机器学习中较为成熟的分支,其基本思想是从某一概念的己给的iF例集合和反例集合中归纳产生出描述所有正例并排除所有反例的

3、一般规则,因而也被称作概念获取。本文正是基于对用户行为的跟踪,把其访问网页分为币例和反例,通过相关算法,得到描述用户查询目的规则,从而实现网页的过滤技术,返回与用户查询目的相关的网页,去除无关网页。从而有效的提高搜索引擎的查找精度,为用户提供高质量的、相关度较高的查询结果。本文在分析了通用搜索引擎和个性化搜索引擎的基础上,针对目前搜索引擎中的“信息过载”和“信息迷失”等问题,提出一种对搜索引擎进行改进的策略,该策略基于对用户行为的跟踪,对网页返回目录中的摘要信息进行文本挖掘,推断用户的搜索目的,对中文Web搜索结果进行优化。去除垃圾信

4、息,返回给用户一个比较满意的结果。最后初步实现了一个简单的搜索引擎优化系统SEO,系统经过测试取得良好的运行效果。关键词:搜索引擎;实例学习;扩张矩阵;ID3算法;向量空间模型第一章绪论第一章绪论1.1引言随着计算机与网络的迅速发展,当今社会已经走向信息化,人们越来越习惯于通过网络这个丰富而实用的平台来获取自己需要的信息。然而面对浩如烟海的信息,如何才能方便迅速的获取有效信息,成为人们关注的问题。搜索引擎的出现极大的缓解了这一矛盾。WebSideStory公司最近的一项调查显示,使用搜索引擎找到网站的网民比例从2002年前的8%提高到

5、了23%,Web搜索引擎逐步成为用户搜寻相关信息的重要工具。目前搜索引擎种类繁多,比较熟悉的如Google、yahoo和百度等等。虽然在一定程度上满足了人们的要求,但是返回的大量冗余信息也考验着人们的耐性。怎样使搜索引擎理解用户的查询目的,使搜索返回的信息更准确,而不包含太多的无用信息,解决问题的根本办法在于自然语言的理解技术,即机器对自然语言的理解。但是,就目前的研究来看,自然语言理解还处于研究的初级阶段,让机器真正理解文档的内容还有很长的一段路要走。目前,数据挖掘技术的发展则为我们提供了一条途径。虽然不能从根本上解决问题,但其扎实

6、的理论基础,以及在金融、证券、商贸、保险,特别是在文本分类方面的应用,震撼着我们的神经。研究学者们提出的Web内容挖掘、Web日志挖掘、Web链接挖掘等。在Web内容挖掘分析中,分类与聚类等技术被用来加强Web文档的管理。在Web结构挖掘方面,Web页面间链接结构被用来计算页面的“权威性";在Web日志挖掘分析中,根据用户历史访问行为的信息来决定页面的相关性,都取得了良好的效果。但是以往的研究往往侧重于对整个Web文档集的分析,忽视了对单个查询的Web检索结果的分析或者说忽视了Web检索结果的信息与整个文档集的信息协同分析。通常检索的

7、结果具有以下的特征:◆数据量大但很少相关:结果中通常包含几千到几百万的文档,让用户淹没在纷繁复杂的信息中。◆结果简单:搜索引擎往往只显示与查询相关的标题和文本片断(snippets),风格单调,交互性差。◆动态性强:由于Web的飞速增长,查询返回结果往往更新较快,动态第一章绪论性很强。◆多主题性:各种主题的网页混杂在同一张列表中,区分它们则成为了用户的负担。另一方面,用户对Web检索的需求主要表现在:◆实时性:用户的期望值是1~2秒,最多十几秒就想看到排在最前面的几十条信息,对检索结果的优化也应达到比较高的时间效率。◆个性化:用户具有

8、不同的背景、兴趣及使用目的,追踪用户的使用习惯对检索结果的优化是至关重要的。对于目前搜索引擎存在的主要问题,其主要研究包括:(1)搜索引擎的个性化研究,国内外存在着许多个性化搜索系统,这些系统根所采用的过滤技术可分为基于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。