资源描述:
《数据挖掘技术在智能搜索引擎中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘技术在智能搜索引擎中的应用——《数据挖掘》课程期中作业姓名:学号:专业:时间:授课教师:成绩:摘要:随着互联网的迅速发展,WWW上信息增长越来越快,传统搜索引擎已经不能满足用户的需求。将数据挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。文章首先介绍了搜索引擎的工作原理和相关概念,然后介绍了数据挖掘的概念。最后,详细讨论了数据挖掘技术在智能搜索引擎中的重要应用。关键词:数据挖掘;搜索引擎;Web挖掘Abstract:WiththerapiddevelopmentoftheInternetandvaluablei
2、nformation,thehistorysearchenginecan'tsatisfypeople'srequirements.Combiningthetechnologyofdataminingandsearchengine,intelligentsearchengineisformed,whichwillprovideusersaneffectiveandaccuratewebinformationsearchtool.Thispaperintroducesthetheoryandcorrelativeconceptionofsearchenginefirst,
3、thenintroducestheconceptionofdatamining.Intheend,theapplicationsofdatamininginintelligentsearchenginearediscussedindetail.Keywords:Datamining;Searchengine;Webmining1引言随着Internet和Web技术的飞速发展和普及,信息获取已经从手工获取,到计算机获取,以及到现在的通过网络进行信息获取。要想在这浩如烟海的网络世界中找到所需信息,作为现代信息获取技术的主要应用-搜索引擎是必不可少的。据CNNIC于2005年
4、1月19日发布的统计资料显示,有86.6%的用户是通过搜索引擎获得新网站的;搜索引擎的应用占到网络应用的65.0%,成为第二大互联网应用,它的应用广泛度仅次于电子邮件。搜索引擎的出现极大的方便了用户,但是由于搜索引擎是由传统检索技术发展而来,它存在很大缺陷,例如:返回结果表示方法简单,逻辑运算符组合受限,不能利用检索的历史信息等。在当前用户要求不断提高的情况下,单单依靠传统搜索引擎已经不能够满足人们的需要。例如,当我们进行搜索时,搜索结果中存在大量的无用信息,其比例高达80%以上,搜索引擎通常会返回成千上万条结果,而这些结果只是按照与查询的相关度从大到小排列成一个线性列
5、表,缺乏清晰明了的结构,这些结果中相关信息和无关信息掺杂在一起,这就使得我们要想找到所需的信息仍旧存在很大困难。于是,人们总结出了所谓的“因特网信息检索定律”:在因特网上总能找到(甚至只能找到)不需要的东西为了解决这些问题,进一步利用Web上的信息资源,人们开始研究信息获取的方法,提出了一些新的信息管理手段。Web挖掘就是其中之一,Web挖掘是指将传统的数据挖掘技术和Web结合起来,既在WWW上挖掘有趣的、潜在的、蕴藏的信息以及有用的模式这样一个过程。将Web挖掘应用在搜索引擎中,可以改善检索结果的组织,提高查准率和查全率,增强检索用户的模式研究,对搜索引擎进行优化。2
6、搜索引擎概述搜索引擎可分为四个模块:搜索器,索引器,检索器和用户接口。搜索器根据一定的网页搜集策略和规划,调度运行网页自动搜索软件(如Crawl、Spider、pursuit、harvest等),对互联网上的网页进行快速有效的搜集,并将它们存入搜索引擎的网页数据库中。常用的有三种搜索策略:根据所提供的“种子URL”开始搜索;根据网站受欢迎程度,规划一组URLs,然后开始搜索;根据网址名称或国家编码,将Web空间划分为若干块开始进行搜索。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法
7、。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的信息检索模型有集合理论的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询进行限制。一个搜索引擎的好坏与以下几个因素有关:网页覆盖率、网页更新率、网页检索速度、网页检索质量。3数据挖掘概述我们现在已经生活在一个网络化的时代,信息变化异常快速。面对信息爆炸的时代,人们开始考虑:“如何才能不被信息淹没,而