聚类搜索引擎研究进展浅析

聚类搜索引擎研究进展浅析

ID:19147988

大小:22.22 KB

页数:12页

时间:2018-09-29

聚类搜索引擎研究进展浅析_第1页
聚类搜索引擎研究进展浅析_第2页
聚类搜索引擎研究进展浅析_第3页
聚类搜索引擎研究进展浅析_第4页
聚类搜索引擎研究进展浅析_第5页
资源描述:

《聚类搜索引擎研究进展浅析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、聚类搜索引擎研究进展浅析  摘要:聚类搜索是目前互联网信息检索和数据挖掘领域的研究热点。给出了聚类搜索引擎的基本工作过程并据此概述其国内外技术发展现状,从聚类对象、聚类功能、聚类算法三个方面对现有聚类搜索引擎进行分析,从工作流程、聚类方法、应用现状等方面对两个典型聚类搜索系统进行了分析和评价,最后给出了聚类搜索引擎的发展趋势。  关键词:Web数据;聚类搜索;聚类算法  中图分类号:TP391文献标识码:A文章编号:1009-3044(XX)22-5398-03  ResearchDevelopmentofC

2、lusteringSearchEngine  CAOYu1,YINGang1,LIXiang2,CHENGRong-bin2,WANGHuai-min1  (ofComputer,NationalUniversityofDefenseTechnology,Changsha10073,China;.ArmedPoliceCommandCollegeinHangzhou,Hangzhou0023,China)  Abstract:ClusteringsearchisahottopicinbothInternet-

3、basedinformationretrievalanddatamining.ThispaperdefinesthebasicworkprocessofclusteringsearchenginesandgivesanoverviewofthEircurrentresearchstates;analyzestheclusteringsearchenginesbasedontheirclusteringobjects,functionsandalgorithms;analyzesandevaluatestwoi

4、mportantclusteringsearchsystemsfromthetheirworkingprocesses,clusteringmethodsandapplicationstates,andfinallygivestheresearchtrendsofclusteringsearchengines.  Keywords:webdata;clusteringsearch;clusteringalgorithm  随着互联网技术和互联网应用系统的快速发展,各个领域的互联网应用系统都已经积累了海量的We

5、b数据,包括产品数据、用户数据、评价数据、关联数据、状态数据等等。这些数据不仅内容极其丰富,而且很大程度上都开放给互联网用户,可以免费的访问、下载和处理。这就为进一步集成和开发这些Web数据的潜在价值,建立增值应用提供了重要基础。聚类搜索是近年来发展最为迅速的互联网数据集成和增值技术。聚类搜索是在垂直搜索基础上发展起来的新型搜索技术。垂直搜索是主要针对行业的专业搜索,侧重于某一行业领域,其目的是使用户能够更加方便地找出所需的专业信息。而聚类搜索是为了进一步提高搜索的精度使其符合用户的搜索习惯和兴趣,在搜索引擎

6、的搜索结果中进行聚类,把搜索出来的信息进行分类处理,将使信息资源更加清晰明了。  目前国内对聚类搜索引擎的综述主要见于文献[1]和文献[2],虽然这两篇文章对聚类搜索引擎进行了很好的综述和分析,对聚类搜索引擎的形成和发展过程进行了说明,并对主流聚类搜索系统进行了测评和分析,但是对于聚类系统的功能分析还不够详尽,对于聚类搜索引擎未来的发展没有给出明确的定位。  本文首先给出了典型聚类搜索引擎系统的基本工作流程,对聚类搜索引擎的发展历史和现状进行了概括式综述,然后从聚类对象、聚类功能和聚类算法三个角度对聚类搜索引

7、擎进行研究,并全面分析了若干著名聚类搜索引擎。  本文结构:第1节介绍聚类搜索引擎的发展现状;第2节对聚类搜索引擎的功能进行分析;第3节对典型聚类搜索引擎进行综述;第4节描述聚类搜索引擎的发展趋势;第5节总结全文。  1聚类搜索引擎的研究现状  聚类搜索引擎概念和工作过程  所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。目前,典型的聚类搜索引擎的基本工作步骤为

8、:①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;②对搜索结果进行预处理,过滤掉重复、无效信息;③将文档中关键短语作为特征提取出来生成聚类标签;④将文档分配到生成的聚类标签下;⑤将聚类后的搜索结果进行排序并显示给用户。  1.国内外聚类搜索引擎的发展现状  搜索引擎的发展阶段总共经历了三个阶段[3],其中第1代搜索引擎主要是基于人工分类的通用搜索;第2代主要依靠机器进行自动爬取和分析,利用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。