欢迎来到天天文库
浏览记录
ID:9582381
大小:49.00 KB
页数:2页
时间:2018-05-03
《聚类搜索引擎研究进展浅析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、聚类搜索引擎研究进展浅析聚类搜索引擎研究进展浅析 摘要:聚类搜索是目前互联网信息检索和数据挖掘领域的研究热点。给出了聚类搜索引擎的基本工作过程并据此概述其国内外技术发展现状,从聚类对象、聚类功能、聚类算法三个方面对现有聚类搜索引擎进行分析,从工作流程、聚类方法、应用现状等方面对两个典型聚类搜索系统进行了分析和评价,最后给出了聚类搜索引擎的发展趋势。 关键词:entofClusteringSearchEngine CAOYu1,YINGang1,LIXiang2,CHENGRong-bin2,in1 (1.Schoolofpute
2、r,NationalUniversityofDefenseTechnology,Changsha410073,China;2.ArmedPolicemandCollegeinHangzhou,Hangzhou30023,China) Abstract:ClusteringsearchisahottopicinbothInter-basedinformationretrievalanddatamining.Thispaperdefinesthebasics;analyzesandevaluatestportantclusteringse
3、archsystemsfromthetheirethodsandapplicationstates,andfinallygivestheresearchtrendsofclusteringsearchengines. Key 随着互联网技术和互联网应用系统的快速发展,各个领域的互联网应用系统都已经积累了海量的o[5]是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎[5]可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。中文搜索领域,早期比较有实力的聚类搜索
4、引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。 有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体
5、系来评价聚类效果质量的研究。SudiptoGuha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。 国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从天网和网络指南针开始北京大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法
6、进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。 2聚类搜索引擎的功能分析 2.1聚类对象分析 现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。 商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入牙膏关键字,在网页上立马显示出功能、品牌、产地等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论
7、坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。 2.2聚类功能分析 聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。 智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采
8、用专门开发的启发式算法来集合或聚类原文
此文档下载收益归作者所有