搜索引擎的文本聚类研究

搜索引擎的文本聚类研究

ID:46450588

大小:68.00 KB

页数:6页

时间:2019-11-23

搜索引擎的文本聚类研究_第1页
搜索引擎的文本聚类研究_第2页
搜索引擎的文本聚类研究_第3页
搜索引擎的文本聚类研究_第4页
搜索引擎的文本聚类研究_第5页
资源描述:

《搜索引擎的文本聚类研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、搜索引擎的文本聚类研究搜索引擎的文本聚类研究[摘耍]近年来,随着信息技术的发展,越来越多的学者开始关注搜索引擎聚类。国内研究相比国外较晩,还处于发展的初级阶段,存在着数据库依附性过强、搜索速度缓慢、用户的个性化服务需耍提升等问题。有关网站可建立自己独立的数据库或与专业搜索引擎公司合作,建立专有数据库或将Tag标签应用到网页屮,以加快搜索引擎聚类的速度并满足不同用户的需要,以促进搜索引擎聚类在搜索引擎中可持续健康快速发展。[关键词]搜索引擎;文本聚类;发展局限;展望[中图分类号]F27.4[文献标识码]B、才.__一、刖§2013年7月发布的C

2、NNIC第32次互联网报告显示,截止2013年6月止,我国网民规模达5.91亿,半年共计新增网民2656万人。互联网普及率为44.1%,较2012年底提升了2.0个百分点。从2009年到2013年,互联网普及率逐年上升,从28.9%上升到44.1%。计算机的普及,使人们越来越依赖丁询问互联网。面对浩瀚的信息海洋,如何获得用户真正有用的信息,成为了一个炙手可热的话题。从最早的门户网站方式到现在的谷歌、百度全文本搜索,对待信息的获取方式已经有了很大的改变。然而,随着互联网越来越普及,网络中存储的信息,出现很多冗杂信息,仅仅依靠传统的搜索方式,并不

3、能满足用户的需耍。从2000年开始,以Vivisimo为代表,越来越多的学者开始注意到,聚类能更准确的定位搜索结果。二、聚类聚类是指将抽象或物理对象组成集合,将集合中类似对象组成多个类的过程。由聚类所生成的簇叮以看做是一组数据对象的集合,这些对象与同一个簇中的其他对象彼此相似,而与其他簇中的对象不同。聚类分析又被叫做群分析,是针对分类问题的一种统计分析方法。由一个度量的向量或多维空间屮的一个点构成模式,再由多个模式构成聚类分析。聚类分析可以追溯于分类学,不过聚类并不是单纯的分类。聚类与分类最大的的不同Z处是,划分为聚类的类是未知的。聚类作为一

4、种有效的分类方法,可以从庞大的消费者数据库区分属性、目标不同的消费群体,再概括出这些消费群体的消费模式也就是普通意义上的习惯。它作为数据挖掘中的一个模块,可以作为一个单独的T具以发现数据库中分布的一些深层的信息,并且概扌舌出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,在数据挖掘算法时,聚类算法可以作为对数据进行预处理,再用其他分析算法处理。聚类分析的算法可以分为层次法(HierarchicalMethods)>基于网格的方法(grid-basedmethods)>基于密度的方法(density-basedmethod

5、s)>划分法(PartitioningMethods)>基于模型的方法(Model-BasedMethods)o三、搜索引擎聚类国内外发展进程国外对于搜索引擎聚类方面的研究最早发生在1996年,IlearstMA,PedersenJO学者研究开发的Scatter/Gather系统是世界上第一个将聚类引入搜索引擎的系统。2000年开发的Vivisimo元搜索引擎系统,采用自主开发的启发式算法来集合并聚类原文文献。这种算法吸收了传统人工智能思想,对检索结果进行更好描述和聚类。它的文献聚类技术首先将文本内容自动分类,划分为等级式排列的目录Z后进行聚

6、类。作为一种完全自动化的聚类技术,不需要人为干扰收集数据,也不需要进行数据维护。SnakeT在前者研究的基础上,开发了能完整将搜索引擎聚类化的系统,并且可以向用户展示带有明确标签的层次型结构。Grouper是利用后缀树聚类(STC,SuffixTreeClustering)算法专门针对文档摘要进行聚类的搜索引擎系统。SHoc是首个面向文木信息进行聚类功的搜索引擎。Sergio系统应用改进过的k均值算法对两个搜索引擎结果进行聚类处理。在新闻处理方面,Nesrec系统提取Altzvista新闻的新闻摘要,短吋间内进行层次聚类,并使之成为拥有良好可

7、读性的类标签。而Newsblaster系统针对每天的新闻进行聚类处理,文本生成等处理Z后,产生摘要文档。WhatsonWeb是应用拓谷驱动和图像聚类算法來构建搜索引擎聚类系统,具有良好的可视化效果,同时支持处理无效标签。国内的研究要相对较晩,最早开始于20005年,但是随着科技发展,取得了很不错的优秀成果。2005年的PinkySearch利用后缀树算法和相同词聚类对多个搜索引擎的结果进行聚类处理,最后获得搜索结果。在2007年成立的国内首家搜索引擎聚类公司比比猫(Bbmao),采用先进的聚类和去重技术,不仅带给用户快捷、智能的体验经历,还引

8、领创新了聚类技术。国内高水准的数据挖掘研究所论坛上,提出Tweb挖掘算法、分类聚类,应用方案等聚类应用技术。四、搜索引擎聚类分析搜索引擎形式从最早的目录式搜索到基于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。