基于web-logmining的web文档聚类a

基于web-logmining的web文档聚类a

ID:33532126

大小:170.44 KB

页数:6页

时间:2019-02-26

基于web-logmining的web文档聚类a_第1页
基于web-logmining的web文档聚类a_第2页
基于web-logmining的web文档聚类a_第3页
基于web-logmining的web文档聚类a_第4页
基于web-logmining的web文档聚类a_第5页
资源描述:

《基于web-logmining的web文档聚类a》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1000-9825/2002/13(01)0099-06©2002JournalofSoftware软件学报Vol.13,No.1基于Web-LogMining的Web文档聚类Ã1,21,234苏中,马少平,杨强,张宏江1(清华大学计算机科学与技术系,北京100084);2(清华大学智能技术与系统国家重点实验室,北京100084);3(SimonFraser大学,加拿大);4(微软中国研究院,北京100080)E-mail:suzhong_bj@hotmail.comhttp://www.tsinghua.edu.cn摘要:速度和效果是聚类算法面临的两大问题.DBSCAN(density

2、basedspatialclusteringofapplicationswithnoise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursivedensitybasedclusteringalgorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.关键词:数据库;聚类;Webmining;数据挖掘中图法

3、分类号:TP311文献标识码:A数据挖掘就是试图在大型数据库中发现隐含模式的过程.聚类算法是数据挖掘中的一个重要的分析工具.作为统计分析的一个分支,聚类分析在过去的40多年中得到了深入的研究,并广泛运用于许多应用领域.对于数据挖掘的任务,聚类分析的诱人之处是有可能在不需要知道任何数据的层次信息的前提下,从数据中发现层次或类的关系.然而,在数据挖掘和机器学习中运用的聚类分析并没有得到非常成功的运用.其原因就是在大规模数据库中,通常算法的速度和效果不能令人满意.[1][2~4]现在已有许多聚类算法,例如K-means,HAC(hierarchicalagglomerativeclusteri

4、ng),CLANRNS[5](clusteringlargeapplicationsbasedonrandomizedsearch)等,这些方法都是面向小数据集合的,不太适合数据挖掘所面对的大型数据库.[6]DBSCAN(densitybasedspatialclusteringofapplicationswithnoise)是一种通过对局部密度分析,将相邻点聚集在一起的聚类算法.在整个算法进行过程中,它只对数据库进行一次扫描.如果DBMS对相邻点的查询效率很高(DBMS的查询效率目前已经完全满足这一条件),DBSCAN的效率将非常令人满意.它是当前面向大数据集聚类算法中最快的一种.然而

5、,由于算法本身在整个聚类过程中使用固定的参数(这将在下一节中讨论),使得对于真实环境数据集的聚类,往往其聚类的效果不好.其主要原因是,由于其定义的密度的传递性质,往往将绝大多数的数据点都聚集在非常少的几类中(通常是一类).在本文中,我们提出了一种基于密度的递归聚类算法RDBC(recursivedensitybasedclusteringalgorithm).此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法.算法的基本思想是,我们并Ã收稿日期:2000-04-03;修改日期:2000-07-20基金项目:国家重点基础研究发展规划973资助项目(G19980

6、30509)作者简介:苏中(1976-),男,上海人,博士生,主要研究领域为基于内容图像检索,模式识别,网络数据挖掘;马少平(1961-),男,河北唐山人,博士,教授,博士生导师,主要研究领域为模式识别,信息检索,网络数据挖掘;杨强(1961-),男,北京人,博士,教授,主要研究领域为机器学习,数据挖掘,知识系统;张宏江(1960-),男,黑龙江哈尔滨人,博士,研究员,主要研究领域为视频和图像内容分析与检索,计算机视觉,信息系统.100JournalofSoftware软件学报2002,13(1)不对原始数据集进行聚类,而是通过从数据集合中抽取高密度点生成新的数据集合,并修改密度参数,反

7、复进行这一过程,直到生成的数据集合可以很容易地被聚类为止,然后以此结果为基础,再将其他点逐层地吸附到各个类中.RDBC的运算复杂度和DBSCAN相同.通过对Web文档数据的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.本文第1节给出了一些相关工作.第2节描述了RDBC算法.第3节讲述了运用Web日志文件进行文档聚类的方法.第4节是实验描述.第5节是总结.1相关工作基于密度的聚类方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。