一种实用高效的聚类算法

一种实用高效的聚类算法

ID:33813732

大小:472.28 KB

页数:9页

时间:2019-03-01

一种实用高效的聚类算法_第1页
一种实用高效的聚类算法_第2页
一种实用高效的聚类算法_第3页
一种实用高效的聚类算法_第4页
一种实用高效的聚类算法_第5页
资源描述:

《一种实用高效的聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1000-9825/2004/15(05)0697©2004JournalofSoftware软件学报Vol.15,No.5∗一种实用高效的聚类算法+王建会,申展,胡运发(复旦大学计算机与信息技术系,上海200433)AnApplicableandEfficientClusteringAlgorithm+WANGJian-Hui,SHENZhan,HUYun-Fa(DepartmentofComputingandInformationTechnology,FudanUniversity,Shanghai200433,China)+Correspondingauthor:Phn:+86-21

2、-36011651,Fax:+86-21-56691583,E-mail:wangjh888@citiz.net,http://wangjh.myrice.comReceived2003-05-27;Accepted2003-09-09WangJH,ShenZ,HuYF.Anapplicableandefficientclusteringalgorithm.JournalofSoftware,2004,15(5):697~705.http://www.jos.org.cn/1000-9825/15/697.htmAbstract:IntheresearchonIR(informationr

3、etrieval),lotsofclusteringalgorithmshavebeendeveloped,andinmostofthemsomeparametersshouldbedeterminedbyhand.However,itisverydifficulttodeterminethemmanuallywithoutanypriordomainknowledge.Tosolvethisproblem,anapplicableandefficientclusteringalgorithmispresented.Itaimsatavoidinganyparametertobedeter

4、minedbyhand,andatthesametime,improvingtheefficiencyofclusteringandthepropertyofIR.ThenewclusteringalgorithmisanalyzedonseveralfacetsandappliedlatertoclusterChinesedocuments.Theresultsoftheapplicationconfirmthatthenewclusteringalgorithmisveryapplicableandefficient.Keywords:IR(informationretrieval);

5、clustering;subspace;patternrecognition摘要:在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和

6、性能.关键词:信息处理;聚类;子空间;模式识别中图法分类号:TP18文献标识码:A随着科学技术的高速发展以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标注和主题识别、信息结∗SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNo.60173027(国家自然科学基金)作者简介:王建会(1972-),男,江苏淮阴人,博士生,主要研究领域为人工智能,自然语言处理;申展(1979-),女,硕士生,主要研究领域为全文数据库;胡运

7、发(1940-),男,教授,博士生导师,主要研究领域为数据工程,知识工程.698JournalofSoftware软件学报2004,15(5)构分析以及文本生成.其中,关于自动聚类方面的研究较为深入,而且,聚类技术已成为信息处理的核心技术.从[1][2]20世纪40年代至今,国内外的研究者提出了很多聚类算法,如基于层次的算法(CHAMELEON,CURE,[3][4][5][6][7][8]BIRCH)、基于平面分割的算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。