资源描述:
《一种实用高效的聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1000-9825/2004/15(05)0697©2004JournalofSoftware软件学报Vol.15,No.5∗一种实用高效的聚类算法+王建会,申展,胡运发(复旦大学计算机与信息技术系,上海200433)AnApplicableandEfficientClusteringAlgorithm+WANGJian-Hui,SHENZhan,HUYun-Fa(DepartmentofComputingandInformationTechnology,FudanUniversity,Shanghai200433,China)+Correspondingauthor:Phn:+86-21
2、-36011651,Fax:+86-21-56691583,E-mail:wangjh888@citiz.net,http://wangjh.myrice.comReceived2003-05-27;Accepted2003-09-09WangJH,ShenZ,HuYF.Anapplicableandefficientclusteringalgorithm.JournalofSoftware,2004,15(5):697~705.http://www.jos.org.cn/1000-9825/15/697.htmAbstract:IntheresearchonIR(informationr
3、etrieval),lotsofclusteringalgorithmshavebeendeveloped,andinmostofthemsomeparametersshouldbedeterminedbyhand.However,itisverydifficulttodeterminethemmanuallywithoutanypriordomainknowledge.Tosolvethisproblem,anapplicableandefficientclusteringalgorithmispresented.Itaimsatavoidinganyparametertobedeter
4、minedbyhand,andatthesametime,improvingtheefficiencyofclusteringandthepropertyofIR.ThenewclusteringalgorithmisanalyzedonseveralfacetsandappliedlatertoclusterChinesedocuments.Theresultsoftheapplicationconfirmthatthenewclusteringalgorithmisveryapplicableandefficient.Keywords:IR(informationretrieval);
5、clustering;subspace;patternrecognition摘要:在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和
6、性能.关键词:信息处理;聚类;子空间;模式识别中图法分类号:TP18文献标识码:A随着科学技术的高速发展以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标注和主题识别、信息结∗SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNo.60173027(国家自然科学基金)作者简介:王建会(1972-),男,江苏淮阴人,博士生,主要研究领域为人工智能,自然语言处理;申展(1979-),女,硕士生,主要研究领域为全文数据库;胡运
7、发(1940-),男,教授,博士生导师,主要研究领域为数据工程,知识工程.698JournalofSoftware软件学报2004,15(5)构分析以及文本生成.其中,关于自动聚类方面的研究较为深入,而且,聚类技术已成为信息处理的核心技术.从[1][2]20世纪40年代至今,国内外的研究者提出了很多聚类算法,如基于层次的算法(CHAMELEON,CURE,[3][4][5][6][7][8]BIRCH)、基于平面分割的算