欢迎来到天天文库
浏览记录
ID:9369545
大小:507.02 KB
页数:7页
时间:2018-04-29
《一种结构化web文档的联合聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第4l卷第5期2010年10月中南大学学报(自然科学版)JournalofCentralSouthUniversity(ScienceandTechnology)、,01.4INo.5Oct.2010一种结构化Web文档的联合聚类算法邓冬梅1,龙际珍2,尹湘舟3(1.湖南师范大学计算机教学部,湖南长沙,410081;2.长沙理工大学计算机与通信工程学院,湖南长沙,410114;3.中国科学院计算技术研究所,北京,100190)摘要:为了对网上多媒体信息进行有效检索和过滤,提出。‘种基于文本和图片相似性融合的联合聚类算法。首先通过相似性计算得到文本相似性
2、和图片相似性,然后,将所得文本相似性矩阵和图片相似性矩阵进行水平拼接融合,经奇异值分解后,进行k-means联合聚类,使得聚类后的结果融合文本信息和图片信息。研究结果表明:与单一图像联合聚类方法相比,采用联合聚类算法所得每一簇的F.Measure值都有明显提高,与单一文本联合聚类在第l,2,3和7簇的F—Measure值也有所提高。关键词:联合聚类;相似性融合;结构化文档中图分类号:TP391文献标志码:A文章编号:1672—7207(2010)05一187卜06ACO—clusteringalgorithmbasedonstructuredWebdocume
3、ntDENGDong-mei1,LONGJi—zhen2,YINXiang-zhou3(1.EducationDepartmentofComputer,HunanNormalUniversity,Changsha410081,China;2.CollegeofComputerandCommunication,ChangshaUniversityofScienceandTechnology,Changsha410114,China;3.InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing1
4、00190,China)Abstract:AsimilarityfusionalgorithmaboutthetextandimageCO-clusteringofmultimediastructureddocumentswasgiveninordertoperformmultimediaretrievalandfilterefficiently.Thismethodfusestextsimilaritymatrixandimagesimilaritymatrixtomakeafusionsimilaritymatrixandthenitisco-cluste
5、redwithk-meansalgorithmaftereigenvectordecomposition.Thisalgorithmwastestedonthetaskofmultimediastructureddocumentswhichhadtwoinformationsources,i.e.,textandimage.TheresultsshowthattheF-Measurevalueinallclustersobtainedbytheco-clusteringalgorithmbasedonstructuredWebdocumentarelarger
6、thanthoseobtainedbyaflatimageco-clusteringandtheF·Measurevalueincreasesinthefirst,second,third,seventhclustercomparedtothoseobtainedbyflattextCO—clustering.Keywords:CO-clustering;similarityfusion;structureddocument聚类是网上多媒体检索和过滤常用的一种方法‘卜21,依据事物的某些属性将其聚集成类,使同类间相似性尽量小,类与类之间相似性尽量大,是一种无监
7、督的模式识别问题。很多聚类方法都是基于单一文本聚类13卅和单一图片聚类【5】。然而,有时不仅需要对单一的文本信息或图片信息进行聚类,还需要对一些属性信息同时进行聚类,以便挖掘更多有用的信剧61,这就需用到联合聚类的思想。Dhillon[71在2001年提出了基于二部图划分思想来解决联合聚类的问题,这是目前联合聚类方法最常用的一种方法。Giannakidou收稿日期:2009一lO一27;修回日期:2010-02—29基金项目:湖南省教育厅项El(09c647)通信作者:邓冬梅(1974-),女,湖南龙山人,硕士,讲师,从事计算机软件、人工智能研究;万方数据18
8、72中南人学学报(自然科学版)第4l卷
此文档下载收益归作者所有