一种结构化web文档的联合聚类算法

一种结构化web文档的联合聚类算法

ID:9369545

大小:507.02 KB

页数:7页

时间:2018-04-29

一种结构化web文档的联合聚类算法_第1页
一种结构化web文档的联合聚类算法_第2页
一种结构化web文档的联合聚类算法_第3页
一种结构化web文档的联合聚类算法_第4页
一种结构化web文档的联合聚类算法_第5页
资源描述:

《一种结构化web文档的联合聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第4l卷第5期2010年10月中南大学学报(自然科学版)JournalofCentralSouthUniversity(ScienceandTechnology)、,01.4INo.5Oct.2010一种结构化Web文档的联合聚类算法邓冬梅1,龙际珍2,尹湘舟3(1.湖南师范大学计算机教学部,湖南长沙,410081;2.长沙理工大学计算机与通信工程学院,湖南长沙,410114;3.中国科学院计算技术研究所,北京,100190)摘要:为了对网上多媒体信息进行有效检索和过滤,提出。‘种基于文本和图片相似性融合的联合聚类算法。首先通过相似性计算得到文本相似性

2、和图片相似性,然后,将所得文本相似性矩阵和图片相似性矩阵进行水平拼接融合,经奇异值分解后,进行k-means联合聚类,使得聚类后的结果融合文本信息和图片信息。研究结果表明:与单一图像联合聚类方法相比,采用联合聚类算法所得每一簇的F.Measure值都有明显提高,与单一文本联合聚类在第l,2,3和7簇的F—Measure值也有所提高。关键词:联合聚类;相似性融合;结构化文档中图分类号:TP391文献标志码:A文章编号:1672—7207(2010)05一187卜06ACO—clusteringalgorithmbasedonstructuredWebdocume

3、ntDENGDong-mei1,LONGJi—zhen2,YINXiang-zhou3(1.EducationDepartmentofComputer,HunanNormalUniversity,Changsha410081,China;2.CollegeofComputerandCommunication,ChangshaUniversityofScienceandTechnology,Changsha410114,China;3.InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing1

4、00190,China)Abstract:AsimilarityfusionalgorithmaboutthetextandimageCO-clusteringofmultimediastructureddocumentswasgiveninordertoperformmultimediaretrievalandfilterefficiently.Thismethodfusestextsimilaritymatrixandimagesimilaritymatrixtomakeafusionsimilaritymatrixandthenitisco-cluste

5、redwithk-meansalgorithmaftereigenvectordecomposition.Thisalgorithmwastestedonthetaskofmultimediastructureddocumentswhichhadtwoinformationsources,i.e.,textandimage.TheresultsshowthattheF-Measurevalueinallclustersobtainedbytheco-clusteringalgorithmbasedonstructuredWebdocumentarelarger

6、thanthoseobtainedbyaflatimageco-clusteringandtheF·Measurevalueincreasesinthefirst,second,third,seventhclustercomparedtothoseobtainedbyflattextCO—clustering.Keywords:CO-clustering;similarityfusion;structureddocument聚类是网上多媒体检索和过滤常用的一种方法‘卜21,依据事物的某些属性将其聚集成类,使同类间相似性尽量小,类与类之间相似性尽量大,是一种无监

7、督的模式识别问题。很多聚类方法都是基于单一文本聚类13卅和单一图片聚类【5】。然而,有时不仅需要对单一的文本信息或图片信息进行聚类,还需要对一些属性信息同时进行聚类,以便挖掘更多有用的信剧61,这就需用到联合聚类的思想。Dhillon[71在2001年提出了基于二部图划分思想来解决联合聚类的问题,这是目前联合聚类方法最常用的一种方法。Giannakidou收稿日期:2009一lO一27;修回日期:2010-02—29基金项目:湖南省教育厅项El(09c647)通信作者:邓冬梅(1974-),女,湖南龙山人,硕士,讲师,从事计算机软件、人工智能研究;万方数据18

8、72中南人学学报(自然科学版)第4l卷

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。