欢迎来到天天文库
浏览记录
ID:55399336
大小:320.36 KB
页数:5页
时间:2020-05-15
《基于模糊集的Web文本最大支撑树聚类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2011年11月现代情报Nov.,2011第31卷第l1期JoumalofModemInformationV01.31No.11·理论探索·基于模糊集的Web文本最大支撑树聚类算法毛太田邹凯毛静周军2(1.湘潭大学公共管理学院,湖南湘潭411105;2.冷水江锡矿山机械制造有限责任公司,湖南冷水江417500)[摘要】当今信息社会,Intemet上的信息资源杂乱繁多,用户很难准确地获得所需的信息。对此,本文提出根据特征词在html网页中的title、keywonts、description标签的位置来计算各web文本内容之间的相关度,对web文档进行模糊聚类的算法
2、,这种基于模糊集的Web文本最大支撑树聚类算法改善了文本聚类的时间和空间的复杂度,减少了文本处理的维度,提高了聚类的速度和精度。从而提高了用户对信息资源获取的方便性。[关键词]模糊聚类;Web文本;html标签;最大支撑树DOl:10.3969issn.1008—0821.2D11.11.O05(中图分类号]删[文献标识码]A[文章编号]1008—0821(2011)11—0021—05l~llnlSupportTreeClusteringAlgorithmofWebTextBasedonl~lzzySetsMaoTaitianZouKaiMaoJingZhouJ
3、un2(1.PublicAdministrationSchool,XiangtanUniversity,Xiangtan411105,China;2.TheLimitedLiabilityCompanyofMachineryManufacturingofXikuangshanLengshuijiang,Lengshuijian417500,China)[Abstract]Intheinfomaafionsociety,theinformation1-e8Olll-C~intheIntemetisvarietyanddiso~terlyandtheuseris衄-c
4、ulttoacqIliI'einformationaccurately.SothispaperanalyzedthewebtextbasedOilthemethodoffuryclusterbycalculatingthecorrelationamongthecontentofthewebtext,accordingtotheplacementofthechecktasswhich“title”,“keywords”and“de-acriptiOil”containedinHTMLpages.MaxilmllnSupportTreeClusteringAtgori
5、thmofWebTextbasedOilFuzzySotsimprovedthetime一8pacecomplexityintextclustering,reducedthetextprocessingdimensions,speduptheclustering,andimprovedtheprecision.Consequently.itincreasedtlser'saccessibilitytoinformationn撼0urI瑚.[Keywords]thefu=yclustering;webtext;htmllabel;themaxililUillsupp
6、orttree信息时代,信息资源在经济社会发展中扮演着愈益重Web文本聚类就是将Web文本集分成若干称为聚类簇要的角色。网络的迅猛发展,使得WWW(WorldWide的子集,聚类簇内的文本间具有较大的相似性,而聚类簇web)已经成为一个巨大的、蕴含着具有潜在价值知识的间的文本的相似性较小,从而使我们能够将观察到文本的分布式信息空间。Intemet是信息资源的一个巨大的承载内容组织成不同的类【3J。文本聚类的一般方法有单遍聚类、体,Web迅猛发展的同时,信息爆炸,将成为我们面临的逆中心距聚类、自上而下精分法、密度测试法、图论分析新问题。在这庞大的信息库中,用户从搜索
7、引擎上得到的法。但这些方法不能完全套用Intemet网页上的文本,对此信息杂乱无章,用户检索到自己需要的信息也将越来越困本文将通过Web文本的一些特殊结构,突出重点特征词,难⋯1。对网络信息资源进行更好的分类,使用户快速简单来改善算法实现的时间和空间的复杂度,减少文本处理的的从Intemet上检索到自己所需要的信息,将成为信息时代维度,提高聚类的速度和精度L4J。的一个重要的研究方向【2J。收稿日期:2011—09—15基金项目:湖南省科学技术情报学会学术基金项目。基于模糊聚类的网络信息资源深度挖掘与知识发现理论研究”(编号:2010203)研究成果之一。作者简介
8、:毛太田(
此文档下载收益归作者所有