基于模糊集的Web文本最大支撑树聚类算法.pdf

ID：55399336

大小：320.36 KB

页数：5页

时间：2020-05-15

资源描述：

《基于模糊集的Web文本最大支撑树聚类算法.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、2011年11月现代情报Nov．，2011第31卷第l1期JoumalofModemInformationV01．31No．11·理论探索·基于模糊集的Web文本最大支撑树聚类算法毛太田邹凯毛静周军2(1．湘潭大学公共管理学院，湖南湘潭411105；2．冷水江锡矿山机械制造有限责任公司，湖南冷水江417500)[摘要】当今信息社会，Intemet上的信息资源杂乱繁多，用户很难准确地获得所需的信息。对此，本文提出根据特征词在html网页中的title、keywonts、description标签的位置来计算各web文本内容之间的相关度，对web文档进行模糊聚类的算法

2、，这种基于模糊集的Web文本最大支撑树聚类算法改善了文本聚类的时间和空间的复杂度，减少了文本处理的维度，提高了聚类的速度和精度。从而提高了用户对信息资源获取的方便性。[关键词]模糊聚类；Web文本；html标签；最大支撑树DOl：10．3969issn．1008—0821．2D11．11．O05(中图分类号]删[文献标识码]A[文章编号]1008—0821(2011)11—0021—05l~llnlSupportTreeClusteringAlgorithmofWebTextBasedonl~lzzySetsMaoTaitianZouKaiMaoJingZhouJ

3、un2(1．PublicAdministrationSchool，XiangtanUniversity，Xiangtan411105，China；2．TheLimitedLiabilityCompanyofMachineryManufacturingofXikuangshanLengshuijiang，Lengshuijian417500，China)[Abstract]Intheinfomaafionsociety，theinformation1-e8Olll-C~intheIntemetisvarietyanddiso~terlyandtheuseris衄-c

4、ulttoacqIliI'einformationaccurately．SothispaperanalyzedthewebtextbasedOilthemethodoffuryclusterbycalculatingthecorrelationamongthecontentofthewebtext，accordingtotheplacementofthechecktasswhich“title”，“keywords”and“de-acriptiOil”containedinHTMLpages．MaxilmllnSupportTreeClusteringAtgori

5、thmofWebTextbasedOilFuzzySotsimprovedthetime一8pacecomplexityintextclustering，reducedthetextprocessingdimensions，speduptheclustering，andimprovedtheprecision．Consequently．itincreasedtlser'saccessibilitytoinformationn撼0urI瑚．[Keywords]thefu=yclustering；webtext；htmllabel；themaxililUillsupp

6、orttree信息时代，信息资源在经济社会发展中扮演着愈益重Web文本聚类就是将Web文本集分成若干称为聚类簇要的角色。网络的迅猛发展，使得WWW(WorldWide的子集，聚类簇内的文本间具有较大的相似性，而聚类簇web)已经成为一个巨大的、蕴含着具有潜在价值知识的间的文本的相似性较小，从而使我们能够将观察到文本的分布式信息空间。Intemet是信息资源的一个巨大的承载内容组织成不同的类【3J。文本聚类的一般方法有单遍聚类、体，Web迅猛发展的同时，信息爆炸，将成为我们面临的逆中心距聚类、自上而下精分法、密度测试法、图论分析新问题。在这庞大的信息库中，用户从搜索

7、引擎上得到的法。但这些方法不能完全套用Intemet网页上的文本，对此信息杂乱无章，用户检索到自己需要的信息也将越来越困本文将通过Web文本的一些特殊结构，突出重点特征词，难⋯1。对网络信息资源进行更好的分类，使用户快速简单来改善算法实现的时间和空间的复杂度，减少文本处理的的从Intemet上检索到自己所需要的信息，将成为信息时代维度，提高聚类的速度和精度L4J。的一个重要的研究方向【2J。收稿日期：2011—09—15基金项目：湖南省科学技术情报学会学术基金项目。基于模糊聚类的网络信息资源深度挖掘与知识发现理论研究”(编号：2010203)研究成果之一。作者简介

8、：毛太田(

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于模糊集的Web文本最大支撑树聚类算法.pdf

基于模糊集的Web文本最大支撑树聚类算法.pdf

相关文章

相关标签