基于模糊集的Web文本最大支撑树聚类算法.pdf

基于模糊集的Web文本最大支撑树聚类算法.pdf

ID:55399336

大小:320.36 KB

页数:5页

时间:2020-05-15

基于模糊集的Web文本最大支撑树聚类算法.pdf_第1页
基于模糊集的Web文本最大支撑树聚类算法.pdf_第2页
基于模糊集的Web文本最大支撑树聚类算法.pdf_第3页
基于模糊集的Web文本最大支撑树聚类算法.pdf_第4页
基于模糊集的Web文本最大支撑树聚类算法.pdf_第5页
资源描述:

《基于模糊集的Web文本最大支撑树聚类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2011年11月现代情报Nov.,2011第31卷第l1期JoumalofModemInformationV01.31No.11·理论探索·基于模糊集的Web文本最大支撑树聚类算法毛太田邹凯毛静周军2(1.湘潭大学公共管理学院,湖南湘潭411105;2.冷水江锡矿山机械制造有限责任公司,湖南冷水江417500)[摘要】当今信息社会,Intemet上的信息资源杂乱繁多,用户很难准确地获得所需的信息。对此,本文提出根据特征词在html网页中的title、keywonts、description标签的位置来计算各web文本内容之间的相关度,对web文档进行模糊聚类的算法

2、,这种基于模糊集的Web文本最大支撑树聚类算法改善了文本聚类的时间和空间的复杂度,减少了文本处理的维度,提高了聚类的速度和精度。从而提高了用户对信息资源获取的方便性。[关键词]模糊聚类;Web文本;html标签;最大支撑树DOl:10.3969issn.1008—0821.2D11.11.O05(中图分类号]删[文献标识码]A[文章编号]1008—0821(2011)11—0021—05l~llnlSupportTreeClusteringAlgorithmofWebTextBasedonl~lzzySetsMaoTaitianZouKaiMaoJingZhouJ

3、un2(1.PublicAdministrationSchool,XiangtanUniversity,Xiangtan411105,China;2.TheLimitedLiabilityCompanyofMachineryManufacturingofXikuangshanLengshuijiang,Lengshuijian417500,China)[Abstract]Intheinfomaafionsociety,theinformation1-e8Olll-C~intheIntemetisvarietyanddiso~terlyandtheuseris衄-c

4、ulttoacqIliI'einformationaccurately.SothispaperanalyzedthewebtextbasedOilthemethodoffuryclusterbycalculatingthecorrelationamongthecontentofthewebtext,accordingtotheplacementofthechecktasswhich“title”,“keywords”and“de-acriptiOil”containedinHTMLpages.MaxilmllnSupportTreeClusteringAtgori

5、thmofWebTextbasedOilFuzzySotsimprovedthetime一8pacecomplexityintextclustering,reducedthetextprocessingdimensions,speduptheclustering,andimprovedtheprecision.Consequently.itincreasedtlser'saccessibilitytoinformationn撼0urI瑚.[Keywords]thefu=yclustering;webtext;htmllabel;themaxililUillsupp

6、orttree信息时代,信息资源在经济社会发展中扮演着愈益重Web文本聚类就是将Web文本集分成若干称为聚类簇要的角色。网络的迅猛发展,使得WWW(WorldWide的子集,聚类簇内的文本间具有较大的相似性,而聚类簇web)已经成为一个巨大的、蕴含着具有潜在价值知识的间的文本的相似性较小,从而使我们能够将观察到文本的分布式信息空间。Intemet是信息资源的一个巨大的承载内容组织成不同的类【3J。文本聚类的一般方法有单遍聚类、体,Web迅猛发展的同时,信息爆炸,将成为我们面临的逆中心距聚类、自上而下精分法、密度测试法、图论分析新问题。在这庞大的信息库中,用户从搜索

7、引擎上得到的法。但这些方法不能完全套用Intemet网页上的文本,对此信息杂乱无章,用户检索到自己需要的信息也将越来越困本文将通过Web文本的一些特殊结构,突出重点特征词,难⋯1。对网络信息资源进行更好的分类,使用户快速简单来改善算法实现的时间和空间的复杂度,减少文本处理的的从Intemet上检索到自己所需要的信息,将成为信息时代维度,提高聚类的速度和精度L4J。的一个重要的研究方向【2J。收稿日期:2011—09—15基金项目:湖南省科学技术情报学会学术基金项目。基于模糊聚类的网络信息资源深度挖掘与知识发现理论研究”(编号:2010203)研究成果之一。作者简介

8、:毛太田(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。