一种基于术语簇和关联规则的文档聚类方法

一种基于术语簇和关联规则的文档聚类方法

ID:34446578

大小:259.67 KB

页数:5页

时间:2019-03-06

一种基于术语簇和关联规则的文档聚类方法_第1页
一种基于术语簇和关联规则的文档聚类方法_第2页
一种基于术语簇和关联规则的文档聚类方法_第3页
一种基于术语簇和关联规则的文档聚类方法_第4页
一种基于术语簇和关联规则的文档聚类方法_第5页
资源描述:

《一种基于术语簇和关联规则的文档聚类方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1782007,43(5)Compu~rEngineeringandApplications计算机工程与应用一种基于术语簇和关联规则的文档聚类方法徐建民,成岳鹏,辛丽军XUJian—min,CHENGYue-peng,XINLi-jun1.河北大学数学与计算机学院。河北保定0710022.河北大学图书馆。河北保定0710021.MathemaricsandComputerCollege,HebeiUniversity,Baoding,Hebei071002,China2.HebeiUniversityLibrary,Baoding,Hebei071002,ChinaE—mail

2、:YY.csi@mail.hbu.cnXUJian—m——in,CHENGYue-peng,XINLi-jun.Documentclusteringapproachbasedontermdusteringandassociationrules.ComputerEngineeringandApplications,2007,43(5):178—181.Abstract:Thispaperproposesanewdocumentclusteringapproachbasedontermclusteringandassociationrules.Inthisap—proach,fir

3、stlyweextractwordsfromdocumentcollection,thenconstructtermclusteringaccordingtoAMI(AverageMutualInfor—marion)betweenterms,thedocumentVSM(VeetorSpaceMode1)isrepresentedbytermclustering,thenweuseassociationrulestomirleimrialdocumentclustering,finallywedotheclusteringanalysistogetfinaldocumentc

4、lustering.Theexperimentalresultsshowthattheperformanceandclusteringqualityofthisapproachaleobviouslyimprovedthanthoseoftraditionalmethodsintheprocessionofdocumentclustering.Keywords:termclustering;associationrules;documentclustering;Webmining;VectorSpaceModel摘要:提出一种新的基于术语簇和关联规则的文档聚类方法。首先对文档集

5、合进行分词,根据术语之间的平均互信息形成术语簇,用术语簇来表示文档矢量空间模型,使用关联规则挖掘文档的初始聚类,对此进行聚类分析获得最终的文档聚类。实验结果表明,与传统的聚类方法相比,其运行速度快,聚类效果和聚类质量都有明显提高。关键词:术语簇;关联规则;文档聚类;Web挖掘;矢量空间模型文章编号:1002—8331(2007)05—0178—04文献标识码:A中图分类号:仍l11引言类,各类间没有层次性,其运行速度较快,但须事先确定聚类数随着网络在社会生活的不断深入。加之数据库技术与应用目.且对噪声和输入顺序较敏感.尤其是当文档形式化表示的的迅速发展和普及。Web挖掘日益受到

6、信息科学界的关注和重维数较高时,该方法的性能和聚类质量都明显下降。对此,本文视,总的来说.Web挖掘可分为三种类型:Web结构挖掘,Web提出一种新的基于术语簇和关联规则的文档聚类方法,与传统使用挖掘和Web文本挖掘【1],其中,文档聚类属于Web文本挖的聚类方法相比.其运行速度快,聚类效果和聚类质量都有显掘的研究内容.所谓文本挖掘,是指从文档集合中发现隐含的著提高。某些未知模式或规则。若将整个文本挖掘过程看作一个I/O系统。令文档集合D作为输入,隐含的模式或规则MR作为输出,2文档形式化描述则进行文本挖掘即是要发现从输入D到输出MR的一个映射本方法首先对文档集合进行分词,抽取

7、其中能够反映文档§:MRo本质特征的词语,称之为术语,根据术语之间的平均互信息文档聚类不同于传统的文档分类。它不是基于预定的类表(AverageMutualInformation)用聚丛法(ClumpMethod)得到术或类目体系,而是完全基于文档本身,即先有文档后有类,类的语簇.再以术语簇矢量模型表示文档。内涵和外延以及整个类目体系完全由需要进行聚类处理的文在介绍下面的内容之前,首先引入文档集合D的定义:档集合确定。目前常用的文档聚类方法有层次方法和划分方法定义1文档集合D_(Dt,D2,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。