基于HAC的文本话题聚类研究-论文.pdf

基于HAC的文本话题聚类研究-论文.pdf

ID:57924237

大小:435.47 KB

页数:2页

时间:2020-04-14

基于HAC的文本话题聚类研究-论文.pdf_第1页
基于HAC的文本话题聚类研究-论文.pdf_第2页
资源描述:

《基于HAC的文本话题聚类研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于HAC的文本话题聚类研究赵旭剑,冯健,李波,张晖,王耀彬(西南科技大学计算机科学与技术学院,四川绵阳621010)【摘要】凝聚层次聚类算法是聚类算法实际应用的核心,算法简单效率高并能有效处理大数据集。本文利用数据挖掘技术文本凝聚层次聚类实现对中文文本的话题聚类,具体过程包括中文特征计算、文本分词、话题聚类以及结果展示,主要研究不同粒度中文文本话题聚类方法的实现,通过构建凝聚层次聚类模型(HierarchicalAgglomerativeCluster,HAC)进行文本话题聚类,采用模型参数的调控来改变聚类的粒度。不同粒度的文本话题聚类能展示不同层次的文本归并

2、结果,有效实现定制式的个性化文本信息聚类。【关键词】文本话题;HAC:层次聚类;特征计算【中图分类号】TP393【文献标识码】A【文章编号】1006—4222(2015)11-0312—021引言行文本话题聚类。相似度大于阈值的两个文档,聚集成为一个对于海量的半结构或无结构化数据,如何从中获取特定类簇.相似度较小的文档则保持原状态,进行新一轮的相似度内容的信息和知识成为摆在人们面前的一道难题[~。近年来,计算。本文采用凝聚层次聚类模型(HierarchicalAgglomera—文本挖掘、信息抽取和信息检索等方面的研究日益引起大量tireCluster,HAC)

3、[41进行文本话题聚类,对于文档集合D=fd1。学者的广泛关注。其中,聚类技术作为文本处理的核心方法,d2,⋯,d一,d},聚类过程分为四个步骤。第一步:D中的每个文件di构成一个只包舍单一时象的具有无监督学习的优点,通过相似度比较形成文本相关的不簇Ci={di},所以的类簇组成D的一个聚类表示c-{cl,C2,⋯,同类簇.为人们提供一种新的基于话题的浏览模式。因此,针对非结构化文本(新闻、网页等)进行话题聚类在学术界和工C一,Cl;第二步:度量C中每对类簇集合(Ci,Ci)之间的相似度分业界具有重要研究意义和应用价值。采用文本聚类技术。挖掘文本信息的相互语义关

4、联,实现基于话题的文本聚类.能有效数w=sim{C.,C检测文本信息的话题特征.完成文档集合的自动归并,实现对第三步:选取最大相似度分数w对应的类簇对(Ci,C)为数据的有效整理,对于实现深层自然语言分析具有基础研究聚合对象,合并成为一个新的类簇C=C、UC,从而对于文档集合D,产生一个新的聚类表示C=(C,C2,⋯Cn-I);作用。第四步:重复上述步骤,直至C中只剩下一个类簇为止。2文本聚类过程整个聚类过程实际生成一棵类簇树.树的高度和叶子节点反文本聚类就是将文本数据对象分组成为多个类或者簇,映了类簇的层次信息以及所有簇内和簇间的相似度。它的目标是:在同一个簇

5、中的对象之间具有较高的相似度,而不同簇中的对象差别较大作为聚类算法的主要应用场景文3实验结果展示及讨论本聚类是在没有学习的条件下对文本集合进行组织或划分的本文采用开源的IKAnalyzer进行分词、关键词提取。同时。我们编程实现了TF—IDF算法进行特征计算与构建.以及过程.方法主要包括层级聚类法和动态聚类法.下面我们将重HAC聚类模型。本文中,我们将计算出的TF—IDF文件转化为点讨论基于凝聚层次聚类模型的文本话题聚类过程:2.1特征构建Json格式.并配置PHP的运行环境nginx,然后用PHP完成相识度的计算以及聚类算法,最后得出聚类结果。文本聚类的首要问

6、题是如何将文本内容表示成为计算机针对聚类过程中阈值的设定我们得到了不同粒度的聚可分析处理的信息,传统方法通过抽取文本特征.建立特征模类结果图1与图2分别展示了不同闽值下文本话题的部分型来表示文本话题信息。我们对文本信息进行停用词过滤、中聚类结果。显然,随着阈值的增大,文本聚类结果中的孤立点文分词、词性标注、词频统计等预处理.进而抽取出文本内容也逐渐增多.正好体现了HAC聚类模型的特点.能够为用户的特征对象。同时,根据特征对象建立文本的特征模型。构建提供不同粒度(层次)的聚类结果。文本信息特征通常有布尔模型、向量空间模型、概率模型、混合模型等多种方式,其中,向量空

7、间模型(VectorSpaceMode1,dVSM)是近几年来在学术界和工业界被广泛使用的经典模型。⋯VSM模型是一种文档表示的统计模型[31,主要思想是:将每一(三)@‘@文档都映射为一个由词项特征和权重组成的向量(T1,W,T2,W2,⋯,Tn,W),其中,为词项特征,Wi为的权重。通常需要构造一个评价函数来度量词项的权重,本文采用TF—IDF模型计算词项权重VSM模型的最大的优点在于将非结构化和半结构化的数据(文本)表示为向量形式,从而使用计算机进根据实验结果。我们对本文算法进行了综合分析和讨论。行分析和处理成为可能①由于本文仅以500个语料的小数据量进行

8、聚类,导致部分2.2聚类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。