词聚类在文本分类中的应用.pdf

词聚类在文本分类中的应用.pdf

ID:52767983

大小:290.51 KB

页数:8页

时间:2020-03-30

词聚类在文本分类中的应用.pdf_第1页
词聚类在文本分类中的应用.pdf_第2页
词聚类在文本分类中的应用.pdf_第3页
词聚类在文本分类中的应用.pdf_第4页
词聚类在文本分类中的应用.pdf_第5页
资源描述:

《词聚类在文本分类中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、词聚类在文本分类中的应用木朱慕华陈文亮朱靖波东北大学自然语言处理实验室辽宁110004—————————品忑正i品j面j面蔺面面忑丽i鬲r——————~一摘要现有的文本分类方法需要较大的训练语料,在训练语料足够大的前提下可取得不错的效果,训练语料的规模直接影响分类的效果。然而,要大规模人工进行语料标注是一个难题.本文将k-means聚类算法引入到文本分类中,首先在无标注语料上进行词聚类。然后将聚类结果作为文本特征来代替词特征.通过这种方法,利用无标注的训练语料来改善训练语料不足的情况下文本分类的效果.实验结果表明,采用这种方法,在同等训练语料的情况下,分类性能确

2、实有所提高。关键词:文本分类,k-means.聚类,背景语料AbstractAvarietyoftechniquesforsupervisedlearningalgorithmshavedemon-stratedreasonableperformancefortextcategorization.TheperformanceiSaf-fectedbythesizeoftrainingcorpus.CreatingthesesetSoflabeleddataistediousandexpensive,becauselabeleddocumentsshouldbel

3、abeledbyhand.Thispaperproposesanapproachthatweusek-meansclusteringalgorithmfortextcategorization.Wbclusterthewordsfromunlabeledcorpus.andUsetheselearnedclusters阳thefeaturesfortextcategorization.TheexperimentalresuItsshowthattheproposedapproachcanimprovetheperformanceusingunlabeledcor

4、pus·Keywords:textcategorization,k-means,clustering,bak寥oundcorpus1引言因特网的出现,使可获得的文本数量大量增加。数量巨大的web网页,新闻组和电子邮件,若以人工进行分类,是非常繁重的工作任务,这使得自动文本分类具有了现实意义。文本分类问题一直是自然语言处理领域的一个重要课题。近年来,国内外研究人员对文本分类问题进行深入研究,他们采用很多不同方法来构造分类器,例如:KNN、naiveBayes、MaximumEntropy、SVM、Rocchio、DecisionTree、NNet、LLSF等等考虑

5、文本分类的问题【1l[2l。现有基于统计的文本分类方法都具有不错的效果。然而,这些方法都有~个‘本文获得国家教育部科学技术研究重点项目(104065)和国家自然科学基金和微软驱洲研究院联合赉助项111(602030]9)资助399应用上的不足,它们都需要一个较大的带标语料库,语料库的规模直接影响分类的效果。但是语料标注通常都是人工完成,这是一个费时、费力的I作。本文将就如何用较少的训练语料训练分类器而不降低分类效果的问题进行探讨。我们将引入大量未标注的背景语料,通过聚类的方法对它的学习,本文通过文本特征的转换将学习得到的知识引入到分类器的训练中,以期望减少训练语

6、料的使用。实验结果表明,在特征数较少时,本文的方法效果明显。当特征数为200时,采用相同训练语料时,本文的方法F1值比传统方法要高13.25%。表明本文的方法对提高分类效果是有效的。2基于词聚类的文本分类系统本节将详细讨论本文所采用的方法,其程序框图如图1所示。通常文本分类系统只执行:从带标语料中提取特征,进行文本表示,训练分类器,最后进行分类。本文的方法则要对无标注语料中进行聚类,以聚类得到的簇代替通常文本表示中的词特征,以此将背景语料中的知识引入到分类器的训练中来,提高分类的效果。Figure1:文本分类系统框架2.1词聚类聚类算法很多,从总体上可以分为Pa

7、rtitioning和Hierarchical两类。Partition-ing方法将聚类看做是数据分割问腹。这类方法包括k-means聚类和概率聚类等。Hierarchical聚类方法在空间的“层次”结构.该类方法包括合并和分裂两种情况。在【3】中对当前比较流行的聚类算法进行了详细比较分析。本文采用k—mearls进行聚类f4】。k-means算法是当前比较流行的一种无监督聚类算法。k-means具有较多的变化形式,但基本上这些变种都是迭代聚类的过程,在每个迭代步骤中,都能较高效地利用当前可获得的信息。在实际应用中,k_means算法聚类效果较好,是现今被广泛采

8、用的聚类算法。本文将采用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。