欢迎来到天天文库
浏览记录
ID:52768966
大小:142.31 KB
页数:3页
时间:2020-03-30
《基于主题词频数特征的文本主题划分.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第26卷第8期计算机应用VoI.26No.82006年8月ComputerAppIicationsAug.2006文章编号:1001-9081(2006)08-1993-03基于主题词频数特征的文本主题划分112康恺,林坤辉,周昌乐(1.厦门大学软件学院,福建厦门361005;2.厦门大学信息科学与技术学院,福建厦门361005)(3847051@gmaiI.com)摘要:目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分
2、方法。该方法首先根据统计方法筛选各文本类的主题词,然后以主题词类替代单个词作为特征采用模糊C-均值(FCM)算法施行文本聚类。实验获得了较好的主题划分效果,并与一种基于词聚类的文本聚类方法进行了过程及结果中多个方面的比较,得出了一些在实施要点和应用背景上较有意义的结论。关键词:搜索引擎;文本聚类;模糊C-均值;主题词筛选中图分类号:TP391文献标识码:ANewtextcategorizationmethodbasedonthefreguencyoftopicwords112KANGKai,LINKun-hui,ZHOUChang-Ie(1.SchoolofSof
3、tware,XiamenUniuersity,FujianXiamen361005,China;2.SchoolofInformationScienceandTechnology,XiamenUniuersity,FujianXiamen361005,China)Abstract:ThewordfreguencymatrixcurrentIyusedintextcategorizationischaracterizedwithhighdimensionaIityandexcessivesparsity.Thesetwofeaturescausedsomediffi
4、cuItiestocomputing.TosoIvethisprobIem,accordingtothesearchengineusersseIections,anewtextcategorizationmethodbaseduponthefeatureoftopicwordsfreguencywasproposed.ThisapproachwasdesignedtofiIternewconcepttopicwordsbystatisticaImethod,andthentheFCMcIusteringaIgorismwasappIiedtothedocument
5、s,usingthefreguencyoftopicwordsratherthanthefreguencyofsingIewordasthefeature.ThismethodperformsweIIintheexperiment.Furthermore,thismethodwascomparedinmanyaspectswithatextcategorizationmethodbasedonkeywordcIusters,andsomeusefuIconcIusionsaboutimpIementationandappIicationwerereached.Ke
6、ywords:searchengine;documentcIustering;FuzzyC-Means(FCM);topicwordfiItering目前在文本主题划分的研究过程中,多采用词频向量对行衡量。而主题信息量最为显著的体现,即在于文本中含有文本进行表示。由所有文本的词频向量构成的文本—词频矩的主题相关词汇的多少。例如某用户在查询“当归”的相关阵具有词频维数过大和矩阵过于稀疏的特点,对计算造成了页面时,获得以下两段页面摘要:很大的负担和困难。词频维数过大,使得分类或聚类算法的1)当归味辛甘、微苦,性温,是治疗血分病最常用的药,计算复杂度相当高,即使去除大量
7、停用词,情况仍然不能得到能使血各归其所,故名当归。改善。而矩阵过于稀疏,造成大量特征值间差别较小,空间中2)《当归》这首歌专为中秋节而创作,旋律优美,洋溢着存在大量孤立点,使得各种分类或聚类算法的效果不理想。浓浓的中国传统风格,寄托着作者浓浓的思乡之情。当训练语料的规模达到应用所需求的相当规模时,这两个问如果该用户想要获取作为一种中草药的当归的药理知题就显得更加严重。针对这些问题,研究者采取了一系列方识,他能够很快地选择第一个摘要所对应的页面,而在很大程法对词空间进行降维。常用的降维技术有信息增益度上决定其判断的因素,就在于摘要中有一系列中草药主题(Informa
8、tionG
此文档下载收益归作者所有