浅论一种中文文本聚类方法的研究

浅论一种中文文本聚类方法的研究

ID:35128454

大小:2.46 MB

页数:63页

时间:2019-03-19

浅论一种中文文本聚类方法的研究_第1页
浅论一种中文文本聚类方法的研究_第2页
浅论一种中文文本聚类方法的研究_第3页
浅论一种中文文本聚类方法的研究_第4页
浅论一种中文文本聚类方法的研究_第5页
资源描述:

《浅论一种中文文本聚类方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:——编号:——工学硕士学位论文一种中文文本聚类方法的研究硕士研究生:张丽指导教师:刘杰教授学位级别:工学硕士学科、专业:计算机应用技术所在单位:计算机科学与技术学院论文提交日期:2009年3月2日论文答辩日期:2008年3月6日学位授予单位:哈尔滨工程大学哈尔滨工程大学硕士学位论文摘要20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规模的文本中快速获取所需要的信息呢?文本挖掘就是加工和处理这些文本,从而为人类提供

2、更多的信息。作为文本挖掘的重要分支,文本聚类技术的研究有着重要的意义。本文主要是针对文本聚类中的经典算法k.means算法给出两点改进,使k-means算法能够适合大规模文本聚类。首先,本文针对k.means算法中初始点的选择问题进行深入的研究,同时指出:初始点的选择对k.means算法的影响较大。本文结合文本矩阵的特点,给出一种应用CURE算法来改进初始点选择的算法,通过去掉增长较慢的样本点和小类的方式,减少孤立点对聚类中心形成的影响。其次,对文本聚类中的特征选择也给出改进算法。改进后的算法将动

3、态和局部PCA思想引入了k-means算法。在聚类开始时,保留更多的文本信息—_特征词语。在迭代过程中,利用PCA算法选出能标明具体类的特征词语,从而动态地利用这些特征词语进行聚类,加速迭代的收敛。改进后的算法在一定程度上提高了k.means算法的精度。最后,本文通过实验对改进后的算法进行验证,并对实验结果进行分析,说明了算法的优点和不足。关键词:文本聚类;k-means算法:CURE算法:主成分分析哈尔滨工程大学硕士学位论文AbstractMoreandmoreinformationisavai

4、lablewiththefastdevelopmentofinformationtechnologyanddatabasetechnologysincetheendofthelastcentury.Mostoftheinformationistotheexistenceoftexts.Howtofindtherightinformationquic“yfromalargenumberoftextsisgettingmoreandmoreurgent.Textminingistodeal、^,itl

5、lthesetextsandprovidepeoplewiⅡlmoreinformation.Asanimportantbranchoftextmining,textclusteringtechnologyisworthyofmoreresearchesinthefuture.K—meansalgorithmisoneoftheclassicalalgorithmsintextclustering.Therearetwoimprovedpointswhichweremadetoadaptlarge

6、—scaletextclustering.Firstofall,deeperresearchaboutinitialpointink-meansalgorithmwasdoneanditWaSpointedoutthattheselectionofinitialpointsWaSimportantforthealgorithm.Aftertheresearchofexitedmethods,CUREalgorithmWasappliedink-meansalgorithmtoimprovethes

7、electionofinitialpointsontheaccountofthefeatureoftextmatrix.Bythewayofremovingtheisolatedpointsandthesmallclusterswhichbothgrewslowly,theimprovedalgorithmcouldreducetheimpactofisolatedpointsonclusteringcenters.Secondly,animprovedalgorithmaboutcharacte

8、risticwordselectionintextclusteringwasalsogiven.ThemindofdynamicandlocalPCAwasappliedink-meansalgorithm.Atthebeginningoftextclustering,moretextinformationwasretained.Intheprocessionofiteration,theimprovedalgorithmcouldchoosethefightcharacteris

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。