欢迎来到天天文库
浏览记录
ID:35128454
大小:2.46 MB
页数:63页
时间:2019-03-19
《浅论一种中文文本聚类方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:——编号:——工学硕士学位论文一种中文文本聚类方法的研究硕士研究生:张丽指导教师:刘杰教授学位级别:工学硕士学科、专业:计算机应用技术所在单位:计算机科学与技术学院论文提交日期:2009年3月2日论文答辩日期:2008年3月6日学位授予单位:哈尔滨工程大学哈尔滨工程大学硕士学位论文摘要20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规模的文本中快速获取所需要的信息呢?文本挖掘就是加工和处理这些文本,从而为人类提供
2、更多的信息。作为文本挖掘的重要分支,文本聚类技术的研究有着重要的意义。本文主要是针对文本聚类中的经典算法k.means算法给出两点改进,使k-means算法能够适合大规模文本聚类。首先,本文针对k.means算法中初始点的选择问题进行深入的研究,同时指出:初始点的选择对k.means算法的影响较大。本文结合文本矩阵的特点,给出一种应用CURE算法来改进初始点选择的算法,通过去掉增长较慢的样本点和小类的方式,减少孤立点对聚类中心形成的影响。其次,对文本聚类中的特征选择也给出改进算法。改进后的算法将动
3、态和局部PCA思想引入了k-means算法。在聚类开始时,保留更多的文本信息—_特征词语。在迭代过程中,利用PCA算法选出能标明具体类的特征词语,从而动态地利用这些特征词语进行聚类,加速迭代的收敛。改进后的算法在一定程度上提高了k.means算法的精度。最后,本文通过实验对改进后的算法进行验证,并对实验结果进行分析,说明了算法的优点和不足。关键词:文本聚类;k-means算法:CURE算法:主成分分析哈尔滨工程大学硕士学位论文AbstractMoreandmoreinformationisavai
4、lablewiththefastdevelopmentofinformationtechnologyanddatabasetechnologysincetheendofthelastcentury.Mostoftheinformationistotheexistenceoftexts.Howtofindtherightinformationquic“yfromalargenumberoftextsisgettingmoreandmoreurgent.Textminingistodeal、^,itl
5、lthesetextsandprovidepeoplewiⅡlmoreinformation.Asanimportantbranchoftextmining,textclusteringtechnologyisworthyofmoreresearchesinthefuture.K—meansalgorithmisoneoftheclassicalalgorithmsintextclustering.Therearetwoimprovedpointswhichweremadetoadaptlarge
6、—scaletextclustering.Firstofall,deeperresearchaboutinitialpointink-meansalgorithmwasdoneanditWaSpointedoutthattheselectionofinitialpointsWaSimportantforthealgorithm.Aftertheresearchofexitedmethods,CUREalgorithmWasappliedink-meansalgorithmtoimprovethes
7、electionofinitialpointsontheaccountofthefeatureoftextmatrix.Bythewayofremovingtheisolatedpointsandthesmallclusterswhichbothgrewslowly,theimprovedalgorithmcouldreducetheimpactofisolatedpointsonclusteringcenters.Secondly,animprovedalgorithmaboutcharacte
8、risticwordselectionintextclusteringwasalsogiven.ThemindofdynamicandlocalPCAwasappliedink-meansalgorithm.Atthebeginningoftextclustering,moretextinformationwasretained.Intheprocessionofiteration,theimprovedalgorithmcouldchoosethefightcharacteris
此文档下载收益归作者所有