改进som算法在文本聚类中的应用

改进som算法在文本聚类中的应用

ID:31999614

大小:4.47 MB

页数:62页

时间:2019-01-30

改进som算法在文本聚类中的应用_第1页
改进som算法在文本聚类中的应用_第2页
改进som算法在文本聚类中的应用_第3页
改进som算法在文本聚类中的应用_第4页
改进som算法在文本聚类中的应用_第5页
资源描述:

《改进som算法在文本聚类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Y1404794分类号:UDC:TP391密级:学校代号:10150学号:20052185戈建交积乎硕士学位论文改进SOM算法在文本聚类中的应用OptimizeSOMAlgorithmtoApplyinTextClustering学生姓名:导师及职称:学科门类:专业名称:研究方向:申请学位级别:论文答辩日期:学位授予单位:孙爱香杨鑫华教授工学计算机应用技术数据挖掘硕士2007年12月大连交通大学摘要摘要随着网络技术的飞速发展和普及,信息在急速地膨胀,为了有效地从浩如烟海的信息中发现对自己有用的信息,数据挖掘技术和知识发现技术应运产生。因为文本是信息载

2、体中最重要的,文本挖掘也相应地成为数据挖掘中最重要的领域之一。聚类技术是文本信息挖掘技术中的核心技术之一,近年来文本聚类的研究取得了长足的发展。由于文本是非结构化的数据,要想对其进行聚类,必须通过预处理技术将其转化为结构化的形式。所以,本文首先系统地介绍了文本预处理技术,如分词、词干还原、降维等。聚类技术是文本聚类领域的关键技术,自上世纪50年代以来,人们提出了多种聚类算法,SOM算法是其中非常著名的一种。接下来本文重点阐述了聚类算法中的SOM算法,并且做了两点重要的改进。SOM神经网络是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SO

3、M聚类的基本思想是通过网络训练,把相类似的输入映射到同一个输出结点上,从而实现对输入数据的聚类。本文从两个方面对SOM聚类算法进行改进。一是针对文本聚类问题,把文本聚类追求的目标一平均类内离差最d,oO平均类内相似度最大考虑进去,提出了一种改进的学习策略,该算法把等离差理论引入神经网络的学习过程中,通过调整类内离差来指导神经网络的学习,以使得聚类结果的平均类内离差最小。改进的算法不仅解决了神经元欠利用和过度利用的问题,而且大大提高了文本聚类的结果质量。二是针对随机初始化SOM神经网络连接权值,网络模型训练时间长的缺点,本文运用层次聚类法探测数据密集区

4、域,用探测到的K个数据密集区域的中心点初始化SOM网络连接权值。实验表明,改进后的SOM算法缩短了网络的训练时间,并且不容易收敛到局部最优。同时,为了使聚类结果易于理解和表达,对聚类簇进行合适的标引,以便正确理解聚类簇内容,提高信息处理的性能和效率。关键词:文本聚类;SOM;等离差;权值初始化:标引大连交通人学-1:学硕十学位论文AbstractWiththerapiddevelopmentofnetworktechnologyandthepopularityoftherapidexpansionofinformation.inordertogain

5、usefulinformationfromthelargeinformationsea,dataminingandknowledgediscoverytechnologyariseatthehistoricmoment.Becausetextisthemostimportantexistingformofinformation,correspondlytextminingisoneofthemostimportantdataminingfields.Clusteringisoneofthefundamentaltechnologyintextmini

6、ngfield.Theresearchinthistextclusteringfieldhasundergoneconsiderabledevelopmentinrecentyears.AstextiSunstructureddata,inordertoclusterthem,pretreatmenttechnologiesmustbeadoptedtotransforrnthemtostructuredform.SoFirstlythispaperintroducesthetextpretreatmenttechnologysuchaswordse

7、gmentation,stemming,dimensionreducingsystematically.Clusteringtechnologyisthekeytechnologyintextclusteringfield.Sincethe1950s,avarietyofclusteringalgorithmhasbeeninvented,ofwhichSOMalgorithmisaveryfamousone.ThenthispapersetsfocusonstudyingSOMalgorithm,andmaketwoimportantimprove

8、ments.SOMneuralnetworkisonekindofartificialneuralnetwo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。