改进的GHSOM算法在文本聚类中的应用.pdf

改进的GHSOM算法在文本聚类中的应用.pdf

ID:52359481

大小:1.00 MB

页数:5页

时间:2020-03-26

改进的GHSOM算法在文本聚类中的应用.pdf_第1页
改进的GHSOM算法在文本聚类中的应用.pdf_第2页
改进的GHSOM算法在文本聚类中的应用.pdf_第3页
改进的GHSOM算法在文本聚类中的应用.pdf_第4页
改进的GHSOM算法在文本聚类中的应用.pdf_第5页
资源描述:

《改进的GHSOM算法在文本聚类中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、学术探讨∙算法研究改进的GHSOM算法在文本聚类中的应用陈林(福建中医药大学人文与管理学院,福建福州350108)[摘要]信息时代,文本信息极其巨大。本文运用一种改进GHSOM算法进行文本聚类,该算法具有显著的文本聚类能力,能够将文本的相似性用多种手段表现。实验结果表明改进GHSOM算法整体上是优于SOM算法,它的先进性主要体现在更短的计算时间,并提供更丰富的有序性表达能力。[关键词]文本聚类;成长型分级自组织映射;SOM中图分类号:TP181文献标识码:A文章编号:1008-6609(2016)05-0057-05型SOM,通过增长规模来在一定详细程度上描述数

2、据集。1引言表示过分复杂数据的神经元被扩展,在下层形成一个小的成信息时代信息量极大,可以用“信息爆炸”来形容,对信长型SOM,而表示一个相似数据集的单元将不需要进一步息的查询、存取、处理都要前期对信息进行分类处理。在浩扩展。因此,通过它特有的结构与数据固有的分级结构,如烟海的信息中,文本信息占据的比重较大,同时很多其他GHSOM的结果更加反映出它的适应性。的信息也可以转换成文本或者以文本的某种形式体现,而这在图1中给出了GHSOM的典型结构。第一层映射提供些信息的处理可以归结为文本分类问题。如何从这些繁多输入数据中主要聚类的粗略组织。在第二层中的六个单独的文本信

3、息中找到满足用户的文本信息是文本挖掘的重要的SOM提供数据的更详细的表示。值得注意的是,由于数研究内容。利用文本聚类将文本进行自动分类是解决这类据结构的不同,映射的规模也不同。第0层为虚拟映射,为成问题的重要手段。众多学者对文本聚类算法进行了研究,取长过程提供服务。得了很多成果[1~8]。文本聚类的基本思想就是通过计算文本间的相似度,将文本划分成若干个子类,使得同一子类中文本尽可能相似,而不同子类中的文本尽可能不同。文本聚类已得到广泛的应用,比如数据挖掘、信息检索等方面[4]。本文针对文本聚类问题,提出一种改进的成长型分级自组织映射(GrowingHierarc

4、hicalSelf-organizingMap,GH-SOM)算法处理[9~11]。实验显示改进的GHSOM算法具有明显的文本聚类能力,能够将文本的相似性用多种手段表现。将最相似的文本映射到同一神经元,同一映射相邻神经元、不同映射间由全局导向作用导致的相邻也都体现着一定程度图1GHSOM的典型结构的相似性。改进GHSOM算法整体上是优于SOM算法[12~15],2.2GHSOM核心算法流程它的先进性主要体现在更短的计算时间,并提供更丰富的有根据GHSOM的原理,设计了算法的主要步骤如下:序性表达能力。(1)计算第0层单元的量化误差qe,计算式如下:2改进的成长型

5、分级自组织映射(GHSOM)的原理及算法qe0=∑m0-xj实现xj∈C02.1GHSOM原理其中,C0为映射到第0层单元上的输入向量集,即为全GHSOM是多层分级结构,每一层包含数个独立的成长部向量集;m0代表输入向量的平均值。——————————————作者简介:陈林,男,福建福州人,硕士,助教,研究方向:计算机应用与软件,信息管理。-57-学术探讨∙算法研究(2)构建第1层映射为2*2个单元的SOM,采用K-means需要对训练过程中的数据保存和内存使用进行合理的安排,方法对向量权值进行初始化,并设置此网络为活动网络,活否则算法将出现逻辑错误。改为广度

6、优先的构建方法的一动网络层级数为1,训练数据集为全部数据集[11]。个最大优势在于提供继续计算功能,即首先设定全局成长参(3)使用SOM训练算法训练活动网络。数为比较大的数值,使GHSOM成长过程在聚类精度较粗时(4)计算活动网络内所有神经元的量化误差qei,并根据暂时停止计算,经过人工检验不满意时,再将全局成长参数平均量化误差MQE定义式:设置得更小一些,并以先前计算得到的GHSOM网络结构为MQE=1∙∑qe,n=

7、μ

8、,初始继续进行计算。mniμμi∈μ(3)根据耗散结构论理论,系统有序结构形成过程中,计算当前网络的MQEm值。其中,m为活动网络所在层“负

9、熵流”起到的作用至关重要,而信息即可以看作一种典型级数,qe出自数据投射到的映射单元的子集μ。i的“负熵流”。如在上述GHSOM结构形成过程中,仅仅依靠(5)验证级内终止条件:MQEm<τ1∙qeu,其中,qeu是相了程序设置参数的信息和映射中每个神经元权值向量的量应的上层单元的量化误差。条件成立时,转第7步。化误差信息。由此可以想到,只要在有序结构的形成过程中(6)选取活动网络中qe值最大的单元,标记为错误单元提供更多的信息,就可以得到有序程度更高的结构。举例来e。然后按下式得到最相异的邻居d:d=argmax(m-m),说,在上述GHSOM算法中,上层映

10、射向下层映射转移的过ei

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。