欢迎来到天天文库
浏览记录
ID:31359859
大小:106.50 KB
页数:5页
时间:2019-01-09
《基于改进k均值算法的x光片图像聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于改进K均值算法的X光片图像聚类研究 摘要:提出了一种改进的K均值算法用于X光片图像聚类。首先对X光片图像进行预处理,获取数据,然后将每个点的灰度值存储在灰度值矩阵中,最后用改进的K均值算法对灰度值矩阵进行聚类。对比实验结果表明,改进的K均值算法获得了更加优越的聚类结果。 关键词:X光片;K均值;聚类分析;簇中心;灰度 DOIDOI:10.11907/rjdk.162084 中图分类号:TP317.4 文献标识码:A文章编号:1672-7800(2016)012-0156-03 0引言 随着科技在医学领域的应用,传统的放射诊断学成为医
2、学影像的重要部分。X线摄影是临床最常用的医学检查方法,几乎适用于人体任何部位,它具有空间分辨率高、图像清晰、层析分明的特点,常用作医学诊断的辅助工具[1-3]。然而,由于在X光片成像时三维人体被显示为二维图像,所以人体器官显示会出现重叠和失真现象。通过将聚类分析技术应用于X光片数据,可为观察者提供更多信息,降低重叠和失真带来的影响[4]。 本文提出一种快速有效的X光片图像聚类算法,通过改进K均值算法的初始值选取方法,有效提高了聚类效果。对比实验表明,本文算法获得的聚类结果明显优于传统的K均值算法。 1改进的K均值算法5 X光片具有数据量巨大、数
3、据点分布稀疏、存在大量近似点(灰度相同的点)的特性,所以并不是所有聚类方法都会产生比较好的结果。X光片图像数据存在大量数据点,导致进行聚类分析的算法时间复杂度和空间复杂度不能太高,否则消耗的时间和占用的内存会难以承受。 1.1K均值聚类 在所有聚类算法中,K均值算法适应范围广泛,针对X光片图像数据而言,类与类之间区别明显,在处理大数据集时,算法时间和空间复杂度都表现良好。K均值用质心定义原型,一般情况下数据点属性的平均值被定义为质心。大部分情况下,一个簇中不仅包含一个数据点,中心点是一组点中最具代表性的点[1]。K均值聚类可以用于各种数据类型,因
4、为只需要对象之间的邻近性度量。 K均值算法执行前,需要指定K值,K值表示希望从对象中得到簇的个数。算法开始执行时首先需要将每个点划分到距离最近的簇中。将所有点划分完后,计算每个簇的簇中心。重复划分所有点到最近的簇,并计算簇中心位置,直到簇不再变化。具体算法如下:①指定K个点作为初始质心;②Repeat;③将每个点指派到最近的质心,形成K个簇;④重新计算每个簇的质心;⑤Until;⑥质心不再变化。 其中,K均值算法中的第③步如下,流程如图1所示: ①Repeat;②比较数据点到每个簇中心的距离;③将数据点划分到距离其最近的数据中心;④Until;
5、⑤每个数据点都被划分到了最近的簇中。 K均值算法中的第④步如下,流程如图2所示: ①Repeat;②数据点所在簇的簇内点数量加1;③5数据点所在簇的总灰度=总灰度+数据点的灰度;④Until;⑤所有的数据点都被计算;⑥将每个簇的总灰度除以簇内点的数量得到簇的平均灰度。 K均值算法优点是适用范围广,当簇与簇之间聚类较远差异较大时,数据维度较低的数据点分布相对密集,效果要好些。对于处理大数据集,这个算法较高效。 计算的时间复杂度为O(NKt),其中N是数据对象数目,t是迭代次数。一般来说,K≤N,t≤N。K均值算法的空间复杂度需求不高,只需要存放
6、数据点和质心。具体所需要的存储空间为O((m+k)n),其中m是对象数量,n是属性数。 K均值算法缺点主要有:①算法执行前需要人为设定簇的个数,但是簇的个数常常难以估计;②在K均值算法中每一次对数据点进行划分都是由上一次划分得到的簇中心决定的,所以K均值算法的最终结果是由最初选取的簇中心决定的。选择不适当的数据点作为初始的簇中心(比如彼此靠得很近的数据点),就可能导致最后结果偏差。因此初始值的选取成为K均值算法无法回避的问题。目前为止,还没有发现一个适应范围很广的初始值选取方法;③K均值算法需要在一次次迭代中不断修改簇中心,每次修改后都需要将所有点
7、重新划分。当数据量很大时,这样的操作十分消耗时间。所以,在面对海量数据计算时需要改进算法,以降低时间复杂度;④K均值算法的聚类划分特性,决定了它在处理非球状簇、不同尺寸、不同密度簇时,结果令人不满意,而且K均值算法受离群点和噪声的影响较大。 1.2改进的K均值算法5 本文首先对X光片进行预处理,然后从图片中获取数据,获得图像中每个点的灰度值,存储在灰度值矩阵G中。Gij表示图像中第i行、第j列点的灰度。对数据点进行聚类后,可以将处于同一个簇的点用同一种颜色在图片上标出,从而进行直观判断。 由于K均值算法的聚类结果受初始簇中心影响极大,簇中心选取
8、错误会导致很差的集成结果,所以k个初始簇中心选取至关重要。本文改进了传统K均值算法,流程如图3所示,主要步骤
此文档下载收益归作者所有