欢迎来到天天文库
浏览记录
ID:68947683
大小:217.00 KB
页数:12页
时间:2022-01-02
《K-均值聚类法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、--基于K均值聚类的图像二值化[摘要]在机器视觉和模式识别的研究中,将图像变换为二值图像是能够更高效识别图像中的特定区域或者目标的关键。提出了一种基于k均值聚类算法的图像二值化方法。该方法使用基于距离的聚类算法,根据图像二值化的领域知识,图像二值化就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果。实验结果证明,针对复杂环境下的自然图像,该方法在效果和效率上非常好。[关键词]二值图像;k均值聚类算法;图像二值化-.word.zl---一、引言为了改善图像分割的效果,将数据挖掘中的聚类方法引入到图像分割领域〔二值
2、化处理领域〕。将k-means方法用于图像分割,首先随机选择k个阈值点,然后将图像分割成k个局部,计算出每一局部的灰度均值代替先前的k个阈值点。重复此过程,直到算法稳定为止。针对高分辨率的彩色图像,利用谱聚类算法改善了图像分割的效果。利用灰度直方图和谱聚类算法将图像转化为二值图像。最近10年来,各种机器学习算法也不断地被研究者应用到各个领域。利用聚类算法提取图像中的文本。分别阐述了k-medoids算法的理论及其改良方法。基于前人的研究方法和研究成果,将k均值聚类算法应用到图像的二值化处理过程中能够得到效果较好的二值图像。二、K均值聚类(一)
3、简介K-means算法是硬聚类算法,是典型的基于原型的目标函数-.word.zl---聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规那么。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准那么函数作为聚类准那么函数。K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。k个
4、初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。(一)算法过程1.从N个文档随机选取K个文档作为质心2.对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类3.重新计算已经得到的各个类的质心4.迭代2~3步直至新的质心与原质心相等或小
5、于指定阈值,算法完毕具体如下:输入:k,data[n];-.word.zl---1)选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];2)对于data[0]….data[n],分别与c[0]…c[k-1]比拟,假定与c[i]差值最少,就标记为i;3)对于所有标记为i点,重新计算c[i]={所有标记为i的data[j]之和}/标记为i的个数;4)重复(2)(3),直到所有c[i]值的变化小于给定阈值。(一)工作原理K-MEANS算法的工作原理及流程K-MEANS算法输入:聚类个数k,以及包含n个数据对象的数据
6、库。输出:满足方差最小标准的k个聚类。(二)处理流程从n个数据对象任意选择k个对象作为初始聚类中心;根据每个聚类对象的均值〔中心对象〕,计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进展划分;重新计算每个〔有变化〕聚类的均值〔中心对象〕循环〔2〕到〔3〕直到每个聚类不再发生变化为止-.word.zl---k-means算法承受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象〞〔引力中心〕来进展计算
7、的。说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,那么根据它们与这些聚类中心的相似度〔距离〕,分别将它们分配给与其最相似的〔聚类中心所代表的〕聚类;然后再计算每个所获新聚类的聚类中心〔该聚类中所有对象的均值〕;不断重复这一过程直到标准测度函数开场收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。(一)算法优点1.算法快速、简单;2.对大数据集有较高的效率并且是可伸缩性的;3.时间复杂度近于线性,而且适合挖掘大规模数据集。K-Means聚类算
8、法的时间复杂度是O(nkt),其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数一、图像二值化图像二值化就是将图像上的像素点的灰度值设置为0或25
此文档下载收益归作者所有