资源描述:
《数学地质 王建伟.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、聚类分析1.概念聚类分析又称群分析、点群分析或族分析等。ClusterAnalysis,指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。在数学地质中,聚类分析指研究样品和变量分类的一种统计方法。研究样品称为型聚类分析,研究变量称型聚类分析。2.原理聚类分析主要方式是点的
2、聚合不同数据点的联系。首先定义样本间和类与类之间的距离,将最短距离的两类合并,再重新计算合并后的类与原来的其它类之间距离,且按最小距离归类,重复此过程,每次减少一类,直到所有的样本归成一类为止。过程通常利用图表表示,依次切断图中最高连线,得到若干个类,直到获得满意的类数为止。聚类分析的基本思想:首先假定所研究的对象存在着不同的相似性,制定客观合理的分析指标,以此为依据,把一些相似程度大的样品聚为一类,即关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品都聚合完毕,形成一个由小到大的分类系统,最后把分类系统直观地用图
3、形表示出来,形成分类图。3.研究方法 R型聚类分析:根据变量在各样品上的观测值对变量进行分类。 Q型聚类分析:根据样品在各变量上的取值对样品进行分类。根据样品或变量的相似程度,把相似的归为一类,不相似的归为另一类,关系密切的归入一个小类,关系不太密切的归入一个大类。直到把所有的样品或变量归类完毕,形成一个由小到大的分类系统,最后得出一个树枝状分类谱系图。4.应用(1)样品的分类:如矿物、岩石、地层、古生物、岩相、构造、含油气盆地等。(2)变量的分类:如指标的共生组合关系,区别有矿异常和无矿异常,评价矿床。5.步骤(1)原始数据的预处理,使各变量统一
4、量纲。变量的均值为0,方差为1。相关系数值不变(2)相似系数 考虑对样品分类,每个样品可看成M维变量空间的向量,两样品向量的夹角余弦通常用相似系数做Q型聚类分析,的值越接近1,说明两样品的相似程度越高,将两样品的相似系数算出来,就可以得到样品的相似系数矩阵。(3)距离系数:如果把n个样品看成p维空间中的n个样品点,则样品间的亲疏程度可用它们的相互距离来衡量。两样品间的欧式距离为:有时为使所求距离在某一确定范围变化,常采取一常数m,采用下列公式求欧式距离:;其中dij的值越小,表示两样品点的相似程度越大,把任意两点距离算出之后,就可以得到距离系数矩阵
5、它是一个n阶对称矩阵。6.谱系图的建立性矩阵中,包含研究对象是否相似的信息,构成了分类的基础,但不直观。谱系图:在相似性矩阵的基础上,作直观反应分类结果的二维图。 1、一次计算成图法 2、逐次计算成图法形成原则(1)若选出一对样品在已经分好的组中都未出现过,则把它们形成一个独立的新组。(2)若选出的一对样品中,有一个出现在已经分好的组里,则把另一个样品也加入到该组中去。(3)若选出两个样品,它们分别出现在已经分好的两个组中,则把这两个组联在一起。(4)若选出的一对样品都出现在同一组中,则这对样品就不再分组了。根据以上原则对所有数据进行处理,直到全部
6、分类。7.实例应用从科尔沁油田马家铺地区九佛堂组取储层岩样6个,每个样品测取i,标号1、2、3、4、5、6。四项参数:排驱压力(Pd)最大孔喉半径(Rd)中值孔喉半径(Rc)和主孔喉半径(R主)的原始数据R。首先看是否需要进行数据变换,由于原始数据中各指标量无多大差别,故不必进行数据变换。然后选定适当的相似统计量,本例用样品间的距离系数作为相似性统计量,由式(2)算得相似系数矩阵D=[dij]6×6如下:矩阵D中找出dIj的最小值,将i与j聚为一类,如果i>j则划去第i行和第i列;如果i7、,直到最后。根据(表2)作出6个样品的谱系图(见图2):根据实际需要,选择距离系数dij=1为分类界限,将样品分为3类(见表3)由谱系图可直观,得到表3可看出,4号样品为排驱压力低,孔喉半径大,物性好的Ⅰ类油藏;1、2号样品次之,为物性中等的Ⅱ类油藏;3、5和6号样品为排驱压力高,细孔喉,物性较差的Ⅲ类油藏。8.个人理解聚类分析的目的是用数学方法对给定的样品找出一个合理的分类体系,对于给定的数据进行类型,含量指标的进行归类合并,使同一类元素之间的相似类比性比与其他元素的更强,进而对地区矿产可能存在的地区进行标定,减少后期打钻取样的花费。聚类分析的不
8、足在于当样本数目过大时,处理的工作量将十分庞大。另外,当设定一类或几类联系时不能保证结果关系的绝对性,有时得到的数据距离间