欢迎来到天天文库
浏览记录
ID:32081243
大小:1.93 MB
页数:61页
时间:2019-01-31
《一般分布区间型符号数据的聚类分析方法分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第一章绪论1.1研究意义1.1.1符号数据分析研究意义在现代社会中,信息化技术随着互联网技术的广泛传播快速发展,与之相对应的,数据信息的获得、收集和整理也都较之前更为便捷,数据的丰富带来了对高效的数据分析方法的需求。然而,传统的数据分析技术在处理数据结构过于冗杂的数据集合时有两大局限性:其一,由于样本点和变量维数的影响,往往使得计算工作量相当大,如传统的聚类分析技术需要计算任意两个样本点之间的距离,当它面对庞大的样本空间时,计算复杂度呈几何倍数增长j其二,传统的数据分析技术面对庞大数据量时,难以把握数据属性的内在关系,无法获得隐含在数据中的重要知识资源,如传统的聚类分析技术把焦点集中于庞大
2、数据量的每一个数据点,焦点分散导致无法把握数据整体的特性并且进行进一步探讨。针对这一类问题,在20世纪80年代后期的欧洲,人们提出了一种全新的数据分析思路——符号数据分析(SymbolicDataAnalysis,简称SDA)。符号数据分析的基本概念是由法国Paris.IXDauphine大学DidayE教授于1988年在国际分类协会联合会(IFCS)的第一次大会上首次提出的。符号数据分析技术运用“数据打包”的思想,实现对庞大的样本空间的降维处理,并且改变了以往样本空间的降维由于损失信息而难以解释其实际含义的状况[¨。‘该方法首先按照分析问题的需要对样本进行分类(不同于统计分析中的聚类分析
3、,此处只是按样本属性对其进行“预处理”式的简单分类,例如,将股票市场按行业板块进行划分、按以周为单位的时间进行划分),即所谓“数据打包”,形成了符号对象(SymbolicObjects)。对于包含综合信息的时序和截面混合数据,SDA可通过从时间维或空间维进行数据压缩,形成平面数据,见图1.1。第一章绪论栅维丁。时序数据’变量维截面数据图1-1立体数据的压缩缩空间维相应的,样本数据的性质就发生了变化:由原来的“点数据”变为“符号数据”。以评价股票的市场综合表现为例,时间维表示不同的时间,空间维代表不同的股票,而变量维则表示评价指标。在时间维上对某一时间段(如季度、年等)上的样本数据进行压缩,
4、可研究样本股票在该时间段上的综合表现;在空间维上对样本数据进行压缩,可研究全部股票随时间变化的动态表现。这种压缩还可对某一截面或时序数据实施半压缩,如图1.2所示。变量维图1=2截面数据的半压缩与传统统计分析技术相比,使用符号数据分析方法具有以下优点:第一,可以处理多属性、大样本的复杂数据;第二,符号数据分析方法通过数据打包,可以从全局上把握数据对象的内在结构特征,更有利于揭示隐含在数据内部的规律。总体而言,符号数据的多元分析方法是一种从整体上把握研究对象关系,挖掘深层次规律的方法,其应用范围广,是传统多元统计方法在空间和时间上的扩展和延伸【21。第一章绪论1.1.2聚类分析概述人们认识世
5、界的一种重要方法是将世界上的东西进行分类,从中发现规律性,进而改造世界。正因为这样,分类的方法早己被人们所利用,分类学己成为人类认识世界的一门基础学科。例如,在生物学中,为了研究生物的演变,需要对生物进行分类。生物学家根据各种生物的特征将它们归属于不同的界、门、纲、目、科、属、种之中;在地质学中,为了研究矿物勘探,需要对矿石进行分类,根据各种矿石的化学物理性质和所含化学成分把它们归于不同的岩石类。但历史上的这些分类方法多半是凭借经验和本学科的专业知识来进行的,很少利用数学,也可以说是按定性来分类的,很少利用他们的数据特征用定量的方法。由于事物的复杂性,单凭经验来分类是远远不够的,利用数学方
6、法进行更科学的分类成为必然趋势,在生物分类学中已经形成的数值分类学就是一例。尤其是由于近代科学的发展,电子计算机的普及,利用数学方法研究分类不仅非常必要而且完全可能,因此近些年来,聚类分析作为多元分析的一个重要分支,发展也非常的迅速。【3】聚类分析一般是针对样本进行聚类,就是对样本单位的观测量进行聚类,是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。如某班有n个学生,根据每个学生的期末各科考试成绩将该班学生分类(如分为优、良、中、差四类等)。聚类分析的基本思想是根据对象间的相关程度进行类的聚合。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。传
7、统的聚类分析方法包括系统聚类分析方法、k均值聚类分析方法等,主要针对“点数据”进行样本聚类,当传统的“点数据”通过“数据打包”变为“符号数据”之后,传统的聚类分析方法无法奏效,必定要寻找新的聚类分析方法。因此,对传统的聚类分析方法进行拓展研究,使其能够处理符号数据,已经变得非常的必要。1.2符号数据分析概述1.2.1符号数据的类型符号数据可能是定量数据,也可能是定性数据。由于变量属性或数值类型不同,符号数据有多种表示形式
此文档下载收益归作者所有