距离判别是基于欧氏距离或马氏距离,将样品判断为

距离判别是基于欧氏距离或马氏距离,将样品判断为

ID:21739311

大小:446.00 KB

页数:9页

时间:2018-10-24

距离判别是基于欧氏距离或马氏距离,将样品判断为_第1页
距离判别是基于欧氏距离或马氏距离,将样品判断为_第2页
距离判别是基于欧氏距离或马氏距离,将样品判断为_第3页
距离判别是基于欧氏距离或马氏距离,将样品判断为_第4页
距离判别是基于欧氏距离或马氏距离,将样品判断为_第5页
资源描述:

《距离判别是基于欧氏距离或马氏距离,将样品判断为》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于投影的组合判别方法梁飞豹*,陈婷婷(福州大学数学与计算机科学学院福建福州350108)摘要:由于数据的复杂性,一般的投影判别方法在应用上有一定的局限性,本文引入权重因子对不同投影方法进行组合,从而提出一种组合判别方法,以提高判别回代正确率与预测效果。通过实际例子和模拟数据验证了组合判别模型的判别效果良好,回代正确率相比于单一判别方法高,预测效果也优于单一判别方法。关键词:Fisher判别;内聚外散;回代正确率;权重;组合判别中图分类号:O212文献标识码:A判别问题分析是一种判断个体所属类别

2、的统计方法,在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,利用判别准则对新的观测对象的所属类别进行判断。判别分析方法多样,思路不尽相同,常见的判别法有距离判别分析法、最大后验概率准则、Fisher判别分析法和Bayes判别分析法等。由于数据类型的复杂性,距离判别并不能很好地体现数据所在总体潜在的几何特性。Fisher判别的决定因素是样本中心,隐含了数据是高斯分布的假设,当数据不是高斯分布时,经过任何的投影变换,都无法使其各类的类内差小组间差大,造成各类数据分

3、辨不清,判别效果不好。目前,并没有一种判别方法能够适用于所有的数据类型。我们知道在预测模型中,由于建模机制和出发点不同,通常同一问题有不同的预测方法,不同的预测方法提供不同的有用信息,其预测精度往往也是不同的。如果简单地将预测误差较大的一些方法舍弃,将会丢失一些有用的信息,那么,一种更为科学的做法就是将一些不同的预测方法进行适当的组合,从而形成了所谓的组合预测方法,这将有利于综合各种方法提供有用的信息,有利于提高预测的精度[1]。在判别中,我们可以考虑引入这种组合的思想,较大限度地综合利用各种判

4、别方法所提供的信息,尽可能地提高回代正确率。它比单个预测模型考虑问题更系统、更全面、更科学,能有效地减少单个判别模型判断过程中一些环境因素的影响。对于新的测试样本所属类别的判断,不同的判别方法有着不同的回代正确率和预测精度,本文尝试引入权重因子,将多种判别方法进行线性组合,构造一种组合判别方法,经过数据模拟,验证其广泛适应性,且对复杂数据判别问题有实际应用价值,理论和方法上也具有一定的创新性。收稿日期:2015-07-09录用日期:2015-11-28基金项目:国家自然科学基金资助项目(1130

5、1084),福建省自然科学基金资助项目(2014J01010)*通信作者:fbliang@163.com由于Fisher判别通过投影将多维的特征降到只有一维,又保证了类别能够“清晰”地反映在低维数据上。因此,本文考虑将基于投影变换的几种判别方法进行组合,既能保留投影判别的优良性,又能考虑到单个投影方向无法判别的数据经过多种判别得到较准确的结果。1基于投影的判别方法本文主要分析两个总体的情况,多总体的判别问题可以转换成双总体的判别分析。现考虑有个来自总体的维样本其中表示第个总体的样本数,。在介绍投

6、影方法之前,我们先定义几个必要的基本参量。总体的样本均值向量:;总样本均值向量:;样本组间离差阵:;样本总组内离差阵:;总体“相对于”总体的组间离差阵:;总体的组内离差阵:;总体的组内离差阵:。一、Fisher投影将维空间上的点经投影后变为一维实数上的点,并希望投影后的数据其组内差尽量小,组间差尽量大,即所求投影向量为:其中为的待定向量。易知是的最大的特征值所对应的特征向量。由此投影的判别准则是:对于给定的任一样品,比较投影后样品与总体经投影后重心(均值)的距离,即如果则判断样品。二、改进的Fi

7、sher投影同样作投影,将维投影到一维,但我们只希望投影后的数据,其组间差尽量大,而不考虑组内差(这主要是为了避免维空间上样本矩阵的组内离差阵奇异),即所求的投影向量为:,显然是的最大的特征值所对应的特征向量。由此投影的判别准则与Fisher投影的判别准则一致,即对于给定的任一样品,如果则判断样品。三、“内聚外散”投影[2]同样,将维投影到一维,我们希望投影后的数据,属于第一类的样本聚集在一块,而不属于第一类的样本远离第一类(即“内聚外散”投影),即所求的投影向量为:,显然为的最大的特征值所对应

8、的特征向量。这种投影的核心是事先要选好哪一类样本为指定的“第一类”,根据“内聚外散”的思想,“第一类”应该比较“集中”,所以一般以二个总体样本方差(取方差矩阵的行列式)大小来衡量它们的“集中”度,哪个方差行列式越小,就选择这一类为“第一类”。此时其判别准则为:以“第一类”投影后的重心点(即均值)为中心,确定一个区间(称为判别区间),对于任一给定的样品,如果,则判断样品,否则判断样品。我们为了能与Fisher投影有一致的判别准则,可以对“内聚外散”投影后的数据进行“折叠”处理,即以总体经投影后重心

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。