欢迎来到天天文库
浏览记录
ID:27436005
大小:51.00 KB
页数:4页
时间:2018-12-03
《质谱解析的模式识别算法分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、质谱解析的模式识别算法分析提要:该文针对质谱解析中常用的模式识别方法,分析比较了其常用算法:线性学习机、K最邻近法、人工神经网络判别法。中国8/vie 关键词:质谱解析;模式识别;算法 中图分类号:TP302文献标识码:A:1009-3044(2016)36-0181-03 在生活中,人们能够认出周围不同的人分辨他们说话的声音和方式,认出住的小区工作的单位,人们的这种能力就是“模式识别”。随着科技的发展,人们研究用计算机模拟人的模式识别能力,对不同类型形式的数据进行描述、分类、识别。 模式识别的计算过程大致概况成以下几部分:首先从训练样本获得原始数据,对
2、各元素进行综合分析,获得最能反映样本属性的观测量,从众多的特征中找到合适有效的特征量,然后进行特征提取,构成模式空间或特征空间。数据需要预先进行处理,处理后,即可通过模式识别算法进行训练和分类,然后根据训练分类所得的判据对未知样本进行判别(或称计算机预报)。过程如图1所示。 1线性学习机(linearlearningmachine) 1.1原理 此方法亦称为纠错反馈法。最早由Ko中,判别函数先将样本分为两类,使属于一类的样本处于平面的一侧,而属于另一类的样本处于另一侧。判别函数可以通过训练样本求得,并在通过校验集的验证后用于预测待测样本的归属。 1.2算
3、法步骤 线性学习机是一种有监督的学习类型的简单线性判别函数的迭代算法,可通过以下步骤来实现: 设在训练集中有两类样本,记为[ω1]和[ω2], 1)随机选取一个与样本矢量具有相同维数的矢量作为方法的缺点之一是没有唯一解,当训练对象的表示次序发生改变时会出现不同的答案。并且只有当样本线性可分时,LLM才能很好的工作。LLM的另一缺点是判别面简单、异常点容易错误分类以及收敛缓慢的不足。另外,LLM只适用于区分两个类别的情况。 2K最邻近法(K-nearestneighbors,K-NN) 2.1原理 K最邻近法在化学上应用极为广泛,它是直接以模式识别的基
4、本假设即同类样本在模式空间相互靠近为依据的分类方法。它计算在最近邻域中k个已知样本到未知的待判别样本的距离,即使所研究的体系线性不可分,此方法仍可适用。 KNN法对每一个待分类的未知样本都要计算它到全体已知样本之间的距离,得到它的k个最近邻点进行判决。若k=1,未知样本属于这一个最近邻样本。若k>1,则未知样本与这k个最近邻样本不一定属于一类。这时要采用权值的方法,对这k个近邻的情况按少数服从多数进行表决。一个近邻相当于一票,但考虑k个邻近与未知样本的距离有所判别,所以对各票进行加权,距离最近的近邻的类属,应予以较重的权。 [V=i=1kviDi]或[V=i
5、=1kviD2i] 式中,[vi]为近邻的类属取值。对两类分类,i属于第一类时取“+1”,属于第二类时取“-1”。Di为未知样本与第i个近邻的距离,k�樽罱�邻数。当V>0时,则未知样本归入为类1;否则归于类2。 这种方法因采用获多数“票”的方法确定未知样本的归属,所以k一般采用奇数。k值不同时,未知样本的分类结果可能不同。 2.2算法步骤 1)取一个未知样本,记为[xunknown],计算该样本到训练集各样本的距离[Di](i=1,2,…,n),在此n为所有训练集样本的总数。 2)取出k个距离最短的训练集样本,计算它们的权值和 [Vunknown=
6、ViDi](i=1,2,…,k) 如果[xi∈ω1],则取[Vi=1];反之,如果[xi∈ω2],[Vi=-1];[Di]是待判别的一本与近邻的距离。 3)建立判别标准,即当[Vunknown>0],则[xunknown]判别为第一类[ω1];反之,[Vunknown<0],则[xunknown]判为第二类[ω2]。 2.3缺点 不幸的是,这种分类方式依赖于每一类中的对象个数。当类与类有重叠时,未知对象将被分配给对象个数较多的类。在没有唯一标准而允许近邻数可变的条件下,这种情况有时也可以得到解决。
此文档下载收益归作者所有