欢迎来到天天文库
浏览记录
ID:24734019
大小:49.50 KB
页数:5页
时间:2018-11-09
《基于增量svm的可继续学习微钙化点检测算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于增量SVM的可继续学习微钙化点检测算法摘要针对乳腺癌的计算机辅助诊断中存在的新样本不断出现的问题,提出基于增量SVM(supportvectormachine)的微钙化点检测算法,对于出现的新样本,首先用KKT条件判断其是否能被当前的分类器正确分类,若新样本能被正确地分类,说明新样本不是支持向量,无需训练新的分类超平面,若新样本不能被正确地分类,则将新的样本与原分类器的支持向量集一起构成新的训练样本集,重新构造支持向量集,适时地调整最优分类面,更新分类器。该方法避免了传统的利用所有样本重新形成分类器的复杂
2、运算。实验结果表明,该算法有效地实现了医学图像计算机辅助诊断的在线优化升级。关键词支持向量机;增量学习;微钙化点检测;在线检测1引言目前的乳腺癌计算机辅助诊断算法中,基于支持向量机SVM的微钙化点检测算法因为取得了较高的检出率、更低的假阳性并且形成的分类器具有更好的泛化能力[1~3],而受到了广泛的重视。人们相继提出了各种改进方法来进一步提高微钙化点检测的检出率,降低检测结果中的假阳性,以及提高检测效率。但是在诊断的过程中,由于乳腺癌病例样本个体差异性比较大,会不断出现新的病例样本,传统的方法在处理这类问题时
3、,抛弃了历史的训练结果,对新样本集进行重复训练,这种方法由于样本数较多,求解二次优化使得训练算法很复杂、耗时长,影响了乳腺癌计算机辅助诊断算法的在线更新。Syed[4]最早提出了基于支持向量机的增量学习算法。增量学习的主要任务就是利用历史训练结果尽量避免样本的重复训练,得到比较准确的分类结果,并且训练规模不太大,得到了广泛的应用[5-7]。针对乳腺癌的计算机辅助诊断中存在的新样本不断出现这一问题,本文首次提出将增量学习的思想引入微钙化点检测中,来实现对分类器的更新,以达到在线更新优化分类器的目的,缩短了软件优
4、化的时间。2支持向量机SVM是基于统计学习理论的机器学习技术。在人脸识别、语音识别、手写数字识别和文本检测等问题中已经得到了广泛的应用,并且算法精度超过了传统的神经网络算法。在线性可分情况下,SVM算法从最优分类面发展而来。下面分别对线性和非线性的情况分别进行讨论。设训练样本为(xi,yi),i=1,…,n,x∈Rd,y∈{-1,+1}为类别标记,求解下面的二次规划问题:(1)(2)得到最优分类面为超平面(3)利用Lagrange优化方法将上述问题转化为其对偶问题进行求解。依据优化理论的Kuhn-Tucker
5、定理求解,得到最优分类函数为(4)在线性不可分的情况下,在条件(2)中增加一个松驰项。即折衷考虑最少错分样本和最大分类间隔,原问题转化为:(5)(6)其中C>0是一个预先设定的常数,用来控制错分样本的惩罚程度。该问题的求解与线性可分情形下完全相同,只是需要条件(7)解决非线性可分的样本的分类问题正是SVM算法的一个优势。利用核函数引入隐非线性变换,将输入映射到高维特征空间,从而转化为线性可分问题。此时响应的分类函数变为(8)这就是SVM。3增量SVM算法当出现新的样本时,要形成新的分类器,最直接的方法就
6、是对它们中的所有样本进行学习,这种方法是支持向量机的经典学习方法,该方法会增加运算时间和存储空间。经典的学习方法忽视了支持向量机的一个重要性质,支持向量机训练所得的决策函数仅与支持向量有关,即支持向量机在全体样本上训练和在支持向量集上训练得到的决策函数相同,历史训练的结果在经典的支持向量机学习方法完全不起作用。支持向量虽然在样本集中占很小的一部分但却完全反映了最优分类器的特征,在原样本集中支持向量集完全代表了历史样本的学习能力和泛化能力,它们在增量学习后成为支持向量的概率是相当大的,在增量样本集中错分向量对分
7、量结果的影响最大,这些样本很可能成为支持向量,还有与最优分类器临近的,即使被正确分类的样本也有可能成为支持向量,这些向量处于间隔平面和最优超平面之间,它们主要影响支持向量机的泛化能力,当然,其它的样本也可能成为支持向量,但概率要比上述向量小得多。可继续学习的微钙化点检测算法步骤。(1)由原训练样本集训练得到分类器;(2)对新样本计算其是否满足KKT条件,(9)若新样本满足KKT条件,则说明新样本能够被正确分类,则新样本不是支持向量;若新样本不满足KKT条件,则说明该样本有可能是支持向量;(3)将不满足KKT条
8、件的新样本与原分类器的支持向量一起构成新的训练样本集,重新训练得到新的分类函数。从而获得分类器的更新。4基于增量SVM的可继续学习微钙化点检测算法及实验结果可继续学习微钙化点检测算法原理如图1所示。图1可继续学习微钙化点检测算法原理框图为了验证提出的算法,本文取360(+1类和-1类样本各180)例样本作为原有样本,另取10例作为新样本,取另外30例作为测试样本集,并同传统的将新样本加进原训练样本集
此文档下载收益归作者所有