资源描述:
《基于粒子群算法的最小二乘支持向量机new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
第40卷分析化学(FENXIHUAXUE)研究报告第6期2012年6月ChineseJournalofAnalyticalChemistry925~931DOI:10.3724/SP.J.1096.2012.10898基于粒子群算法的最小二乘支持向量机在红花提取液近红外定量分析中的应用*金叶杨凯吴永江刘雪松陈勇(浙江大学药学院,杭州310058)摘要提出一种基于粒子群算法的最小二乘支持向量机(PSO-LS-SVM)方法,用于建立红花提取过程关键质控指标的定量分析模型。近红外光谱数据经波段选择、预处理和主成分分析(降维)后,利用粒子群优化(PSO)算法对最小二乘支持向量机算法中的参数进行优化,然后使用最优参数建立固含量和羟基红花黄色素A(HSYA)浓度的定量校正模型。将校正结果与偏最小二乘法回归(PLSR)和BP神经网络(BP-ANN)比较,并将所建的3个模型用于红花提取过程未知样本的预测。结果表明,BP-ANN校正结果优于PSO-LS-SVM和PLSR,但是对验证集和未知样品集的预测能力较差,而PSO-LS-SVM和PLSR模型的校正、验证结果相近,相关系数均大于0.987,RMSEC和RMSEP值相近且小于0.074,RPD值均大于6.26,RSEP均小于5.70%。对于未知样品集,PSO-LS-SVM模型的RPD值大于8.06,RMSEP和RSEP值分别小于0.07%和5.84%,较BP-ANN和PLSR模型更低。本研究所建立的PSO-LS-SVM模型表现出较好的模型稳定性和预测精度,具有一定的实践意义和应用价值,可推广用于红花提取过程的近红外光谱定量分析。关键词近红外光谱;粒子群优化;最小二乘支持向量机;红花提取液1引言红花注射液主要成分为红花提取物,具有抗凝、防栓、扩张血管和有效防治心脑血管疾病的作用。[1]羟基红花黄色素A(HydroxysaffloryellowA,HSYA)是红花的主要活性成分,药理实验证明:HSYA能[2,3]明显提高缺氧耐受力,使冠脉扩张,增加冠脉流量,并有明显抑制血小板聚集作用。提取工艺是红花注射液生产过程的起点,直接关系到红花药材的利用率。目前,提取工艺的质量控制主要依靠经验和传统质量分析方法(HPLC等),耗时繁琐。故开发红花提取过程中关键质控指标的快速测定方法,有助于解决红花提取过程中关键的质量控制问题,对于中药工业技术进步和产品质量升级具有重要的意义。近红外(Nearinfrared,NIR)光谱技术作为一种快速无损的绿色分析技术,具有分析快速、样品处理简单、无需消耗试剂等特点。近年来,近红外光谱技术已经越来越多的被应用于中药研究,包括药材产[4~7]地鉴别、有效组分含量测定和制药过程的在线检测和监控。使用近红外进行定量分析时必须建立定量校正模型。目前比较常用的近红外定量分析建模方法有偏最小二乘回归法(Partialleastsquareregression,PLSR)、人工神经网络法(ANN)和支持向量机法(SVM)等。SVM是建立在统计学习理论[8,9](Statisticallearningtheory,SLT)基础上的一种机器学习算法,已在NIR光谱分析中得到广泛应用。最小二乘支持向量机(LS-SVM)是经典SVM的一种改进,以等式约束代替标准SVM算法中的不等式约束,并将误差平方和损失函数作为训练集的经验损失,将求解二次规划问题转化为求解线性方程组问[10]题,提高了求解的速度和收敛精度。针对LS-SVM的参数选取会对结果产生较大影响,参数的选取具有一定的“盲目性”的问题,采用试凑法或遍历优化进行参数选择费时而未必能找到全局最优解,提出[11~13]了利用粒子群优化(PSO)算法优化其模型参数的方法。本研究基于粒子群算法的最小二乘支持向量机(PSO-LS-SVM),建立了红花提取过程中质控指标———固含量和HSYA浓度的定量分析模型,并将预测结果与近红外光谱分析常用的PLSR和ANN模型进行比较,实现红花提取过程未知样品中固含量和HSYA浓度的快速检测。2011-08-16收稿;2011-12-09接受本文系浙江省重大科技计划项目(No.2008C03005)和国家“十一五”科技支撑计划项目(No.2006BAI06A08)资助*E-mail:chenyong1@zju.edu.cn 926分析化学第40卷2建模方法与原理LS-SVM是一种新型支持向量机,为标准SVM的一种扩展。LS-SVM能够进行线性和非线性的多[14~16]元建模,降低计算的复杂程度,加快求解速度,已在NIR光谱分析中得到广泛的应用。LS-SVM的算法原理及具体建模过程参见文献[10,17,18]。由于径向基核函数(Radialbasisfunction,RBF)作为非线性函数能够减少训练过程中计算的复杂性,本研究选择RBF核函数进行LS-SVM计算。影响LS-SVM模型性能的因素通常有两个,即核函数参数σ(核宽度)和正则化参数C的取值。正则化参数C控制对样本超出计算误差的惩罚程度,而σ则控制函数回归误差,并且直接影响初始的特征值和特征向量。[19]σ过小会导致过拟合,相反;σ过大则模型过于简单,从而影响预测精度。因此,为了提高LS-SVM的学习和泛化能力,需要对核函数参数σ和正则化参数C进行优化。[12]粒子群优化(PSO)算法,最早是Kennedy等于1995年提出的全局随机优化技术,其基本概念源于对鸟群捕食行为的研究。PSO具有不易陷入局部极小、易实现和调整参数较少的优点,从而用于求解非线性、不可微和多模态问题等。PSO中,每个优化问题的潜在解称之为“粒子”。每个粒子都有自己的位置和速度(决定它的飞行方向和距离)以及一个由被优化的函数决定的适应值。PSO初始化为一群随机粒子(随机解),在每一次迭代中,粒子通过跟踪两个极值更新自己。第一个就是粒子本身所找到的最优解,这个解称为个体极值(pbest)。另一个极值是整个种群目前找到的最优解,这个极值是全局极值(gbest)。本研究中,设定粒子群中包含l个粒子,粒子i(i∈{1,2,…,l})的信息可以用D维向量(即算法所优化的参数个数)表示,空间位置为xii1,…,xi,…,xi),速度为v(vi,…,vi,…,=(xdDi=1di),在求得pbest和gbest这两个最优解后,粒子根据式(1)和式(2)来更新自己的速度和位置。vDi(t+1)=(ωvi)(t)+c(t)(pi(t)-xi(t))+c(t)(gi(t)-xi(t))(1)vdd1r1bestd2r2bestdi(t+1)=xi(t)+vi(t+1)(2)xddd其中,vi(t)表示t时刻粒子i在d维空间的速度,xi(t)表示t时刻粒子i在d维的空间位置。pi(t)ddbest,d为单个粒子i在所优化的第d个参数中的历史最优解,gi(t)是所有粒子在所优化的第d个参数中的best,d历史最优解。c1和c2为加速因子,通常取值范围为(0,2)。r1和r2为两个(0,1)之间变化的相对独立的随机函数。ω为权重因子,其值非负,值的大小影响整体寻优能力。在每一次迭代过程中,每个粒子都需要根据目标函数计算其适应值,然后根据适应值确定当前粒子最优位置pi(t)及群体最优位置gi(t),再通过式(1)和式(2)调整各个粒子的速度及位置。其结束best,dbest,d条件为迭代次数达到设定值或者群体迄今为止搜索到的最优位置满足预设最小适应值。本研究中设定最大迭代次数为100代,预设适应值=0。在实验中通过LS-SVM建立定量分析模型,利用粒子群算法[20]对LS-SVM的参数寻优,并以均方误差(Meansquarederror,MSE)作为目标函数。3实验部分3.1仪器与试剂Agilent1200-DAD高效液相色谱仪;Antaris傅立叶变换近红外光谱仪(ThermoNicolet,USA),配有透射检测器、采样系统以及Result、TQAnalyst等数据处理软件。红花药材(山西亚宝药业股份有限公司提供);羟基红花黄色素A标准品(成都曼斯特生物科技有限公司);甲醇、乙腈(色谱纯,Merck公司);H3PO4(分析纯);Millipore超纯水。3.2近红外光谱采集称取红花药材200g于三颈烧瓶内,加入15倍量(3000mL)水,煎煮1h。煎煮前30min每隔2.5min收集一次提取液8mL,并补8mL水。后30min,每隔5min收集一次提取液8mL,并补8mL水。不同批次红花药材的提取实验重复7次,共获得126个样品。建完模型后重复一次提取实验,将采集到的数据(样品数量为18)作为未知样品集,用于模型适用性的研究。-1近红外仪器有关参数设置:吸光度数据格式为Absorbance,扫描次数为32,分辨率为4cm,光纤透-1射式探头光程2mm,以空气为参比。扫描光谱范围为4500~12000cm。 第6期金叶等:基于粒子群算法的最小二乘支持向量机在红花提取液近红外定量分析中的应用927[21]3.3HPLC定量测定红花提取液以1500r/min高速离心10min,取上清液,用于分析HSYA浓度。色谱条件:AgilenteclipseC18分析柱(250mm×4.6mm,5mm);甲醇-乙腈-0.7%H3PO4溶液(26∶2∶72,V/V)为流动相;流速1mL/min;检测波长403nm;柱温40℃;进样量5mL。标准曲线绘制:精密称取HSYA对照品5.8mg,采用流动相溶解并定容至10mL,梯度稀释后,分别进样分析。以浓度为横坐标,峰面积为纵坐标,绘制标准曲线。3.4固含量测定称定烘干至恒重的扁形瓶(两次烘干后重量X0的差值小于5mg),量取4mL提取液至扁形瓶,称重(X1),水浴蒸干,105℃烘5h,取出置干燥器内冷却30min,迅速称重(X2)。按式(3)求得固含量(Y)。Y=100%×(X2-X1)/(X1-X0)(3)3.5数据处理方法与模型性能评价指标选择合适的波段,在适宜的光谱预处理基础上,采用偏最小二乘回归,BP神经网络(BP-ANN)和基于粒子群算法的最小二乘支持向量机(PSO-LS-SVM)建立近红外数据与固含量和HSYA浓度这两个质控指标之间的定量校正模型。以相关系数(R)、校正集均方差(Rootmeansquareerrorincalibration,RMSEC)、预测均方差(Rootmeansquareerrorinprediction,RMSEP)、相对偏差(Relativestandarderrorsofprediction,RSEP)为指标优化建模参数,考察模型性能。RMSEC,RMSEP,RSEP和R的计算方法见文献[22,23]。此外,使用相对分析误差(Residualpredictivedeviation,RPD)对模型进行深入评价。当RPD[24]值大于3时认为模型具有较好的预测能力,可以进行指标的定量控制。4结果与讨论4.1质控指标测定结果建模样品中固含量和HSYA浓度的测定结果见图1。提取过程中固含量和HSYA浓度均随着提取进程而不断增加,并在一定时间后趋于稳定。但是,在到达提取时间终点后,不同批次提取液中的固含量和HSYA浓度均存在一定的差异,主要原因在于不同批次间药材质量存在差异。图1不同批次样品提取过程中固含量(A)和HSYA浓度(B)的变化曲线Fig.1Timeevolutionoftotalsolidcontent(A)andhydroxysaffloryellowA(HSYA)concentration(B)fordifferentbatchsamples4.2光谱分析红花提取过程中采集的原始近红外光谱见图2。由于红花采用水提法,水含有OH基,极性很强,在-1-1近红外谱区的1440nm(6944cm)和1940nm(5155cm)附近有很强的合频与倍频吸收谱带,形成两大[25]-1-1“水峰”,即4500~5400cm和6500~7500cm光谱区间。在这两个波段内,其它各种物质分子的倍频与合频吸收相对较弱,因此对水溶液物质体系进行近红外吸收光谱分析时,应尽可能减少来自溶剂吸收的干扰。此外,吸收度大于1.5的波长区域属于饱和吸收,建模时不宜采用该区域内的信息,因此可-1-1用的波段为5400~6500cm和7500~12000cm。 928分析化学第40卷为了提高模型的预测准确性,在对近红外光谱进行分析之前,一般要对光谱数据进行预处理。本研[26]究采用导数法对光谱进行预处理。将近红外光谱进行一阶导数处理能有效消除基线偏移,减少峰与峰之间的重叠,获取更多的有效信息,但与此同时导数的计算会引进噪音,降低信噪比,而平滑可以降低高频随机噪声。因此,本研究将一阶导数法和Norris平滑滤波结合使用对光谱数据进行预处理。由于-1-17500~12000cm区间的光谱存在较大的噪声,且无显著的特征吸收。因此,选择5400~6500cm波段用于固含量和HSYA浓度定量模型的建立。为了保证光谱选择区域的准确性,对光谱和质控指标的相关系数进行了考察。以HSYA为例(图3)相关系数大于0.6的光谱主要集中在所选择的光谱区域内。此外,对于固含量指标也有类似的相关结果。建立定量校正模型时,为减少计算量提高运算效率,采用主成分分析技术对光谱数据进行降维处理。当固含量和HSYA模型的主成分数分别为4和8时,其累计总贡献率分别达到99.57%和99.75%,能够较好的反映原有光谱信息。因此,对于固含量和HSYA模型,分别选择贡献率较大的前4和8个主成分数作为新变量输入模型。图2红花提取液的原始近红外光谱图3近红外光谱和HSYA浓度的线性关系图Fig.2RawspectraofextractionsolutionofsafflowerFig.3CorrelogramofNIRspectraandHSYAconcentra-tions4.3定量模型的建立-1在5400~6500cm波段范围内,采用一阶导数和Norris平滑滤波预处理方法,将随机抽取的6批提取实验的数据用于建立PSO-LS-SVM,BP-ANN和PLSR模型。构建两层结构的BP网络,对于固含量和HSYA模型,输入层的神经元个数分别为4和8个,即选定的主成分数(新变量)。输出层神经元个数为1,即固含量(HSYA浓度)。隐含层的神经元个数经过网络测试,分别确定为20和15个。输入层到隐含层的传递函数为正切S形传递函数(TANSIG),隐含层到输出层的传递函数为线性传递函数(PURELIN)。为加快网络训练,本研究采用Levenberg-Marquardt规则训练网络,学习速率取为0.05,训练目标为0.001,网络分别经过36和6次训练达到预定目标。对于PSO-LS-SVM模型,初始化粒子数设置为100,PSO最大循环迭代数为100。本研究选择RBF作为核函数,它只有一个待定参数σ。因此,对于采用径向基核的最小二乘支持向量机,PSO需要优化的参数是正则化参数C和核函数宽度σ(D=2),这两个参数在很大程度上决定了最小二乘支持向量机的学习和泛化能力。其它参数设置:c1=c2=2,ω=0.5。利用粒子群算法搜索到的最优的LS-SVM参数:C=2636861.4,σ=348.7(固含量模型);C=7127948.6,σ=118.2(HSYA浓度模型)。根据以上参数优化结果,分别建立固含量和HSYA浓度的PSO-LS-SVM,PLSR和BP-ANN定量校正模型。优化后各模型的校正和验证结果比较(见表1),PLSR和PSO-LS-SVM模型的校正集和验证集相关系数均大于0.987,RMSEC和RMSEP值相近且小于0.074,RPD值均大于6.26,RSEP值均小于5.7%。虽然BP-ANN校正结果优于PLSR和PSO-LS-SVM,但是对验证集的预测效果较差,特别是固含量模型,RMSEP值远大于2倍RMSEC值,且RPD小于3,RSEP值超过10%,HSYA模型也有类似现象。与BP-ANN模型相比,PLSR和PSO-LS-SVM模型的校正和验证 第6期金叶等:基于粒子群算法的最小二乘支持向量机在红花提取液近红外定量分析中的应用929结果相近,均有较好的预测能力和模型稳定性。研究表明,采用近红外光谱技术快速测定红花提取液中固含量和HSYA浓度时,使用PLSR和PSO-LS-SVM算法建立的模型性能优于经典的BP-ANN算法,这两种算法的预测精度高,泛化能力强,不容易出现过拟合倾向。表1优化后各模型的校正和验证结果比较Table1Statisticsofestablishedmodelsincalibrationandvalidationset校正集Calibrationset验证集Validationset模型提取物ModelsExtraction2RMSECRPDRSEP2RMSECRPDRSEPR(%)R(%)固含量0.99760.03220.6361.8160.99260.2292.35012.695BP-ANNSolidcontentHSYA0.99410.02212.9563.1910.98050.0623.9059.126固含量0.98960.0669.8553.8040.99610.0628.6213.460PLSRSolidcontentHSYA0.99710.01818.6272.2200.99240.0356.9705.112固含量0.98710.0748.8304.2450.99420.05010.6772.794PSO-LS-SVMSolidcontentHSYA0.99460.02113.6753.0240.99530.0396.2605.692PSO-LS-SVM:Particleswarmoptimization-leastsquaressupportvectormachine.4.4未知样品预测表2未知样品集各模型的评价指标将所建模型用于预测红花提取Table2Statisticsoftheestablishedmodelsinunknownsampleset未知样品集Unknownsampleset过程中的未知样品,预测结果如模型提取物ModelsExtraction2RMSEPRPDRSEPR(%)表2所示。通过对比RMSEP,RPD固含量和RSEP值可以看出,PSO-LS-SVMSolidcontent0.98590.1684.7538.563BP-ANN模型的预测准确度高于BP-ANN和HSYA0.99030.0467.8286.008固含量PLSR模型。采用PSO-LS-SVM算0.99860.0918.7694.642PLSRSolidcontent法得到的固含量和HSYA模型的HSYA0.98210.0517.0396.681RMSEP值和RPD值均与校正集和固含量0.99750.06911.5663.519PSO-LS-SVMSolidcontent验证集结果相似,并且RMSEP值小HSYA0.99130.0448.0645.832于2倍RMSEC,RPD值大于8.06。此外,RSEP值均小于5.84%,较BP-ANN和PLSR模型更低。使用PSO-LS-SVM模型预测未知样品集中固含量和HSYA浓度。如图4所示,近红外预测趋势与实际测定值的变化趋势基本一致。图4红花提取过程模型预测与实际测定趋势对照图(A.固含量;B.HSYA)Fig.4Evolutionoftotalsolidcontent(A)andHSYAconcentration(B)duringtheextractionprocessofsafflower●:PredictedbyNIR;○:Measuredbythereferenceassays.5结论本研究将LS-SVM理论与近红外光谱技术相结合,利用粒子群优化算法对LS-SVM进行参数寻优, 930分析化学第40卷建立红花提取过程中固含量和HSYA的定量分析模型,并与PLSR及BP-ANN建模结果作比较。结果表明,PSO-LS-SVM模型具有稳定性好、预测准确度高、外推能力强及不存在过学习现象等优点。与传统的分析方法相比,所建立的方法快速、有效,能用于红花提取过程中固含量和HSYA浓度的快速测定。References1LIYing,ZHANGGe,GUOMei-Li,ZHANGWei,ZHONGXiang-Ping.AcademicJournalofSecondMilitaryMedicalUniversity,2005,26(5):587~588李颖,张戈,郭美丽,章伟,仲向平.第二军医大学学报,2005,26(5):587~5882SHIMing.ModernJournalofIntegratedTraditionalChineseandWesternMedicine,2004,13(15):2077~2079时明.现代中西医结合杂志,2004,13(15):2077~20793ZhuHB,WangZH,TianJW,FuFH,LiuK,LiCL.ActaPharmaceuticaSinica,2005,40(12):1144~11464ZHANGJu-Hua,ZHUXiang-Yang,LIGao-Yang,SHANYang,SHANGYue-Bo,HUANGLu-Hong,SHUAIMing.ChineseJ.Anal.Chem.,2011,39(5):748~752张菊华,朱向英,李高阳,单扬,尚雪波,黄绿红,帅鸣.分析化学,2011,39(5):748~7525ChanCO,ChuCC,MokDKW,ChauFT.Anal.Chim.Acta,2007,592(2):121~1316QUHai-Bin,LIBin,LIUXue-Song,CHENGYi-Yu.ChinesepharmaceuticalJournal,2005,40(24):1897~1903瞿海斌,李斌,刘雪松,程翼宇.中国药学杂志,2005,40(24):1897~19037HUANGYa-Wei,WANGJia-Hua,LIXiao-Yun,JacquelineJShan,LeiLing,HANDong-Hai.SpectroscopyandSpectralAnalysis,2010,30(1):2954~2957黄亚伟,王加华,李晓云,JacquelineJShan,LeiLing,韩东海.光谱学与光谱分析,2010,30(1):2954~29578ThissenU,PepersM,UstunB,MelssenWJ,BuydensLMC.Chemom.Intell.Lab.Syst.,2004,73(2):169~1799ChauchardF,CogdillR,RousselS,RogerJM,Bellon-MaurelV.Chemom.Intell.Lab.Syst.,2004,71(2):141~15010SuykensJAK,VandewalleJ.NeuralProcess.Lett.,1999,9(3):293~30011ClercM,KennedyJ.IEEETrans.Evol.Comput.,2002,6(1):58~7312KennedyJ,EberhartR.ProceedingsoftheIEEEInternationalConferenceonNeuralNetworks,Perth,Australia,vol.4,1995:1942~194813GuoXC,YangJH,WuCG,WangCY,LiangYC.Neurocomputing,2008,71(16~18):3211~321514BalabinRM,LomakinaEI.Analyst,2011,136(8):1703~171215ShahlaeiM,FassihiA,SaghaieL.Eur.J.Med.Chem.,2010,45(4):1572~158216LaiYH,NiYN,KokotS.Vib.Spectrosc.,2011,56(2):154~16017TUZhen-Hua,ZHUDa-Zhou,JIBao-Ping,MENGChao-Ying,WANGLin-Ge,QINGZhao-Shen.ChineseJ.Anal.Chem.,2010,38(1):45~50屠振华,朱大洲,籍保平,孟超英,王林舸,庆兆珅.分析化学,2010,38(1):45~5018YANGChun-Hua,QIANXiao-Shan.ChineseJ.Anal.Chem.,2010,38(6):838~842阳春华,钱晓山.分析化学,2010,38(6):838~84219JINHang-Feng,HUANGLing-Xia,WuDi,JINPei-Hua,LOUCheng-Fu.J.InfraredMillim.Waves,2010,29(3):216~219金航峰,黄凌霞,吴迪,金佩华,楼程富.红外与毫米波学报,2010,29(3):216~21920YangY,ChenRS,YeZB.Microw.Opt.Techn.Lett.,2006,48(1):141~14421NationalCommissionofChinesePharmacopoeia.PharmacopoeiaofPeople′sRepublicofChina.Beijing:ChemicalIndustryPress,2005,VolⅠ:141国家药典委员会.中国药典.北京:化学工业出版社,2005,一部:14122BlancoM,BanoRG,BertranE.Talanta,2002,56(1):203~21223XiangD,BerryJ,BuntzS,GargiuloP,CheneyJ,JoshiY,WabuyeleB,WuHQ,HamedM,HussainAS,KhanMA.J.Pharm.Sci.,2009,98(3):1155~1166 第6期金叶等:基于粒子群算法的最小二乘支持向量机在红花提取液近红外定量分析中的应用93124WilliamsPC,SoberingDC.HowDoWeDoIt:aBriefSummaryoftheMethodsWeuseinDevelopingNearInfraredCalibrations.In:DaviesAMC,WilliamsPC(Eds.),NearinfraredSpectroscopy:TheFutureWaves.Chichester:NIRPublications,1996:185~18825StreeflandM,VanHerpenPFG.,VandeWaterbeemdB,VanderPolLA,BeuveryEC,TramperJ,MartensDE,ToftM.Biotechnol.Bioeng.,2009,104(3):492~50426ZHENYong-Mei,ZHANGTie-Qiang,ZHANGJun,CHENXing-Dan,SHENXuan-Guo.Spectrosc.Spect.Anal.,2004,24(12):1546~1548郑咏梅,张铁强,张军,陈星旦,申铉国.光谱学与光谱分析,2004,24(12):1546~1548ApplicationofParticleSwarmOptimizationBasedLeastSquareSupportVectorMachineinQuantitativeAnalysisofExtractionSolutionofSafflowerUsingNear-infraredSpectroscopy*JINYe,YANGKai,WUYong-Jiang,LIUXue-Song,CHENYong(CollegeofPharmaceuticalSciences,ZhejiangUniversity,Hangzhou310058,China)AbstractAnovelparticleswarmoptimization(PSO)basedleastsquaressupportvectormachine(LS-SVM)methodwasinvestigatedforquantitativeanalysisofextractionsolutionofsafflowerusing-1near-infrared(NIR)spectroscopy.Theusablespectralregion(5400-6500cm)wasidentified,spectralpreprocessingofNorrisderivativesmoothingwasemployed,andspectraldimensionwasalsoreducedthroughprincipalcomponentanalysis(PCA).Inthispaper,thePSOalgorithmwasappliedtoselecttheLS-SVMhyper-parameters(includingtheregularizationandkernelparameters).ThecalibrationmodelsoftotalsolidcontentandhydroxysaffloryellowA(HSYA)wereestablishedusingtheoptimumhyper-parametersofLS-SVM.TheperformanceofLS-SVMmodelswascomparedwithpartialleastsquaresregression(PLSR)andback-propagationartificialneuralnetworks(BP-ANN).Thefeasibilityofthesethreemethodswasexaminedontheunknownsampleset.ExperimentalresultsshowedthatthecalibrationresultsofBP-ANNweresuperiortoPSO-LS-SVMandPLSR,however,thepredictionaccuracyofvalidationandunknownsamplesetwasinferior.ForPSO-LS-SVMandPLSRmodels,thecorrelationcoefficientsofthecalibrationandvalidationsetwereabove0.987,theRMSECandRMSEPvalueswereclosetoeachotherandlessthan0.074,residualpredic-tivedeviation(RPD)valueswereallabove6.26,andtheRSEPvalueswerecontrolledwithin5.70%.Fortheunknownsampleset,theRPDvaluesofPSO-LS-SVMmodelswereabove8.06,theRMSEPandrelativestandarderrorsofprediction(RSEP)valueswerelessthan0.07and5.84%respectively,whichweremuchlowerthanBP-ANNandPLSRmodels.ThePSO-LS-SVMalgorithmemployedinthispaperexhibitedexcellentmodelrobustnessandpredictionaccuracy,whichhasdefinitepracticesignificanceandapplicationvalue.KeywordsNear-infraredSpectroscopy;Particleswarmoptimization;Leastsquaressupportvactormachine;Extractionsolutionofsafflower(Received16August2011;accepted9December2011)