欢迎来到天天文库
浏览记录
ID:56066412
大小:349.36 KB
页数:6页
时间:2020-06-20
《函数型数据光滑系数的选择方法及其加速策略.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第13卷第2期太原师范学院学报(自然科学版)Vo1.13No.22014年6月J0URNALOFTAIYUANNORMALUNIVERSITY(NaturalScienceEdition)Jun.2014函数型数据光滑系数的选择方法及其加速策略姜高霞(山西大学5-程学院基础部,山西太原030013)(摘要]采用L曲线法大致定位迭代初始点,结合牛顿法加速求解最佳光滑系数.数值试验表明,经验值可能造成不收敛,且定位不够准确,而L曲线法直观、有效地定位初始点,保证了收敛『生.通过GcV牛顿法提高了求解速度,在精度和时间上都取得较好效果.[关键词)函数型数据;光滑系
2、数;广义交叉验证;L曲线法;牛顿法[文章编号]1672—2027(2014)02—0004—06[中图分类号]O157.5(文献标识码]A1数据的函数化与光滑系数在目前数据分析过程中,如果观测较为密集时,这些数据在数据空间中就会呈现出函数性的特征.函数型数据(Functionaldata)的概念最早是由加拿大学者Ramsay于1982年发表的论文《WhentheDataareFunctions))中提出.它是以函数为表现形式的一种数据,最大的特性就是数据具有函数性.在实际中,函数型数据很常见.例如,不同地区的多期温度、降雨量数据;能源(如电力、煤炭、石油等)
3、多年按月的消耗量;多个地区、行业或企业的多年的年度经济数据等.函数数据分析(Functionaldataanalysis,FDA)的基本思想是:不再把一列数据看作一个序列,而把函数数据看作一个单独的整体项,其表现形式为光滑的曲线或连续的函数.与传统的统计分析方法相比,函数型数据分析具有许多自身优点.例如,函数型数据分析可以对来自无限维空间的曲线数据进行统计分析;通常函数型数据分析需要较少的假设条件,从而使其具有更强的适用性;函数型数据分析会通过自己特有的方法挖掘出更多的数据信息;函数型数据分析允许不同观测对象具有不等的观测次数等.国外主要在生理学、生物、医学
4、、气象等方面应用函数型数据解决实际问题,包括模式表达、分类、图像处理等_l].国内对函数型数据的研究和应用主要集中在计量经济和心理科学领域。].一般函数数据分析主要包括三个步骤:1)将离散数据转换为函数形式,根据有无误差可分为平滑(Smoothing)和插值(Interpola—tion);2)对函数曲线进行排齐(Registration);3)对排齐后的函数进行函数型数据分析.其中第一步是FDA的基础也是区别于其他分析方法的关键步骤.数据的平滑是采用光滑基函数的线性组合表示函数型数据,即:K()一∑(£)(1)^1其中()(是一0,1,⋯,K)为基函数.傅
5、II]-~(FourierBasis)和B样条基(B—splineBasis)是最为常用的两类基函数.传统的光滑处理方法是最小二乘法.Ramsay和Silvermanl8引入正则化(Regularization)的思想,提出了粗糙惩罚法,简称粗惩法(RoughnessPenaltyMethod),即:minPENSSE(z{)一Ey—z()]WEy—z(£)]十aPEN()(2)其中,为光滑系数(Smoothingparameters),PEN()一jED2/7()]ds(D()表示()的m阶导函数).粗惩法对数据粗糙度进行了正则化处理(惩罚),其惩罚的程度
6、由光滑系数决定:光滑系数过小,对拟合函数的粗糙度惩罚较小,模型复杂数据波动较大,甚至接近插值,容易产生过拟合现象;光滑系数过大,对拟收稿日期:2013—12-15作者简介:姜高霞(1987一).男,山西新绛人,硕士,山西大学工程学院助教,主要从事为统计机器学习、函数数据分析第2期姜高霞:函数型数据光滑系数的选择方法及其加速策略5合函数的粗糙度惩罚较大,拟合越接近直线,与原始数据差别过大不能体现原始数据的变化特征。。.年月图1CPI数据不同光滑系数示意图光滑系数的选择是一个典型的“偏倚一方差”两难选择问题.模型选择的目标就是要在提高数据拟合度(降低偏倚)和增加
7、模型复杂程度(降低方差)之间达到某个平衡点.根据“如无必要,勿增实体”的奥卡姆剃刀(Occam’SRazor)原则,能够充分拟合观测的最简单的模型应该是首选的.基于不同的模型评估标准产生了大量的选择方法.2O世纪7O年代提出的Akaike信息准则(AkaikeIn—formationCriterion,AIC),对模型评估问题产生了重要影响.此外还有Bayes信息准则(BayesianInforma—tionCriterion,BIC),其具体表达式如下.AJC一2K一2In(L)(3)BIC—KIn()一21n(L)(4)其中L表示似然值,忌为参数个数,n
8、为样本大小.在这之后产生了一些基于决策理论的模型选择
此文档下载收益归作者所有