资源描述:
《人工神经网络变量选取和隐藏单元数确定》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第22卷第6期统计与信息论坛2007年11月Vol.22No.6Statistics&InformationForumNov.,2007【统计理论与方法】人工神经网络变量选取与隐藏单元数的确定谢远涛(中国人民大学统计学院,北京 100872)摘要:根据多隐藏层所有训练样本误差平方和最小设计优化问题,求解并绘出计算流程图。Trevor等人认为隐藏单元过多比过少好,交叉验证估计(隐藏单元)正则化参数没有必要。还有一种通常做法是常常利用分类树挑选变量作为输入变量进行人工神经网络建模。而从人工神经网络与多元统计、传统回归和其他数据挖掘工具的区别和联系出发,认为这些观点和
2、做法值得商酌;用ZIP编码实例说明隐藏单元过多不一定比过少好,实际数据分析中所需隐藏单元数的确定可以用交叉验证结合经验判断来实现,利用分类树选择的变量对于人工神经网络没有太大的效果;通过分类树删节变量以降低计算量的效果不如通过压缩隐藏单元个数降低计算量来得好;非完全问题“从简单到一般”思想与完全问题中选择所有变量的思想不矛盾。在总结了LeCun等人的局部联结以有效降低权数思想的基础上,提出通过随机选择人工变量建立人工神经网络分布式模型系统的设想。关键词:人工神经网络;BP算法;统计学习;数据挖掘;分类树中图分类号:F224.33 文献标识码:A 文章编号:1
3、007-3116(2007)06-0009-07尽管神经网络模型发展了很多年,但是在变量一、引 言选取、隐藏单元确定、拟合与预测的兼顾方面还是有1940年,科学家即着手从事人工智能研究。许多悬而未决的东西,许多方面都是由建模者主观1943年神经生物学家McCulloch与数学家Pitts合确定的。作提出了MP模型,1949年又提出了Hebb学习规二、理论简介则;50年代Rochester和Holland通过网络吸取经验来调节强度,以这种方式模拟Hebb的学习规则并图1中左图反映了人工神经网络的架构特征。取得成功;1958年Rosenblatt利用学习机制推广了在
4、建立人工神经网络模型之前,常用分类树辅助选MP模型,提出感知器模型;1974年Werbos提出了择变量,减少运算量。然而,正如后文将要揭示的,BP理论以及反向传播原理,同年,Stein、Lenng、这又是以牺牲拟合效果和预测能力为代价的。人工Mangeron和Oguztoreli提出了连续的神经元模型;神经网络在通过隐藏层实现非线性运算并取得较好之后Kohonen提出了自组织映射网络模型;1982年拟合效果的同时却又丧失了可解释性,因此则往往Hopfield建立了一组非线性微分方程Hopfield神经结合因子分析进行因子旋转来获得可解释性。利用网络模型,并于19
5、82~1986年提出了神经网络集体组合函数来汇总输入变量的特征,再通过转移函数运算功能的理论框架;90年代初,诺贝尔奖获得者投射到合适的定义域中,实现非线性变换之目的。[1][3]Edelman提出了Darwinism神经网络系统模型;其中组合函数和转移函数合称为激活函数,按照1990年Narendra和Parthasarathy提出了推广的动具体函数形式的不同划分为不同的类型:如二值函态神经网络系统及其连接权的学习算法和动态BP数、S形函数、双曲正切函数,也可以采用光滑函数[2]参数在线调节方法;1993年Bulsari给出非线性或者径向基函数。激活函数的输出
6、通过输出函数投系统用神经网络逼近的构造性描述。射到输出层。输出层如果是定量变量就对应回归问收稿日期:2007-07-30作者简介:谢远涛(1982-),男,湖北随州人,经济学硕士,博士生,研究方向:统计模型与应用;风险管理与应用。9©1994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net统计与信息论坛M题,若是定性(属性)变量就对应分类问题。L+1ls.t.xlj(n)-s∑x(1-l)i(n)aij=0i=1可以通过Lagrange
7、来求解这个优化问题(blj(n)为Lagrange乘子):NL=∑L(n)n=1MMNL+1L2L+1=∑∑y(L+1)j(n)-g(∑xLiaij)+n=1j=1i=1MMLLl-1l∑∑blj(n)xlj(n)-s∑x(l-1)i(n)aijl=1j=1i=1当然,这个优化问题可以添加罚条件来限制解释变量和隐藏单元的个数来防止过拟合。隐藏单元过多不一定比过少好,这个结论与Trevor等人的结图1 人工神经网络结构图论相悖“隐藏单元过多比过少好”:,因为“隐藏单元图1中右图是多层网络模型示意图。信息通过过少,模型可能不具有足够的灵活性来捕获数据中权实现分布式存
8、储,由此具有很高的容错性