基于神经网络集成方法的公司盈利预测研究

基于神经网络集成方法的公司盈利预测研究

ID:25432930

大小:55.50 KB

页数:7页

时间:2018-11-20

基于神经网络集成方法的公司盈利预测研究_第1页
基于神经网络集成方法的公司盈利预测研究_第2页
基于神经网络集成方法的公司盈利预测研究_第3页
基于神经网络集成方法的公司盈利预测研究_第4页
基于神经网络集成方法的公司盈利预测研究_第5页
资源描述:

《基于神经网络集成方法的公司盈利预测研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于神经网络集成方法的公司盈利预测研究潘道华(黑龙江民族职业学院,黑龙江哈尔滨150066)摘 要:盈余预测具有引导投资者投资行为的作用,因此受到投资者的广泛重视。然而,国内对公司未来盈利进行预测的研究还相当少。提出了以决策树作为基分类器,采用集成学习方法,利用上市某公司2001至2005年的财务数据对该上市公司在2006年的盈利状况进行预测研究。首先,采用有放回的随机抽样技术分别从训练样本和测试样本中产生50个训练子集和1个测试集;然后利用决策树,采用CHAID算法对50个训练子集分别进行训练,得到50个基决策树分类

2、器;通过采用Bagging方法,构建决策树集成模型。所得到的集成模型在测试集上的分类准确率达到96%以上,通过比较由不同数目的基分类器构成的集成模型和单个分类器的预测准确率,证明了该集成模型的预测准确率高且稳定。.jyqkoid或TangentSigmoid等可微函数。BP算法分为两个阶段。第一阶段是前向过程,逐层计算各神经元的输出值,第二阶段是误差后向传播过程,从后向前逐层传播输出层的误差并据此修正各层权重,直到输出结果满足预先设定的精度要求或达到算法设定的最大循环次数。2.2神经网络集成如何根据观测数据学习得到精确

3、估计是机器学习领域中人们非常关注的一个问题,机器学习的一个重要目标就是对新的测试样本尽可能给出最精确的估计。构造一个高精度估计是一件相当困难的事情,然而产生多个只比随机猜测好的粗糙估计却很容易。传统的机器学习方法是在一个由各种可能的函数构成的空间中寻找最接近实际分类函数的分类器。常用的单个分类器模型主要有决策树、人工神经网络等。集成学习(ensemblelearning)的基本思想是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果按某种方式来进行组合,决定最终的分类,以取得比单个分类器

4、更好的结果。如果把单个分类器比作一个决策者的话,集成学习方法就相当于多个决策者共同进行一项决策。尽管单个神经网络在处理非线性问题上表现良好,但是用单个神经网络来进行预测,一个不足的地方就是结果的稳定性差。因为神经网络的预测结果受网络各层之间的初始权重影响很大。为了克服这一不足,本文利用集成学习的思想,采用以BP神经网络作为基分类器的神经网络集成方法来对公司未来盈利状况进行预测。以神经网络作为基分类器构建集成模型的方法主要有Bagging和Boosting。本文选择采用Bagging方法,因为Bagging方法较易于实现

5、,而且不容易产生过拟合现象。对一个已知的有n个数据元素的数据集,Bagging法的原理是[1]:对每次循环(=1,2,…,),采用有放回的随机抽样方法从数据集中抽取m个数据形成训练集(mn),分类器模型从中学习。为了对一个未知的元素X分类,每个都返回一个分类值,将该分类值看成是一票,而最后的集成分类器,通过统计这些投票,将X归为得票最多的那一类。3研究步骤与具体实例分析3.1样本选取本文采用的上市公司数据样本来自天软数据库。在剔除了财务变量有大量缺失值后,样本共包含从2001年至2006年的深市和沪市A股的1174家上

6、市公司。其中,沪市上市公司734家,深市440家。本文选取了反映上市公司偿债能力,成长能力,经营能力,资本结构,盈利能力,现金流,每股指标等方面的29个财务变量作为初始变量。此外,为了研究宏观经济环境对公司未来盈利的影响,相应的选择了2001年至2006年的三个宏观经济变量:国内生产总值增长率(GDP),居民消费价格指数增长率(CPI)及一年期金融机构贷款基准利率。这几个变量都与公司的盈利状况有着密切的关系。国内生产总值反映了整个国家的经济状况,而居民消费价格指数是反映居民购买并用于消费的商品和服务项目价格水平的变动趋

7、势和变动幅度的相对数,它可以全面反映多种市场价格变动因素及其对居民实际生活的影响程度。一年期金融机构贷款基准利率会影响公司的营运成本,会对公司的利润产生直接的影响。所有变量见附表。为了预测未来公司的盈利状况,本文将数据样本分为训练样本和测试样本。其中,训练样本由2001年至2005年的公司样本数据用有放回的随机抽样方法得到,每个训练样本包含1000个观测,测试样本是用相同方法得到的上市公司在2006年的数据样本,包含400个观测。3.2指标选择对于初始变量表,变量之间存在着相关性。虽然神经网络对变量间的相关性具有较强的

8、容忍度,但是,变量太多会增加网络的复杂度,还有可能使网络过适应,从而使得网络在测试样本上的表现很差,而且并不是变量越多,神经网络的预测精度就越大,所以适当选择具有代表性的指标变量既可以达到与用所有变量相同的预测精度,又能降低网络的复杂度,避免使网络陷入过适应,提高网络的训练速度。然而,运用神经网络方法,对输入变量的选取目前并没有一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。