基于集成学习的高送转股票研究

基于集成学习的高送转股票研究

ID:32636733

大小:62.13 KB

页数:8页

时间:2019-02-14

基于集成学习的高送转股票研究_第1页
基于集成学习的高送转股票研究_第2页
基于集成学习的高送转股票研究_第3页
基于集成学习的高送转股票研究_第4页
基于集成学习的高送转股票研究_第5页
资源描述:

《基于集成学习的高送转股票研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于集成学习的高送转股票研究【摘要】高送转预案公告发布前,高送转股票具有显著的累计正收益,因此预测高送转股票对于投资具有重要意义。高送转股票的预测是分类预测问题,本文利用上市公司三季度财报数据,采用3种集成学习算法:由K-近邻算法、决策树以及加lasso惩罚项的逻辑斯蒂回归算法构建预测模型一一“组合”模型,经典的集成学习算法一一AdaBoost算法以及随机森林算法进行建模。本文采用准确率以及G-mean作为模型评价标准,结果显示:“组合”模型的准确率最高,随机森林和“组合”模型的G-mean表现相当,均优于ada

2、boost算法。由于每年高送转股票所占比例小于50%,数据可以看成是非平衡数据,为了改善“组合”模型较差的召回率,本文采用K-Means聚类的欠抽样方法,将此方法用在“组合”模型上,效果显著。最后分别对上面三种模型预测的股票构建投资组合,并以HS300指数做基准。结果显示:“组合”模型预测得到的高送转股票组合表现优于另外两种集成学习模型。【关键词】高送转集成学习非平衡数据投资组合一、引言所谓“高送转股票”是指上市公司大比例送红股或大比例以资本公积金转增股票,市场送转股比例超过0.5的股票为“高送转股票”。虽然上市

3、公司送股、转增股票及不影响其当期现金流,也不影响其未来现金流,从而这种分红并不影响公司价值,但高送转事件向市场传递了公司发展良好、行业发展前景乐观的信息,这导致不少投资者盲目的投资具有高送转概念的股票。据文献研究:中国股市具有明显的高送转公告效应,即高送转股票在预案日公布前会出现正的超额收益率[1],陈珠明(2010)通过实证研究发现:高送转股票在预案公告日之前具有显著的超额收益[2],因此,投资者为了在高送转事件中获取更多的超额收益率,在公告前预测高送转股票显得至关重要了。影响上市公司实施高送转的因素有很多,车

4、仲春等人认为高送转股票通常具有高积累、高业绩、高股价和小股本这些特征[3],同时结合市场上一些券商的研究,本文将影响高送转事件的主要因素定为:每股资本公积金、每股未分配利润、每股收益、每股净资产、每股现金净流量、每股营业收入、上市时间以及股价九大因素。因此,投资者将预测高送转事件是否发牛视为一个二分类问题,即股票要么“高送转”,要么“不高送转”。由于高送转股票在A股市场上所占比例远小于50%,此分类问题可以看成是非平衡数据分类问题,因此本文将采用K-Means聚类的欠抽样方法[4]解决非平衡问题。二、高送转预测模

5、型构建及评价(-)数据来源本文研究的样本是2009年至2015年剔除ST、PT股票的全部A股市场股票,选用的指标数据如表1所示,数据来源于天软(Tinysoft)数据库。(二)模型算法令T年为测试集年份,为了构建“高送转”预测模型,我们训练集数据选为T-1年的三季度数据,训练集样本选取T-1年10月31日这天公布三季度报的非ST、PT股票,训练集的响应变量则由T-1年样本公告?A案日公布的送、转股比例是否超过0.5决定,如果超过0.5,表明样本为“高送转”股票,训练集的样本标签为b否则为0;本文的测试集样本为T年

6、10月31日公布三季度报的非ST、PT股票。首先,我们将分别使用K-近邻算法、决策树决策树以及正则化的Logistic回归构建预测模型,并对这三种预测结果进行投票以构建一种“组合”模型,同时我们也分别采用集成学习算法Adaboost.随机森林来构建“高送转”预测模型。1・K-近邻算。K-近邻算法[5]的工作原理是:存在一个样本数据集合,并且样本集屮的每一数据都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本数据集中数据对应的特征进行比较,然后算法提取样木集中前K个最相似(最近邻)的数据,选择数据中岀现次

7、数最多的分类,作为新数据的分类。采用K-近邻算法需要对自变量数据归一化,这里采用下面公式对数据归一化:newValue=(oldValue-min)/(max-min)(1)其中min和max分别是对应属性数据集的最小特征值和最大特征值。对应K-近邻算法,模型的参数主要为K和距离,通过对该样本数据进行检验,发现K取3,距离选用欧氏距离时,预测结果较好。2.决策树算法。决策树算法[5]由Breiman等人在1984年提出的,是应用广泛的决策树学习方法,该算法有两部分组成:(1)决策树生成;(2)决策树剪枝。本文决策

8、树牛成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,牛成二叉树。决策树剪枝算法由两部分组成:首先从牛成的决策树TO底端开始不断剪枝,直到根节点,形成1个子树序列{TO,T1,…,Tn};然后通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优子树。3•正则化Logistic算法。二项逻辑斯蒂回归模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。