欢迎来到天天文库
浏览记录
ID:57925303
大小:161.45 KB
页数:2页
时间:2020-04-14
《数据挖掘在股票财务指标中的应用-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、●题研究姆。。·■一-.●数握拖搋在眨暴髓务撩庶◎蔡丽(北京工商大学理学院100048)【摘要】本文利用数据挖掘中的分类方法,选取了部分根据最后形成的决策树得到分类规则,比如:NAPS≥上市公司的财务比率数据,用R软件进行分析,为投资者提4.9,NOCF≥2.3e+9则预测为bad.供决策依据.(2)随机森林【关键词】数据挖掘;财务指标;分类方法本文中,随机森林共建立了500棵决策树,每个节点的候选输入变量个数为3.基于袋外观测的预测误判率为42.【基金项目】北京市教委科研计划项目76%.由袋外观测的混淆矩阵来看,单个模型对两个类别的(KM201
2、410011006)预测精度均不理想.随机森林对所有观测进行预测,预测误差为0.一、引言在评价各输入变量的重要性时,要用到importance函数据挖掘是从大量不完全、有噪声、随机的实际应用数数,其中MeanDecreas—eAccuracy表示预测精度的平均减少据中,提取隐含在其中人们事先不知道、但又是潜在有用的量,MeanDecreaseGini表示给出节点异质性指标的平均减少信息和知识的过程.目前已经用于客户关系管理、银行风险量.为了更全面直观地评价各输入变量的重要性,用项目评估和金融市场等多个领域,用于财务指标分析的还varlmpPlot
3、函数进行作图,见图1:不多见.本文旨在通过数据挖掘方法分析上市公司的财务输入变量重要性测度散点图指标数据,建立模型,辅助投资者深入认识公司的财务状况,为多数股民,特别是散户进行相关问题的正确决策提供NnN●数据支持.NN●m■口丌t二、分类算法分类在数据挖掘中是一类很重要的方法,在商业上的应用最多.其目的是学会一个分类函数或分类模型,能把数O24e8O510152o筘3。据库中的数据项映射到给定的某一个类别.本论文主要侧重数据挖掘中分类算法在股票财务指标方面的应用.其中图1输入变量重要性测度散点图用到决策树、随机森林、支持向量机(SVM)三种算法
4、.从对输出变量预测精度的影响看,每股净资产、销售净三、分类模型的建立利率、流动比率、经营现金净流量比较重要.从对输出变量1.数据理解异质性下降程度的影响看,同样是这几个变量较为重要,即本文的数据来源于锐思金融数据库,所选的数据为每股净资产、销售净利率、流动比率、经营现金净流量不同2012年1O月8日前上市的公司信息.属性包括:每股指标的上市公司,对是否优于大盘有较大的影响.中的每股收益和每股净资产,盈利能力中的销售净利率,成(3)SVM长能力指标中的净资产收益率、净资产增长率和净利润增在对数据处理的过程中,文中利用网格搜索法10折交长率等l2个属
5、性,包括了公司不同能力方面的财务比率数叉验证寻找较优参数,确定cost和gamma值,构建SVM据.因变量是根据2012年IO月8日和2013年10月8日的模型.收盘价与这两天大盘的收盘价变化率相比,若比大盘的收根据最后SVM对测试集的预测结果,可以得到ROC曲盘价的变化率高,则标记为“好”,反之标记为“差”.线,见图2:2.数据处理(1)决策树本文建立决策树的过程中,用到的是rpart.Control函数,其中,最小样本量minsplit为20,进行交叉验证剪枝的交叉折数xval为1O,最大树深度maxdepth为5,最小代价复杂度剪枝中的复杂
6、度参数CP值为0.O1.划分特征空间时,用到的是gini指标,它用来度量数据划分或者数据集的不纯度,数据集D的gini指标公式为:Gini(D).其中,P是D中样本属于C类的概率,并用Falsepositiverate}鲁.图2SVM的ROC曲线同时构建决策树过程中用到的重要变量有:Currt、InvtrtrratNAPS,Netassgrrt、NetprfgrrtNOCF、WROEcut(下转123页)数学学习与研究2015,7专题研究1—●*●,123~0.-I_.●满足定义1条件,可能不满足定义2条件,如例3;满足定义式进行计算,但该曲线直
7、角坐标方程为Y=,其在任一点处2条件,可能不满足定义1条件,如例4.的曲率均为零.事实上可用下文中公式(2)进行计算.2.光滑与可求长’设曲线的方程是Y=,(),且,()具有二阶导数就(这在叙述曲线可求长条件或者推导弧长公式时,很多教时_厂()连续,从而曲线是光滑的).则有曲率公式材都会假定“曲线光滑(或分段光滑)”这个条件,以致学生K:—(2)产生只有光滑曲线才能将弧长计算化为定积分的误解.事(1+Y)亍实上,由文献[1],曲线求长不需要光滑,且只需用()、对于不满足,,存在性的点,该点处仍可能有曲率,如例Y(t)在区间[a,口]上黎曼可积(而
8、不是连续),就能够得到4,曲线Y=,()=
9、R。一,∈[一R,R],Y=一—j一,~/R‘一‘弧长计算公式s=』()+Y()dt.J在点
此文档下载收益归作者所有