欢迎来到天天文库
浏览记录
ID:14681031
大小:45.00 KB
页数:7页
时间:2018-07-29
《项目数据分析师在金融数据分析中易犯错误的几个方面》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、CPDA项目数据分析师整理金融数据分析中易犯错误的几个方面一、回归模型的误用例1:研究金融发展与贫富差距的关系,认为金融发展先使贫富差距加大(恶化),尔后会使贫富差距降低(好转),成为倒U型。贫富差距用GINI系数表示,金融发展用(贷款余额/存款总额)表示。回归结果为:,模型参数都可以通过显著性检验。在x的有意义的变化范围内,GINI系数的值总是大于1,细致分析后模型变的毫无意义;同样的模型还有:GINI系数的值总是为负模型构建时缺乏考虑,可以采用成分数据的建模方法。例2:多元回归模型中的T检验问题(主要解释变量与控制变量)。例3:利用系数大小来解释被解
2、释变量对被解释变量的影响大小问题。二、实证检验中的原假设的选择问题只能证伪,不能证实。CPDA项目数据分析师整理在统计学的假设检验中,对原假设是倾向于保持的,因此假设检验只控制了弃真错误,而没有控制取伪错误,因此在原假设不真时,被误认为是真的概率很大。很多时候,我们会遇到这样的情况:如果原假设是A为伪,则原假设不能拒绝;如果原假设是A为真,那么原假设也不能拒绝。那么,A究竟是伪还是真?三、主成分分析的误用1、主成分分析介绍主成分分析的工作对象是高维定量变量形成的数据,即的数据,如在上市公司综合评价指标构建中、城市综合竞争力排序中、上市公司资本结构的影响因
3、素等许多问题中,都均会遇到类似数据。例:福布斯中国最佳商业城市排行榜很显然,识辨系统在一个低维空间要比一个高维空间容易的多。如英国统计学家斯格特1961年在对157个英国城镇进行发展力水平调查时,原始的测量变量有57个。而通过主成分分析发现,只需要5个新的综合变量,就可以以95%的精度表示愿数据的变异情况,这样对问题的研究,一下子就从57维降低到5维。在统计学中,主成分分析的主要作用是:在尽量减少原始信息损失的条件,将高维问题转化为低维问题,并使转化后的低维数据具有某些良好的统计特征。2、主成分分析的基本原理统计学认为,变异的数据可以提供某种识辨信息,数
4、据之间的变异越大,能够提供的识辨信息就越多。由于统计学通常采用方差来表示数据之间的变异大小,因此数据的方差越大,数据能够提供的识辨信息量就越大。在一个高维数据集中,各分量数据所提供的全部识辨信息量可以用各分量的方差之和来表示。CPDA项目数据分析师整理很显然,采用一般的去维方法将高维数据降低为低维数据,会使原始数据集损失许多识辨信息。因此一种较好的办法是利用原始数据库建立新的数据库,新数据库能够保持原始数据库的全部识辨信息,并且新数据库所含有的识辨信息能够较多地集中在少数几个分量上,这样我们利用这几个分量就可以在尽量减少原始信息损失的条件,将高维问题转化
5、为低维问题。如何能够做到这点?解释几何中的坐标旋转变换给我们提供了一个启发。依次寻找原始变量的线性组合(旋转坐标),使得到的新指标(原始变量构成的综合指标)具有最大的识辨信息。具体寻找这些新指标,可以转化为这样的数据问题:如果V为的方差-协方差矩阵,则V为非负定的对称矩阵,根据线性代数知识可知,其全部特征根均为非负数。假设为V的全部非零特征根,对应的特征向量为,则可以证明就是我们需要寻找的新的综合指标。注意,新的综合指标满足条件:①各个能够提供的识辨信息量逐步减少,在主成分分析中,这些新的综合指标分别称为:第一主成分、第二主成分,…,前面几个主成分的方差
6、和占原始指标的总方差和比率,就是保留前几个主成分时所保留的识辨信息量的百分比(在一般的主成分分析中,要求这个百分比不低于85%);②各个主成分之间相互正交,即各主成分之间的线性相关系数为零。3、主成分分析的SAS实现例:对我国50家最大市值上市公司的主成分分析(假设用于综合评价)procprincompdata=aout=b;varx1-x7;run;CPDA项目数据分析师整理SAS分析后,在数据库B中给出每家公司对应的每个主成分的值,在本例中,由于前5个主成分所提供的识辨信息量超过了85%,因此可以将原来的7维问题转变为现在的5维问题。4、金融研究中对
7、主成分分析的误用①利用主成分分析后得到的各个主成分,再构造新的综合变量来进行多指标综合评价。案例:利用企业财务指标提取主成分,再利用回归分析、或直接以各主成分的方差比为权重,构建综合评价指标。错误1:利用这种方法进行综合评价,违反了科学的综合评价所必须满足的一个条件——当评价方法确定后,对两个对象的评价排序结果,不应该受到第三个对象是否也参与评价的影响。例如,福布斯在给出中国最佳商业城市排行榜的同时,也给出了中国数百个城市在各个指标上的取值,福布斯没有公布采取了怎样的办法来通过分析这些指标值来给城市排名,能否利用主成分分析法来给这些城市排名呢?如果去排名
8、,会出现什么结果?我们采用这样的方法来排名,首先对原始数据进行主成分分析,提取识
此文档下载收益归作者所有