欢迎来到天天文库
浏览记录
ID:21295533
大小:49.51 KB
页数:10页
时间:2018-10-21
《基于混合高斯模型的上市企业聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于混合高斯模型的上市企业聚类研究摘要:已有的基于上市企业财务指标的聚类研究往往无法反映出聚类过程的不确定性,其聚类结果也欠缺可解释性。在核主成分的基础上,引入了混合高斯模型聚类算法,不仅能较好地实现样本聚类,更能提高聚类结果的可解释性。实验证明以上方法的可行性及有效性。关键词:财务指标;核主成分•,混合高斯模型;聚类中图分类号:F23文献标识码:Adoh10.19311/j.cnki.1672-3198.2016.07.0461研究背景上市企业定期公布的财务报表对投资者选股、持股有一定的参考价值,但大量数据背后的信息往往难以被
2、发掘。聚类分析是一种以数据特征为基础的分类技术,通过对上市企业财务数据的聚类分析,能基于财务指标的相似性实现对上市企业的有效分类,对投资者有重要的指导意义。原思聪(1995)首次探讨了模糊数学方法在股票选择方面的应用,通过综合隶属函数与模糊函数构建了股票选择的评价体系,然而模糊聚类的主观性较强。沈周翔、钟键(2005)则采用主成分(PCA)的方法,通过提取累计方差贡献率大于95%的两个主要成分,将股票财务数据投影到二维平面上,并根据平面象限区分聚类类别,但传统的PCA算法是基于线性组合构造主成分的,并不能处理具有非线性结构的财务
3、数据,因此学者提出了以核主成分(KPCA)技术替代PCA技术进行特征提取。余乐安、汪寿阳(2009)先用KPCA算法对股票的财务数据进行降维处理,再对降维后的数据采用K-Means聚类,这种处理方法能得到准确率更高的聚类结果。但K-Means聚类为硬聚类技术,无法反映KPCA降维及聚类过程中的不确定性,更无法对聚类结果提供有效的解释。针对此问题,在KPCA降维数据的基础上,本文引入一种基于混合高斯模型的聚类算法,能有效地提高聚类结果的可解释性。2混合高斯模型软聚类算法已有研究所采用的聚类算法都是一类优化目标函数的硬聚类算法,其特
4、点是能清晰地对事物进行划分,不允许模棱两可的结果。然而,上市企业的财务指标具有多样性及复杂性等特点,硬聚类算法显然很难基于复杂多样的财务指标将上市企业清晰地加以区分。一种基于混合高斯模型的软聚类算法能有效地解决该类问题。2.1混合高斯模型的基本概念混合高斯模型(GaussianMixtureModel,GMM)是一种以高斯分布为基础的混合模型,其概率密度函数可表示为多个高斯分布概率密度函数的线性组合。Wilson(1999)已证明,由有限多个高斯分布构成的混合高斯模型能以任意精度逼近任何的多元分布,这种良好的性质使得其在降维或聚
5、类中有良好的应用前景。2.2混合高斯模型算法混合高斯模型是由多个独立的单高斯分布模型(SingalGaussianModel)的线性组合而成,每一个单高斯分布可称为混合高斯模型的成分(Component)。考虑多元的情况,假设IXd的多维变量x服从单高斯分布,其概率密度函数f(x;U,Z)为:(1)其中,u是lXd的均值向量,Z是dXd的协方差矩阵。而GMM的概率密度函数g(x)则可表示为:(2)…,K)是权值因子,是第i个单高斯分布在混合模型中所占的权重;pi,Ei分别是第i个单高斯分布的均值向量及协方差矩阵。2.3混合高斯模
6、型参数估计由于聚类是一种无监督学习的方法,其结果具有较强的目的导向性,因此在聚类应用中,聚类类簇数据K,即混合高斯模型的成分个数往往是外生的,而需K为成分的数目,在聚类应用中同时代表类簇的数目;ai(i=l,2,…,要估计的参数有ai、Pi及Ei(i=l,2,…,K)。假设NXd的数据集,服从概率密度函数为g(x;e)的混合高斯分布,e表示所有参数的集合,其似然函数L的形式如下:(3)由于单个混合高斯概率密度函数值一般都很小,随着数据点个数N的增大,连乘的结果会变得非常小,容易造成浮点数下溢,因此采用自然对数形式改写目标似然函数
7、:(4)一般的参数求解方法是通过对对数似然函数求偏导以求得各参数的极值,然而(4)式中在对数函数里面存在大型求和符号,不能用求偏导解方程的发法直接求得参数极值。Bilmes(1998)提出的期望最大化算法(EM),能通过多次迭代的方法简化参数估计过程,进而求取模型参数。首先初始化混合高斯模型的所有参数,设为90=(ao,uk0,ZkO),k=l,2,…,K,其中K个多元高斯分布的均值向量Uk、协方差矩阵Ek可通过统计方法进行计算权值ai初步设定为1/K。在迭代的过程中,对于第j个样本点xj,其由第k个多元高斯模型生成的概率定义为
8、:(5)然后,在第一次更新参数的步骤中,计算可得ojl(k),对于任意一个样本点xj,其值的ojl(k)*xj部分可看作是由第k个单高斯模型产生的,即将该部分数据用作第k个单高斯模型的参数估计。因此,第k个单高斯模型共产生了oji(k)*xj(j=l,2,…,N
此文档下载收益归作者所有