欢迎来到天天文库
浏览记录
ID:53762600
大小:448.62 KB
页数:6页
时间:2020-04-24
《基于密度的面板数据聚类分析-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第29卷第2期统计与信息论坛2014年2月VO1.29No.2Statistics&InforInationForumFeb.,2014【统计理论与方法】基于密度的面板数据聚类分析杨娟,谢远涛(1.中国人民大学统计学院,北京100872~2.对外经济贸易大学保险学院,北京100029)摘要:研究面板数据聚类问题过程中,在相似性度量上,用Logistic回归模型构造相似系数和非对称相似矩阵。在聚类算法上,目前的聚类算法只适用于对称的相似矩阵。在非对称相似矩阵的聚类算法上,采用最佳优先搜索和轮廓系数,改进DBSCAN聚类方法,提出BF-DBSCAN方法。通过实
2、例分析,比较了BF-DB~AN和DB~AN方法的聚类结果,以及不同参数设置对BF-DB~AN聚类结果的影响,验证了该方法的有效性和实用性。关键词:面板数据聚类Logistic回归模型;基于密度的应用噪声的空间聚类;最佳优先搜索;轮廓系数中图分类号:C812文献标志码:A文章编号:1007-3116(2014)02一OO23—06析[。李因果等用“绝对指标”、“增量指标”和“波动一、引言指标”构造综合距离函数,使用专家调查法和熵权系面板数据分析是计量经济学的一个重要组成部数法确定距离函数的参数,该方法适用于经济领域分,主要研究集中于混合模型、分层模型等领域,
3、而的面板数据聚类[8]。吴利峰等根据面板数据的凸面板数据的聚类分析研究还处于发展阶段,数据挖性,提出用三维灰色凸关联度构造相似矩阵,这两类掘中经典聚类分析方法主要适用于截面数据的聚方法适用于计算机控制和图形处理领域的面板数据类。面板数据聚类主要讨论两类问题:如何度量数聚类。据对象的相似性以及采用何种聚类方法。度量相似上述文献计算新的相似性度量时,根据面板数性的方法分为两种:距离和相似系数。主要的聚类据的数字特征、形状特征、动态特征等构造相似性度方法可以划分为五大类:基于划分的、基于密度的、量,只提取了面板数据的部分特征,适用于特定数据基于层次的、基于模型的
4、和基于方格的,当然还存在类型的面板数据和聚类目的。其他类型的聚类方法[1]1船。(二)聚类方法(一)构造相似性度量Dela等提出了基于模型的多水平面板数据聚Bonzo等基于概率连接函数来定义相似系数,类方法,所用模型为混合非线性分层模型[1。采用改进的自适应模拟退火一遗传算法优化目标函Judrez等提出基于模型的面板数据聚类方法,使用数[2]。Nie将不同时期的观测给予不同权重,构造偏态厚尾的T分布的自回归模型,根据数据的动态距离函数_3]。朱建平等将单指标面板数据转化为截特征、均衡水平、协方差来聚类[1。Bonzo等使用面数据做聚类分析[4]。张可等根据
5、指标的几何特了基于层次的聚类方法。Nie等使用基于密度的应征,用扩展灰色关联度矩阵构造相似矩阵[5]。任娟用噪声的空间聚类方法(DBSCAN)。杨毅等用费等用自适应滑动窗口分段方法提取面板数据中时序希尔最优化求解法,重新定义了类间距离和损失函局部变化的形状特征[6]。杨毅等用主成分分析提取数,讨论了面板数据的有序聚类问题。面板数据指标的特征,对面板数据进行有序聚类分上述文献中,基于模型的聚类方法的优点是:能收稿日期:2013—07一】2基金项目:国家自然科学基金项目《风险信息共享背景下的个体风险评估研究}(71303045)作者简介:杨娟,女,湖北武汉人,
6、博士生,研究方向:统计模型,风险管理;谢远涛,男,湖北随州人,经济学博士,副教授,硕士生导师,研究方向:非寿险精算学与统计模型。23统计与信息论坛够处理噪音数据,具有可解释性和实用性。不足之(二)构造相似系数和非对称相似矩阵处:不能处理各种分布的面板数据,需要根据数据的定义1:给定-1和zm)的条件下,i(£)与的分布和一定的假设条件进行模型的设定,需要设定相似系数记为S((f),),s((f),)为条件概率,即分类的个数,聚类效果对参数设定很敏感。基于层有s((f),J)一(,)===Pr(【f)一1lYJ一1,IT))。次的聚类方法需要事先确定类的个数
7、。基于密度的定义2:向量S((),)表示和所有样本(f)的应用噪声的空间聚类方法(DBSCAN)需要确定两相似系数。个参数。S((f),):==本文的创新之处:根据Logistic回归模型,利用s((1),)Pr(y)-1l一1,z姒))面板数据的各个指标和整体特征构造相似性度量,((2),)Pr(y)一1l一1,))计算两两数据对象的相似系数,构造非对称相似矩;阵。针对非对称相似矩阵,提出采用最佳优先搜索((T),j;)Pr(y(73==:1j==:1,z(73)和轮廓系数的BF-DBSCAN(9面板数据聚类方法。定义3:给定—l和的条件下,与J的相似二
8、、用Logistic回归构造相似系数系数记为s(i,J),即s(i
此文档下载收益归作者所有