改进的K-prototypes算法在农民工养老参保中的应用研究

改进的K-prototypes算法在农民工养老参保中的应用研究

ID:46308093

大小:314.17 KB

页数:4页

时间:2019-11-22

改进的K-prototypes算法在农民工养老参保中的应用研究_第1页
改进的K-prototypes算法在农民工养老参保中的应用研究_第2页
改进的K-prototypes算法在农民工养老参保中的应用研究_第3页
改进的K-prototypes算法在农民工养老参保中的应用研究_第4页
资源描述:

《改进的K-prototypes算法在农民工养老参保中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、总第591期第28期管理观察ManagementObserver2015年10月上旬出版改进的K—prototypes算法在农民工养老参保中的应用研究陆可,李鸣,邹启鸣,徐浩(安徽工业大学,安徽马鞍山243032)摘要:农民工养老问题一直备受社会关注。许多学者对该问题展开了调研,并采用Logistic回归模型来分析调研结果。但是,Lo.gistic回归模型要避免变量间的多元共线性。农民工养老保险参保调研数据各变量之间往往存在关联性,而且数据维度高。针对Logistic回归模型的局限性和调研数据维度

2、高的问题,本文改进了K—prototypes聚类算法,并用于分析农民工未购买养老保险的原因。基于该方法得到的分析结果可以为相关部门制定针对性政策提供参考。7关键词:聚类改进的K—prototypes算法农民工养老保险改革开放以来的城镇化浪潮中,国人印象中皮肤黝黑,风尘仆仆的农民工,为我国的城镇化发展做出了巨大的贡献。然而,在艰辛的体力劳动背后,庞大的农民工群体却一直游离在城市的边缘,无法真正享受农民工养老保险等应有的待遇。正确分析农民工未购买养老保险的原因是解决农民工养老问题的关键,而解决该问题的

3、基础是对调查数据的合理分析【8】。目前,针对农民工养老参保调研成果的研究主要运用logistic回归进行分析。Logistic回归分析是处理混合型数据常用的方法。在过去的许多年间,logistic回归分析主要用于流行病学研究[14]o现在它的应用更为广泛。但是,logistic回归模型也存在自身的局限性,会影响该方法在调研数据分析中的运用。比如,Logistic回归要求变量之间不存在多元共线性。而农民工养老参保调研数据各变量之间存在着联系。而且,调研的结果数据维度往往比较高,这也给调研数据的分析带

4、来了一定的困难。生活中,不同的农民工所面临的农民工养老保险参保(以下简称农民工养老参保)问题不同,影响他们参保的因素也不同。基于这样的思路,本文拟采用聚类的方法对样本点进行分析。聚类是一种无监督的学习,因此不受主观判断的影响,更利于体现数据的内在规律。由于本文的数据是混合型数据,我们拟采用广泛用于混合类数据的k-prototypes算法来分析问题。此外,我们注意到,调查问卷所涉及的数据的维度高,运用K-prototypes算法会降低聚类效果,故本文改进了k-prototypes算法。本文在基于K-

5、prototypes算法,对其结果通过分析删除一些大簇中部分出现频率较高的属性后,再次聚类,从而得到更为合理的结果。本文的结构如下:第二部分,通过查阅文献,分析比较不同的统计分析的优缺点,发现引入聚类算法更为合理。第三部分,介绍K-prototypes算法并且在其基础上提出改进的K-prototypes算法。第四部分,运用改进的K-prototypes算法对农民工养老参保状况分析的运用状况进行分析。最后,总结该方法的优点和目前存在的不足。一、文献综述目前,许多学者对农民工养老参保问题的影响因素进行

6、了研究,农民工养老参保率低的情况并非偶然,大多学者认为其和政府、社会、企业以及农民工自身等因素有关。蒋云赞【11发现,现阶段不合理的缴费率和缴费率和缴费基数降低了农民工参保积极性。刘梦炫[21指出有些企业为了自身利益,不执行为农民工缴纳养老保险基金项目:国家自然科学基金青年基金:31300125.作者简介:陆可(1983一)男,民族:壮,籍贯:广西南宁,学历:经济学博士,职称:副教授,研究方向:数据挖掘,机器学习徐浩(1982一)男,民族:汉,籍贯:安徽肥东,学历:硕士,职称:讲师,研究方向:数据

7、挖掘,生物计算.189医院与公共管理费用的行为,损害了农民工的正当权益。张又山等p1认为农民工本身工资水平低,就业不稳定,流动性大以及,对养老保险认识不足的原因导致了其参保率低。李珍等[4]提出农民工对养老保险存在需求会受到年龄、收入,就业状况等因素影响的观点。基于安徽省的调查数据,杨哲等口1建立养老保险参与意愿的Tobit模型,研究发现性别与婚姻对农民工养老保险参与有显著影响。上述研究并未针对不同的人群来分析未参保的原因,虽然得到了虽然准确的结论,但是,各影响因素的内在联系并不能体现出来。而针对

8、问卷调查数据的统计方法,国内外许多学者都做过相关研究。其中张、刘(61指出,目前对问卷调查结果的分析还停留在单指标的频数分析,或者双变量的列联表分析上,而忽视了多个变量之间的联系。而事实上,信息往往隐含在多个变量之间。白、赵【71提到,基于列联表测量两个定类变量的相互关系时,主要有两种测量方法。其一,建立在卡方统计量理论上的相关程度测量方法:其二,建立误差消减理论基础上的相关程度测量方法。多变量统计的统计方法很多,但从实际应用角度看,使用最广泛的还是回归分析。对数线性回归模型是专门

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。