欢迎来到天天文库
浏览记录
ID:57798055
大小:62.50 KB
页数:3页
时间:2020-03-29
《房地产业税收流失探讨论文.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、房地产业税收流失探讨论文房地产业税收流失探讨论文预读:摘要:近年来,房地产业已经成为经济增长的重要推动力量和新的税源增长点.针对房地产行业的税收征管工作值得税务机关给予重视.本文的基本出发点,是以税务机关掌握的微观数据为基础,以税收流失测算为目标,探讨能和我国税收经济实际相结合的税收流失测算定量模型,以便为税务机关的税收征管决策提供更真实、可靠的科学依据•.常见的税收流失测算方法包括现金比率法、CGE法、抽样调查、指标法、结构计量法等.本文考虑了房地产业开发周期长、财务核算复杂等涉税特点,经过多次试验比较,最终确定“机器学习法”作为税收流失测算的主体方法.和传统方法相比,机器学习法所表现岀的优
2、势有以下几方面:(1)采用的微观数据为大样本数据,有利于全面描述房地产企业的行为规律;(2)机器学习法构建的模型以数据为导向,能够自学习、自适应、自训练,更能适应经济周期不稳定、房地产税收环境复杂的特点;(3)机器学习法能够挖掘数据的相关性,适合涉税行为多样、财务核算复杂的房地产业.本文以A省房地产业税收数据为样本,运用机器学习法经过反复测试和修正,最终得到了较为可靠的税收流失测算结果.一、数据來源与模型设定(一)数据来源本文所取得数据来自A省税务机关的涉税数据,包括税务登记信息、屮报征收信息、财务报表信息、税务稽查信息、发票管理信息、釆集信息、代码维护信息7大类数据,共77张数据库表(105
3、331599条记录)和655个Excel文件表(45236224字节数)的微观数据量.经过数据的清洗与整备,选出了A省2011年度1951户、2012年度1302户房地产业纳税人.(二)模型原理本文测算微观税收流失的基本思路是运用机器学习法建立起纳税人生产经营状况(通过登记数据、屮报数据、财务数据等描述)和应纳税额关系的税慕模型,然后模拟出纳税人真实的生产经营状况及其应纳税额的关系,进而计算应纳税额,并在此慕础上测试相应的税收流失额•本文对房地产业企业所得税和营业税应纳税额的测算建模基于以下假设:一是多数的纳税人经营行为具有一定的一致性,即相似经营条件(同地域、同行业、同规模、同投入)的企业,
4、其经济行为如纳税规律应该相近.二是企业的财务报表数据是通过一定的准则对企业生产经营过程中资金过程进行会计核算的结果,能较为综合地反映企业的生产经营行为,数据可记载企业的行为.三是大量样本、大数据可以反映企业的行为规律,通过对数据的深度挖掘,能够达到预期目标.(三)算法选择考虑到A省税收数据的情况,本文组合使用了Bagging>决策树两种算法,主要原因如下:(l)Bagging采用重复取样,每个个体分类器所采用的训练样本都是从训练集中按等概率抽取的,因此Bagging的各子网能够很好的覆盖训练样本空间,从而有着良好的稳定性.同时lagging对数据的抗干扰能力较强,适合公司规模大小有差异、注册登
5、记类型不同的房地产业,避免因为业务发生的偶然性而失去观测值的“独立同分布''.(2)决策树法是数据挖掘分类算法的一个重要方法,由于A省数据来源多、覆盖面广,对于决策树数据的准备要求较低,而且能够同时处理数据型和常规型属性,特别是能对分布失衡的分类变量自助划分,在相对短的时间内能够对大型数据源做出可行且效果良好的结果.(四)变量选择有监督的机器学习问题可以形式化地表示为已知目标变量y与输入x之间存在一定的未知依赖关系,即存在一个未知的映射F(x,y),通过逼近函数反复地训练调整,使预测的期望风险降到最小,以找到最佳的F(x,y)近似目标函数.根据研究目的,本文选择的日标变量为企业所得税、营业税这
6、两个税种的应纳税额.而对于参与变量,原始数据中可供选择的指标很多,但这些指标并非全部有助于税收流失测算,反而可能因为变量之间的相关性、噪声变量等降低模型的有效性•运用传统的聚类方法、因子分析、逐步回归等进行自变量选择是比较繁琐、艰难的工作,机器学习支持全样本、全变量参与,符合大数据分析的需求•所以,本文运用了机器学习法中的噪声稳健性算法(具体算法不再赘述)计算各变量的重要性排序,并以此确定营业收入、利润总额、营业利润、财务费用、管理费用、应纳所得税额等为参与变量.(五)模型评估本文总结出模型的有效性包括理论模型有效性确认、数据有效性确认和运行有效性确认等三部分.以下将通过模型输出对上述三方面进
7、行评估:1.理论有效性确认.本文运用交叉验证(Crossvalidation)法进行判断.其基本原理为:先以一个子集做分析,而其它子集则用來做后续对此分析的确认及验证•初始子集被称为训练集,而其它子集则被称为验证集或测试集.交叉验证一般需满足:⑴训练集的比例要足够多,一般大于50%;(2)训练集和测试集要均匀抽样.本文的交叉验证结果表明训练集误差率很小,说明机器学习法逼近数据相关性的能力很强•外推
此文档下载收益归作者所有