欢迎来到天天文库
浏览记录
ID:14979804
大小:585.08 KB
页数:24页
时间:2018-07-31
《医疗欺诈的主动发现数模论文--175397377》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、医保欺诈行为的主动发现摘要本文所致力于解决的问题为“摘取可能的医保欺诈记录”,而在解决问题的过程中最大的难点在于数据中有可能混杂着大量的虚假数据,对分析有着较大的影响。我们对问题进行了全面的分析,将问题化解为三个阶段,化繁为简进行分析。首先,我们对研究对象进行了分类。我们查询了多份权威论文,对可选择影响因素进行了查找与筛选,并利用SPSS,对数据进行了整理、选择、分析,得到了年龄与医保消费最为相关的结论。然后,我们以年龄为自变量,套用样本选择模型、二部模型,并利用MATLAB对数据进行拟合、求解未知系数,并得
2、到了最接近于正常消费的“费用—年龄关系”和“频率-年龄关系”。以此为基础,我们初步筛选出了可能的医保欺诈数据。最后,我们参考了“接近死亡效应假说”,进一步建立模型,对得出的结论进行修正,得到最准确的结论。【1】本文的亮点在于,一是利用统计学知识,对给出的数据进行了一定的整理与筛选,对一部分无效数据进行了舍弃;二是在样本中可能充斥着大量虚假数据的情况下,选择样本选择模型来处理数据,使得结果最接近于真实【2】;三是加入了“接近死亡效应假说”,对于现有的医保欺诈计算模型进行了一定的修正。24目录医保欺诈行为的主动发
3、现1摘要1关键词2问题重述2问题分析3数据处理4一.影响医保消费因素研究5软件应用5模型假设与符号说明6模型求解7结果分析8二.“医保消费—年龄关系”的准确关系及初步结论8模型假设与符号说明9模型求解10模型的优缺点13结果分析13三.模型结果的稳健性检验和模型修正14数据筛选14结果分析15结果分析15参考文献18附录19附录一19附录二19附录三19附录四22关键词医保欺诈,“医保消费—年龄模型”,样本选择模型,接近死亡效应假说,SPSS,MATLAB。问题重述24医疗保险欺诈,是指公民、法人或者其他组织
4、在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。注:数据中病人姓名、身份证号、电话号码、医保卡号为非真实数据。数据见2.12.22.32.42.52.6问题分析问题的要求为:在给出的大量信息中,建立模型,对数据进行分析
5、,通过对医保单张消费金额和医保消费的频率进行统计学计算,得到大致的医保欺诈数据,最后修改模型,确定可能的医保欺诈数据。因此,我们对问题进行了初步分解:第一步,大量查阅专业医学资料,尽力对正常状态下病人的消费情况进行了解。对相关的研究进行总结,总结出可能的影响因子,对影响因子进行筛选,对一些确定为欺诈的数据进行舍弃,利用SPSS对数据进行初步统计与处理,求得影响因子与正常的医保消费单张费用及频率的关系。第二步,参考“样本选择模型”建立模型,用MATLAB对数据进行处理,初步筛选出可能的医保欺诈数据。第三步,参考
6、“接近死亡效应假说”,将上一步得到的结果代入原数据中,查看其死亡时间,对已死亡的数据进行舍弃,对模型进行修正。进而,我们对各步骤进行了深入的思考。第一步,为了更好的对数据进行筛选,我们需要对研究主体进行分类。在查阅了大量相关文献之后,我们发现医学上认为,可能影响一个人的医疗消费单张费用及频率的因素有年龄、收入、性别、是否参加医疗保险、婚姻状况、当地医疗资源丰富程度、医学发达程度、教育程度等。阅读题目可以知道,在我们的分析中,不需要考虑当地医疗资源丰富程度、医学发达程度、是否参加医疗保险,因为这些是该医院中每个
7、患者所共享的一致因素,是非变量因素。在给出的信息中,并没有关于收入、婚姻状况教育程度的数据,因此我们不得不放弃了对这些影响因素的讨论。然后我们又阅读了大量论文,发现性别对于医保消费的费用及频率的影响非常小,并且是否有影响争议较大,因此在我们的数据拟合中可以忽略。在我们参考的大多数论文中,作者都认为年龄与医保消费费用及频率有极大的相关性,为了确定我们所持有的数据中年龄是否与医保消费的单张消费额和频率有关,我们抛弃了一部分明显欺诈的数据,然后利用SPSS专业数据统计软件对数据进行了分析拟合,得到了大概的对应关系,
8、建立“医保消费—年龄模型”。第二步,在进行深入的模型建设的过程中,我们发现了一个问题,那就是数据中可能存在一部分的虚假信息,我们不能够预知它的规模,对我们的分析结果会造成比较大的影响。因此,我们选择了样本选择模型,并反其道而用之,用现有的所有数据推测原有的可靠数据。我们又加入了二部模型,以追求数据的更加准确。与一般使用的筛选模型不同的是,样本选择模型不是先计算,再筛选出不符合的数据,而是先对数据进行
此文档下载收益归作者所有