关联规则挖掘技术在人寿保险行业中的应用

关联规则挖掘技术在人寿保险行业中的应用

ID:26314833

大小:49.50 KB

页数:5页

时间:2018-11-26

关联规则挖掘技术在人寿保险行业中的应用_第1页
关联规则挖掘技术在人寿保险行业中的应用_第2页
关联规则挖掘技术在人寿保险行业中的应用_第3页
关联规则挖掘技术在人寿保险行业中的应用_第4页
关联规则挖掘技术在人寿保险行业中的应用_第5页
资源描述:

《关联规则挖掘技术在人寿保险行业中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、关联规则挖掘技术在人寿保险行业中的应用摘要人寿保险行业在激烈的市场竞争中生成了大量的保单业务,如何对这些海量信息进行深层次的分析与挖掘,让其发挥巨大的增值作用。针对这一问题,利用关联规则挖掘技术从人寿保单数据中,分析投保人的各项特征与索赔的内在关系,所得到的结论对保险公司的业务发展具有重要的指导意义。关键词关联规则;数据挖掘;人寿保险1引言近年来,数据密集型的保险行业经过多年的运营,也已经积累了海量的历史数据,这些数据是公司的重要财富。要从这些大量数据中获取能给公司带来无限商机的有价值信息,急需更高效的数据处理方法和技术。此时数据挖

2、掘技术显示出了它特有的优越性。12关联规则挖掘技术数据挖掘(DataMining)是一个利用各种分析技术和工具从大量数据中提取有用知识的过程。它是一门交叉学科,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。它包含很多技术与方法,其中关联规则挖掘是一项非常重要的技术,是数据挖掘的一个主要研究方向。迄今为止,关联规则挖掘已经被应用到很多领域,例如零售业、市场营销、医学等,为各个领域的决策支持提高了一个有效的手段。关联规则挖掘是由R.Agral:namespaceprefix=vns="urn:schemas

3、-microsoft-:vml"/>在交易数据集D中具有置信度c。这是条件概率P。即SupportP()=P(),ConfidenceP()=p()。满足最小支持度阈值和最小置信度阈值的关联规则就称为强规则。这两个阈值均在0%到100%之间。挖掘关联规则主要包含以下二个步骤[2]:(1)发现所有的频繁项集,根据定义,这些项集的支持度至少应等于(预先设置的)最小支持度阈值;(2)根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小支持度阈值和最小置信度阈值。3关联规则挖掘技术在人寿保险行业中的应用人寿保险行业在日常

4、的经营过程中,经常会遇到这样一些问题:如何能更好的理解客户,挽留有价值的投保人,对不同行业的人、不同年龄段的人、处于不同社会阶层的人的保险金额度该如何确定。这些问题都是影响公司经济运营的重要因素。为了更好的掌握投保人的特点及合理的制定保险金额度,可以利用关联规则挖掘来发现投保人与索赔的关系,分析具有什么特征的投保人曾经向保险公司索赔过。3.1关联规则挖掘的基础数据为了研究投保人与索赔的关系,我们从某城市一家人寿保险公司的历史保单数据库中提取出相关数据,把其整合到关系表中进行关联规则挖掘。下面的表1为整合之后的信息。3.2基于概化的数

5、据预处理为了更好的进行关联规则挖掘,要对表1中的基础信息进行基于概化的数据预处理,具体的概化处理方法为:①用符号A描述年龄,把年龄进行分段概化为:A1(£25岁),A2(25-35岁),A3(35-45岁),A4(³45岁)。②用符号B描述性别,B1表示“女”,B2表示“男”。③用符号C描述健康状况,C1表示良好,C2表示一般,C3表示较差。④用符号D表示工作单位,工作单位为外资企业的表示为D1,非外资企业的表示为D2。⑤用符号E表示工资档次,分别概化为:E1(高),E2(较高),E3(中),E4(低)。⑥用符

6、号F表示投保人是否曾向保险公司索赔过,F1表示曾经索赔过,F2表示未曾索赔过。根据上述方法对表1中的数据进行概化的结果如表2所示:表1基础数据编号年龄性别健康状况工作单位工资档次是否曾索赔00147男一般摩碧聂斯电装有限公司高是00236女良好新世纪学校中否00329女良好府新大厦较高否00449男较差昌美达电子低是00541男一般新阳光医院高否00650男良好志高缝纫中是00724男良好《摩托车》杂志社中否00845女一般蒲项不锈钢低是00923女良好雅倩美发中心较高否01046男较差易和基业较高是表2基础数据概化结果编号年龄性别

7、健康状况工作单位工资档次是否曾索赔001A4B2C2D1E1F1002A3B1C1D2E3F2003A2B1C1D2E2F2004A4B2C3D1E4F1005A3B2C2D2E1F2006A4B2C1D1E3F1007A1B2C1D2E3F2008A4B1C2D1E4F1009A1B1C1D2E2F2010A4B2C3D1E2F13.3关联规则挖掘过程由关联规则的概念和表2的概化结果,可得出项目集合为{A1,A2,A3,A4,B1,B2,C1,C2,C3,D1,D2,E1,E2,E3,E4,F1,F2},我们目的是要分析投保人的各

8、方面情况和索赔情况之间内在的关联规则。假设关联规则的支持度至少为40%,置信度至少为80%。进行关联规则挖掘过程如下:(1)首先利用基于事物压缩的Apriori算法找出频繁项集如图1所示。(2)找出支持度至少为40%而且置信度至少为8

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。