数据挖掘技术在汽车保险中应用

数据挖掘技术在汽车保险中应用

ID:32983622

大小:58.57 KB

页数:7页

时间:2019-02-18

数据挖掘技术在汽车保险中应用_第1页
数据挖掘技术在汽车保险中应用_第2页
数据挖掘技术在汽车保险中应用_第3页
数据挖掘技术在汽车保险中应用_第4页
数据挖掘技术在汽车保险中应用_第5页
资源描述:

《数据挖掘技术在汽车保险中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘技术在汽车保险中应用【摘要】介绍数据挖掘中的关联规则挖掘技术在汽车保险中的实际应用,关联规则分析汽车保险中的风险因素与赔付率之间的关系。得出的关联规则对车险行业的决策和发展有一定参考指导意义。【关键词】数据挖掘;关联规则;风险一•数据挖掘及关联规则介绍数据挖掘(DataMining,DM)又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在的有

2、用信息和知识的过程。从商业企业的角度讲数据挖掘可以描述为:按照企业既定业务目标,对大量的企业数据进行分析和探索,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。关联规则挖掘是数据挖掘中的重要课题和研究方法。最早是由Agrawal等人提出的,关联规则挖掘可以发现存在于数据库中的项目或属性间的隐含关系[1]o关联规则的一

3、般定义如下:1={11,12,…,Im}是一项目集,D是一事务数据库,D中的每个事务T都是I的子集即TEI.每个事务都有一个标识符,称为TID.若A是一项目集,当且仅当ACT时,我们就说事务T包含了A。一条关联规则就是形如A=>B的蕴含关系。其中A包含于I,B包含于I且APB为空集•如果D中包含AUB的比例是s,就称关联规则A=>B在D中的支持度为s,也可以表示为概率P(AUB);如果D中包含A的同时也包含B的比例是c,则说关联规则AB的置信度为c,表示为条件概率P(B

4、A),就是:s=sup(A=>B)=P(AUB)c=conf(A=>B)=P(A

5、B

6、)=sup(AUB)/sup(A)给定事务集D,挖掘关联规则问题就是发现所有支持度(sup)和置信度(conf)分别满足最小支持度阈值和最小置信度阈值的规则。关联规则挖掘的步骤[2](1)找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样,即所有满足最小支持度的项集的集合。(2)由频繁项集中产生相应的强关联规则。根据定义,这些规则必须满足最小支持度和最小置信度。即确定规则A二〉B是否有效,可以令:r=sup(AUB)/sup(A),当且仅当r>min_conf时,规则有意义(其中min_conf为最小置信度)。(3)解释并输出规则步骤一是

7、关联规则发现算法设计的核心问题,因为它的效率高低是算法的关键.由于Apriori关联规则算法[3]需要产生大量候选项集,资源消耗巨大,效率低。而FP-Growth关联规则算法只需扫描一次数据库,对系统资源的消耗较小,效率相对较高。因此,对于海量数据的保险信息系统,本文选用FP-Growth算法进行关联规则挖掘.二.关联规则挖掘在车辆保险中的应用1•数据准备数据准备是数据挖掘过程的先决条件,数据质量将直接影响数据挖掘的效率和准确度以及最终规则的合理有效性。本文选取某大型保险公司省级公司近8年车险数据库数据进行挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况

8、、地理环境、气候条件、社会环境、经营管理等因素,为此研究这些因素与风险的关系,并结合实际情况和对风险的影响程度,从中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等21个属性进行关联规则的挖掘整理归纳。2.数据离散化和去冗余[4]利用计算机对数据库的海量数据进行分析挖掘,需要对连续的数据作离散化工作。年龄、保额、投保出险日期、赔付率都是连续的数据。为了离散量化,根据情况和计算机

9、编程计算的需要可将这些数据分为几类。例如,年龄分为al(<20岁),a2(20-25岁),a3(25-34岁),a4(35-45岁),a50=46岁),将日期按提取数据年份年分为8年,每年具体日期按月分为12个值。将赔付率划分为[00,]、(0,10%]、(10%,30%]、(30%,50%]、(50%,70%]、(70%,100%]、(100%,200%]、(200%,300%]、(300%,+^]九类。去除由于误操作输入产生的明显不合逻辑和业务要求的垃圾数据。3•确定关联规则的支持度至少为35%,置信度至少为80%。进行关联规则挖掘过程如下:1)利于

10、FP-Growth算法找出频繁项集。2)找出满足支持度和置信度的强关联规则。由于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。