数据挖掘技术在汽车保险中的应用

数据挖掘技术在汽车保险中的应用

ID:21668268

大小:55.00 KB

页数:6页

时间:2018-10-23

数据挖掘技术在汽车保险中的应用_第1页
数据挖掘技术在汽车保险中的应用_第2页
数据挖掘技术在汽车保险中的应用_第3页
数据挖掘技术在汽车保险中的应用_第4页
数据挖掘技术在汽车保险中的应用_第5页
资源描述:

《数据挖掘技术在汽车保险中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘技术在汽车保险中的应用【摘  要】介绍数据挖掘中的关联规则挖掘技术在汽车保险中的实际应用,关联规则分析汽车保险中的风险因素与赔付率之间的关系。得出的关联规则对车险行业的决策和发展有一定参考指导意义。  【关键词】数据挖掘;关联规则;风险  一.数据挖掘及关联规则介绍  数据挖掘(Data Mining,DM)又称数据库中的知识发现(Kno}是一项目集,D是一事务数据库,D中的每个事务T都是I的子集即T∈I.每个事务都有一个标识符,称为TID.若A是一项目集,当且仅当A∈T时,我们就说事务T包含了A。一条关联

2、规则就是形如A=>B的蕴含关系。其中A包含于I,B包含于I且A∩B为空集.如果D中包含A∪B的比例是s,就称关联规则A=>B在D中的支持度为s,也可以表示为概率P(A∪B);如果D中包含A的同时也包含B的比例是c,则说关联规则AB的置信度为c,表示为条件概率P(B

3、A),就是:  s=sup(A=>B)=P(A∪B)  c=conf(A=>B)=P(A

4、B)=sup(A∪B)/sup(A)  给定事务集D,挖掘关联规则问题就是发现所有支持度(sup)和置信度(conf)分别满足最小支持度阈值

5、和最小置信度阈值的规则。  关联规则挖掘的步骤[2]  (1)找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样,即所有满足最小支持度的项集的集合。  (2)由频繁项集中产生相应的强关联规则。根据定义,这些规则必须满足最小支持度和最小置信度。即确定规则A=>B是否有效,可以令:  r=sup(A∪B)/sup(A),当且仅当r>min_conf时,规则有意义(其中min_conf为最小置信度)。  (3)解释并输出规则  步骤一是关联规则发现算法设计的核心问题,因为它的效率高低是算法的关

6、键.  由于Apriori关联规则算法[3]需要产生大量候选项集,资源消耗巨大,效率低。而FP-Growth关联规则算法只需扫描一次数据库, 对系统资源的消耗较小,效率相对较高。因此,对于海量数据的保险信息系统,本文选用FP-Growth算法进行关联规则挖掘.  二.关联规则挖掘在车辆保险中的应用  1.数据准备  数据准备是数据挖掘过程的先决条件,数据质量将直接影响数据挖掘的效率和准确度以及最终规则的合理有效性。本文选取某大型保险公司省级公司近8年车险数据库数据进行挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况

7、、地理环境、气候条件、社会环境、经营管理等因素,为此研究这些因素与风险的关系,并结合实际情况和对风险的影响程度,从中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等21个属性进行关联规则的挖掘整理归纳。  2.数据离散化和去冗余[4]  利用计算机对数据库的海量数据进行分析挖掘,需要对连续的数据作离散化工作。年龄、保额、投保出险日期、赔付

8、率都是连续的数据。为了离散量化,根据情况和计算机编程计算的需要可将这些数据分为几类。例如,年龄分为a1(<20岁),a2(20-25岁),a3(25-34岁),a4(35-45岁),a5(>=46岁),将日期按提取数据年份年分为8年,每年具体日期【摘  要】介绍数据挖掘中的关联规则挖掘技术在汽车保险中的实际应用,关联规则分析汽车保险中的风险因素与赔付率之间的关系。得出的关联规则对车险行业的决策和发展有一定参考指导意义。  【关键词】数据挖掘;关联规则;风险  一.数据挖掘及关联规则介绍  数据挖掘(Data 

9、Mining,DM)又称数据库中的知识发现(Kno}是一项目集,D是一事务数据库,D中的每个事务T都是I的子集即T∈I.每个事务都有一个标识符,称为TID.若A是一项目集,当且仅当A∈T时,我们就说事务T包含了A。一条关联规则就是形如A=>B的蕴含关系。其中A包含于I,B包含于I且A∩B为空集.如果D中包含A∪B的比例是s,就称关联规则A=>B在D中的支持度为s,也可以表示为概率P(A∪B);如果D中包含A的同时也包含B的比例是c,则说关联规则AB的置信度为c,表示为条件概率P(B

10、A),就是:  s=

11、sup(A=>B)=P(A∪B)  c=conf(A=>B)=P(A

12、B)=sup(A∪B)/sup(A)  给定事务集D,挖掘关联规则问题就是发现所有支持度(sup)和置信度(conf)分别满足最小支持度阈值和最小置信度阈值的规则。  关联规则挖掘的步骤[2]  (1)找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样,即所有满

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。