基于数据挖掘技术的保险行业决策分析研究

基于数据挖掘技术的保险行业决策分析研究

ID:16142097

大小:21.24 KB

页数:15页

时间:2018-08-08

上传者:xinshengwencai
基于数据挖掘技术的保险行业决策分析研究_第1页
基于数据挖掘技术的保险行业决策分析研究_第2页
基于数据挖掘技术的保险行业决策分析研究_第3页
基于数据挖掘技术的保险行业决策分析研究_第4页
基于数据挖掘技术的保险行业决策分析研究_第5页
资源描述:

《基于数据挖掘技术的保险行业决策分析研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

基于数据挖掘技术的保险行业决策分析研究摘要:本文针对目前保险行业信息管理的现状,提出数据挖掘技术对保险行业窟的重大影响,简要说明了“保险行业决策系统”项目及翕其对挖掘算法的改进等。并竣通过实验论证了改进算法的蹀优势,通过分析结果展示了数据挖掘技术能使保险行业烙有效地利用现有数据实现经菏营目标,预测保险业的企业逞在激烈的市场竞争中获得先倭机。就保险行业而言,目前钽具有广阔的市场需求。2项目说明本项目开铱发了“保险行业决策系统”嘁。本系统操作主界面利用a边sp编程实现:数据预处理贸、客户购买险种分析、客户墟购买习惯分析、分析结果输侗出等功能;后台数据库利用陴sqlserver201鳎7网络数据库实现;挖掘工柃具采用spsscleme唁ntine;在研究实验阶♀段,针对apriori算▲法存在的“存储复杂度”及赣“大量冗余规则”两大缺点汜进行了算法改进,通过利用箭一个模式树结构来降低ap乓riori算法的存储复杂15/15 度,并同时减少冗余规则的出现。本系统共分:数贩据预处理、客户购买险种分觯析、客户购买习惯分析、分χ析结果输出等主要功能模块肩。(1)“数据预处理醯”模块包括:上传、数据平氕台、数据处理、统计、生成饽数据集等功能。●上传蜴:可完成保险总公司下设所酒有分公司数据的上传。尤●数据平台:在数据上传前唠允许对数据平台进行选择。操●数据处理:对数据进行清理、格式转换等操作。窝●统计:对经过预处理的数据进行分析,提取有效水性数据。●生成数据集:将统计过程提取的有效数玺据生成数据集,为数据挖掘提供较高质量的数据源。l玑oCAlHOSt(2洙)“客户购买险种分析”模呔块包括:数据导入、参数设撺15/15 定、结果分析等功能。Ⅳ●数据导入:在此操作界面┵上,可通过选择不同数据平歇台将经过“数据预处理”生赣成的数据集分别导入。饺●参数设定:在此操作界面螺上设定“支持度”“置信度蛩”等参数,对有效数据集中张有分析价值的数据记录范围进行筛选。●结果分析拼:在此操作界面上可将“客侑户购买险种分析”的最终分析结果以“报表”、“图表仳”形式展示,此分析结果为行业提供了“同一客户购买狳本公司多种(次)保险”的客户信息,进而为行业提供檄了“可争取客户”的决策依哪据。(3)“客户购买牦习惯分析”模块包括:数据垦导入、参数设定、结果分析缠等功能。●数据导入:名此操作同(2)“客户购买蜿险种分析”模块中的“数据㈨导入”。●参数设定:在此分别设定“输入参数”嗣15/15 (包括:年龄、性别、职业薹等客户基本信息)及“输出铼参数”(客户购买的险种信萧息)。●结果分析:通甥过此操作界面可展示出客户冼购买习惯的分析结果,进而ぞ为行业提供了“可保持客户甭”的决策依据。(4)“分析结果输出”模块包括竺:“客户购买险种分析”“恰客户购买习惯分析”等分析畀结果的打印输出功能。3项目中改进的快速算法由于apriori算法撬存在时间空间复杂度高及产馔生大量冗余规则两大缺陷。廊因此本项目通过利用一个模式树结构来降低aprio胺ri算法的存储复杂度,并曹同时减少冗余规则的出现。蟾一个模式树的结构鳇root是一个标为“nu麾ll”的根结点,root〃15/15 以下是作为根结点的孩子的是项目前缀子树集合,以及项陂目头表组成;树中的每一结嵯点包含四个域user_i细d,count,nodeⅤ_link,node_n庭ext。其中,user_αid为user的标记(唯瞻一标识一个user),c妒ount为该父结点到达该脂结点的路径的数目,nod瑰e_link指向树中具有嗯相同的user_id的下凋一个结点的下一结点,当下筝一个结点不存在时,nod咦e_link为null,node_next指向树屁中其子结点;项目头表的每安一表项包含三个域:use莅r_id,count,h茕eadofnode,us懊er_id与树中的定义相垩同,count为树中所有郇相同user_id之和,headofnode指向伦树中具有相同user_i飧d值的首结点的指针。铡建立模式树算法如下:设事务数据库为a,其中程的一个项集为ai。算澌法:patterntree(tree,p),构造忮模式树输入:用户事务潜数据库a15/15 输出:用户模|式树procedur烨epatterntree徂(t,p){create_tree(t);/渠/创建pattern-t寸ree的根节点,以“nu烹ll”标记t=t;/踬/t为当前结点whi躇leanulldo{读入一个事务数据库项集a范iwhilep!=n港ulldo{if莼_id==t的祖先_id15/15 then{=+l往;t=n;}民elseif_id==tⅫ的孩子_idthen侍{=+l;t=c;}else15/15 镊insert_patterntree(t,p);//把p作为新结点插入树早中,作为当前结点的孩子结福点p=;}}}对模式树进行剪枝酏模式树建立后,可能存痄在大量的冗余的分枝,为了永保证数据挖掘结果不被这些疤冗余分枝产生的噪声所影响┐,因此需要对树进行剪枝,磔剔除噪声信息。算法:○spt(tree,a),笊通过调用此算法对模式树进行剪枝15/15 //spt为支两持度模式树,即sup蓓portedaccessゾpatterntree;佞a为项目头表输入:模垧式树patterntre表e,min_sup(模式习树的最小支持度)输出矩:经过修剪后的支持度模式据树spt,模式b={bi插|i=1,2,3……n}潞spt(tree,a徐){i=1;wh衰ile(ai!=null疸)//为项目头表的某一项{if(>=mi猷n_sup)then15/15 {模式bi=ofn两ode;p=ofno赔de;//p指向ai在模阡式树中的位置wh储ile(p!=nulla傺nd>=min_sup){查找p的前缀基,镆将p的前缀基和p连接,构渠成模式b;if(圭>=min_sup)能then15/15 {//为搞模式b中p与p的前缀基中ㄜ的最小计数在模式ゃbi中保留p及其前缀基;bi=bi.node_庀link}els葜e{根据模式b中灿的p及其前缀基删除p痞atterntree中的稚相应节点,重构子节点15/15 デ与父节点,同时修改项目头虮表中的ai;p=p.烫node_next//p指向在模式树中的下一篑个位置;}}吵}else{≤修改项目头结点的ai值;删除模式树中相应的节点及其前缀基,重构父子15/15 滠节点;i++;}飨}}通过模式徒树的建立可以避免多次扫描庀事务数据库;同时利用co紊unt域有效的保留了项集挂的数目,避免大量产生频繁鲚项集,对于减小空间时间复铘杂度起到了一定的作用。通髻过树形结构可以避免产生大㈨量冗余规则。通过对模运式树的剪枝,可以减除在模倭式树产生过程中产生的大量伥冗余分枝,起到了减小空间复杂度的作用,同时可以利用输出模式b产生规则,避免了多项集的频繁出现,减牛小了时间复杂度。15/15 毁4结束语本项目中通过锴模式树结构改进了apri饩ori算法,弥补了apr跹iori算法存在的缺陷。沽此种方法既能够对apri写ori算法从时间复杂度和π空间复杂度上进行改进,同佼时又避免了中间规则的产生≥。本研究表明,通过利用一踊个模式树结构来降低apr已iori算法的存储复杂度逵,并同时减少冗余规则的出帔现,这对于apriori夏算法的改进是一种有效的措诟施。参考文献津[1]邓纳姆.数据挖掘教竟程[m].郭崇慧,田凤占,靳晓明,等译.北京:清匦华大学出版社,2017.[2]苏新宁,杨建林叮,江念南,等.数据仓库和吡15/15 数据挖掘[m].北京:清人华大学出版社,2017.[3]galcs,k绝antorpb,shap擢irab.securit馋yinformatics蛮andterrorism┰:patrollingt婪heweb.amster问dam:iospress乱,2017.[4]b襄orgesj,leven莺em.evaluatingvariablelen娟gthmarkovcha读inmodelsfora狻nalysisofuse霜rwebnavigationtransactio推nsonknowledg·eanddata,19(锭4):441-452.15/15

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭