欢迎来到天天文库
浏览记录
ID:13425007
大小:327.00 KB
页数:47页
时间:2018-07-22
《基于数据挖掘的edp-crm系统设计及实现毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
毕业设计论文基于数据挖掘的EDP-CRM系统设计及实现 摘要CRM(CustomerRelationshipManagement)系统的目的在于建立一个整合客户服务、市场竞争、销售以及技术支持的系统,为企业带来长久的竞争优势。作为一种典型的交互式系统,CRM系统是企业管理中信息技术和应用解决方案的集成。它既是管理客户关系的一系列信息技术、方法和措施,又是运用信息技术将企业涉及的销售、客户服务、内部管理等业务流程自动化的软件及硬件系统。而随着企业对CRM系统的长期使用,会积累大量的数据,他们迫切需要从现有大量数据中提取出数据中潜在的知识,因此对CRM系统进行数据挖掘的需求已经必不可少。本文以某高校EDP-CRM项目为背景,介绍了CRM系统中客户管理模块和数据挖掘模块的设计与实现。通过该EDP-CRM系统,既可以方便地对客户开展基本的客户管理、产品管理、售后管理等客户管理功能,又可以在此基础上对现有数据进行聚类、分类、关联、时间序列分析等数据挖掘操作。本文主要研究在数据挖掘的基础上构建CRM系统的技术。围绕某高校EDP-CRM系统的客户关系管理和数据挖掘两大功能模块进行了详细的研究分析。文中详细介绍了客户关系管理系统和数据挖掘技术。首先,客户管理模块着重介绍了模块的软硬件架构,流程设计和功能实现,从而保证CRM系统的基本功能的实现。而数据挖掘模块描述了模块实现的流程和技术,并在系统现有功能情况基础上,作者研究了数据挖掘的建模方案,主要重点讨论了数据仓库的构建模型和构建过程,从操作型环境抽取数据并导入数据仓库方法,对数据进行综合处理的实现技术,以及后期数据如何追加到数据仓库的机制,并详细介绍了关联规则挖掘模型,聚类挖掘模型和分类挖掘模型的实现技术。在确定了系统的关键技术后,完成了其CRM的系统的设计和实现。最后作者总结全文,并提出了进一步工作的方向。 第一章绪论一、研究背景及研究意义随着市场对知识要求的提高,越来越多的企业高层对知识在企业竞争发挥的作用有了深刻认识,EDP教育也逐步发展起来。但是,当前EDP教育产业在国内由于发展时间较短,也存在一些问题影响EDP教育的进一步发展,其中,如何在激烈的市场竞争环境下开发和占领市场以使EDP教育产业获得生存和发展是决定一个EDP教育产业能否良性发展的关键问题。为了解决这个问题,客户资源的有效利用是一个关键。对于现代企业来说,客户资源正成为最具价值的资产,建立客户信息数据库,对这些最有价值的资产进行有效管理,成为企业的核心任务之一。EDP教育产业也是如此。因此,在解决客户资源管理环节,EDP教育产业也可以借鉴其他产业的经验,将CRM(CustomerRelationshipManagement,客户关系管理)引入到EDP教育的客户资源管理之中。CRM是90年代西方发展起来的新型的管理策略,它在国外的应用己经取得了极大的成功,而我国对它的认识和应用才刚刚起步。当今许多企业的CRM数据库或数据仓库中都搜集和存储大量关于客户的宝贵数据,这些数据涵盖了从客户基本数据、购买记录及客户反馈的个个环节。充分利用这些数据,深入分析、挖掘隐含在这些数据中的有用信息,将有助于企业更好地管理客户关系,实现CRM的功能和目标。然而,由于缺乏在大量数据中发现深层次信息的能力,许多企业对于这些数据的利用还只是停留在基础层的浏览、检索、查询和应用层的继承、组合、整理等方面,而无法将这些数据转化为更加有用的知识。因此,如何更加有效地管理企业数据库中快速增长的海量数据,将数据资源的利用提高到知识创新的高级阶段,己经成为企业当前需要迫切解决的问题,数据挖掘(DataMining,简称DM)技术的运用就可以帮助企业很好地解决这个问题。 所谓数据挖掘,简单地说,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘作为一门交叉学科,受到多门学科的影响,包括数据库系统、统计学、机器学习、可视化和信息科学。需要特别指出的是,数据挖掘从一开始就是面向应用的,因此如何利用数据挖掘技术解决特定领域的问题,是研究数据挖掘应用的核心问题[1][2][3][4]。近年来,该技术已经在商务管理,生产控制,市场分析,工程设计和科学探索等领域得到广泛的应用。综上所述,为了解决EDP教育中存在的客户关系管理混乱无序的现状,本文将根数EDP教育的特点设计EDP-CRM系统并将其实现,并为了进一步开发客户关系中的潜在的价值,将数据挖掘技术引入到EDP-CRM系统之后,通过对客户资源进一步进行细分,提高客户开发的效率,并对客户资源进行进一步的有效开发,从而达到有效利用客户的价值目的。二、国内外研究综述(一)国外研究现状1、数据挖掘研究现状随着信息技术的迅猛发展,数据库的规模不断扩大,从而产生了大量的数据。这些数据背后隐藏着许多重要的信息,人们希望通过对这些信息进行更高层次的分析,以便更好地利用这些数据。但大量复杂的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的[5,6]。数据挖掘最早出现在20世纪80年代后期,它是在计算机信息技术的基础上发展而来的,而数据挖掘的概念是1989年在美国底特律召开的第十一届国际联合人工智能学术会议上最早被正式提出来。此次会议首次正式提出了KDD(KnowledgeDiscoveryin Database)这个术语。并且在后来的1991年、1993年和1994年都举行了关于KDD的专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着与会人员的不断增多,KDD国际会议发展成为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议21不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。经历十多年的发展,数据挖掘已经成为一个自成体系的应用学科。目前,国外数据挖掘的发展趋势及其研究主要有以下方面:Berry和Linoff[7]主要侧重于基于数据挖掘的商务应用对数据挖掘进行了介绍;Fayyad等[8]介绍了数据挖掘以及如何将数据挖掘与整个知识发现过程协调;Lambert[9]考察统计学在大型数据集上的应用,并对数据挖掘与统计学各自的角色提出一些评论;Glymour等[10]考虑统计学可能为数据挖掘提供的教训;Smyth等[11]讨论诸如数据流、图形和文本等新的数据类型和应用如何推动数据挖掘演变。在数据挖掘的应用方面,数据挖掘技术使得KDD商业软件工具不断完善和发展,使得KDD更注重建立解决问题的整体系统,而不是孤立的过程。数据挖掘的用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM[12]。2、CRM研究现状客户关系管理(CRM)的理论基础来源于西方的市场营销理论,它是在关系营销和数据库营销基础上诞生的一种全新的管理模式。和客户关系管理相关联最早的理论应该算是20世纪80年代初的“接触管理”(ContactManagement),即专门收集整理客户与公司联系的所有信息。到20世纪90年代初期这一理论则演变成为包括电话服务中心与支持资料分析的客户关怀(CustomerCare),后来又从重视赢得新客户和处理基础营销工作逐渐转移到对客户关系进行有效管理的客户保持工作上来[13]。客户关系管理这个名词首先从北美传出,但是一般认为把客户关系管理理论最早概念化的是美国的计算机咨询集团——GartnerGroup,该机构在1997年提出:客户关系管理就是为企业提供全方位的管理视角,赋予企业更完善的客户交流能力,最大化客户的收益率[14]。 在“客户关系管理”被正式提出之后,国外涌现出了很多关于实施客户关系管理的研究著作。如StanleyA.Brown[15]《Customerrelationshipmanagement:astrategicintheworldofe-business》一书,对客户忠诚、客户关怀、客户获得等客户战略问题,网络、工作流管理、数据仓库、数据挖掘等技术问题进行论述。JillDyche[16]所著的《TheCRMhandbook:abusinessguidetocustomerrelationshipmanagement》是一本涉及到客户关系管理各个层面的著作。JoePeppard[17]等提出了基于企业电子商务、渠道管理、关系管理和前后端办公室整合的客户关系管理框架,对金融服务业的客户关系管理进行了研究。国外很多学者根据实际的经验,针对实施客户关系管理的一些问题提出了自己的观点。这些研究成果对于成功地实施客户关系管理提供了很好的借鉴经验。商业战略家和演讲家弗列德·威尔斯马在《客户联盟》中通过对大量国际上享有盛名的企业进行调查和细致研究,全面阐述了被这些成功企业大量运用并被证明是行之有效的新型商业运作模式—客户联盟,同时对客户关系管理及客户联盟的概念及关系做了深入的阐述。Lawrence认为客户关系管理并不只是收集、存储、处理客户信息,它应该对客户服务进行根本性的改变。客户关系管理需要的是由技术支持的商业战略,而不仅仅是削减营销成本或与客户更有效地进行交互。实施客户关系管理需要围绕关系战略重新设计和分配相关流程、技术和人力资源。PaulineA.Wilcox提出,一个高效的客户关系管理战略需要引入以客户为中心的企业文化。3、数据挖掘在CRM中的研究现状目前,学者们已经意识到客户是极为重要的商业资源,随着数据挖掘技术的发展并引入到CRM之中,大大提高了企业CRM系统的运作效率。国外一些学者对数据挖掘在CRM系统中的应用作了重要阐述。Tillett.L.Scott[18]认为数据挖掘优化了CRM的服务功能,可以为客户服务提供准确的参考信息,提高对客户事务处理的能力。AdamRombe[19] 认为客户关系管理为客户与银行之间创建了一个沟通渠道,数据挖掘技术进一步优化银行内部的业务流程,使这一渠道变得更加高效与快捷,并且通过分析客户得交易行为,更好的了解客户和保留客户,挖掘客户的爱好和兴趣,从而以最快的速度响应客户的需求,为客户提供最优质的服务,极大地提高客户的忠诚度。GrothR[20]认为集成有数据挖掘技术的营销辅助工具可以提供高精确度的模式识别和预测功能,使商业人员有效地策划和开展营销活动。除了研究数据挖掘在CRM领域的应用之外,外国学者还研究了数据挖掘中的各种规则(如分类规则、聚类规则、关联规则等)在不同领域的CRM系统中的应用。ZengyouHe[21]向我们介绍了数据挖掘的概念、算法和应用,并将其应用到客户关系管理之中。接下来IrajMahdavi[22]对用一种带自主机制的聚类算法对e-CRM上的文档数据进行分析,从而设计了一种客户利益导向型的客户关系管理模式,然后,IrajMahdavi[23]进一步研究,着重研究一种自适应的遗传算法,通过遗传算法,将客户数据引导到以客户为中心上来进行客户关系管理。BeomsooShim[24]研究了关联规则和序列分析在小规模电子购物网站的客户关系管理中的策略,通过关联规则对客户进行分类从而实施不同的营销策略。(二)国内研究现状1、数据挖掘研究现状与国外相比,国内对数据挖掘的研究起步稍晚且不成熟。1993年国家自然科学基金首次支持我国在该领域的研究项目。目前,国内的许多科研单位和高等院校纷纷开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。除了这些学校和科研机构之外,我国的一些研究者也对数据仓库和数据挖掘的展开了研究。王毅凯、张大雷[32]描述了数据挖掘技术的概念,然后对数据挖掘系统的构成和数据挖掘的流程进行了介绍,最后详细分析了数据挖掘的常用方法。蔡雅琳[33] 对数据库中数据挖掘技术包括数据挖掘技术的产生背景、应用领域、分类及主要挖掘技术作了概述,还从模式识别的角度讨论了数据挖掘技术的重要任务,包括分类、回归、聚类和关联等4种模式的识别;列举了当前数据挖掘技术的实际应用并指出今后的发展趋势。唐笑林[34]论述了数据挖掘的概念、算法、实际的挖掘过程,分析了C5.0决策树算法。张雪松、毛云龙、檀竹南[35]总结并评价了国内外数据挖掘技术的发展现状,对各个领域的数据挖掘技术应用进行了系统的评价与综述。刘明亮、李雄飞、孙涛、许晓晴[36]在将数据挖掘标准划分为过程标准、接口标准、语言标准和Web标准等四类进行分析介绍后,给出一个综合多种标准的应用程序框架,最后总结出数据挖掘标准化领域面临的问题和挑战,并对发展趋势予以展望。王锐、马德涛、陈晨[37]论述了数据挖掘的主要方法以及对数据挖掘在国民经济和军事领域的应用作了介绍。2、CRM研究现状我国最初客户关系管理(CRM)是由国外的IT厂商基于软件的使用而引入的。1999年8月6日,朗讯科技公司商业通讯系统部在北京举办了以“营造完美电信呼叫中心”为主题的研讨会,介绍了其全新的客户关系管理解决方案,并强调指出,商业部门必须着眼于客户关系,提供独具特色的个性化服务,才能在网络时代中立于不败之地。国外先进管理理念的传入和信息时代的到来,为我国客户关系管理研究奠定了理论基础和技术支持。客户关系管理是在关系营销等理论基础上进一步发展起来的,它综合运用数据库、网络、图形图像、媒体、人工智能等技术,整合先进的管理思想、业务流程及信息技术于一体,构筑出现实信息平台的一种管理系统。我国的一些研究者也对客户关系管理展开了研究。陈旭[25]研究了客户关系管理的内涵和管理思想,分析了客户关系管理的主要功能,辨析了客户关系管理与SCM和ERP的关系,讨论了客户关系管理的发展趋势。成栋、宋远方[26]在研究当前各种客户关系管理的管理理论的基础上提出了客户关系管理的理论框架体系,以澄清客户关系管理与其他管理理论的关系。周权[27] 认为传统企业的销售、市场、客户服务及技术支持等部门的工作很多都是独立和垂立进行的,各部门的沟通存在障碍,客户关系管理能够解决上述的问砚。他主要介绍客户关系管理的概念、体系以及分析型客户关系管理的概念、特点、利弊问题的研究,重点立足于其业内一般性定义的分析型客户关系管理的利弊问题进行探讨。谢良安[28]提出实施客户关系管理的策略包括以客户为中心的商业战略、企业文化建设、利用信息技术对企业的业务流程进行重组。黄中实[29]认为实施客户关系管理的主要步骤包括拟定客户关系管理目标和实施路线,构建客户智能平台,构建客户交互平台,重新设计工作流程,绩效的分析与衡量。鲁江、熊燕[30]认为实施客户关系管理的关键因素包括:企业全体员工的营销理念的更新,企业高层管理的大力支持,组织的再造和业务流程的重构。孙国辉[31]提出,客户关系管理项目应该是由业务驱动,选择合适的中国软件企业实施客户关系管理需要解决信息流、货币流、物流、服务、产品、组织机构等几个方面的问题。3、数据挖掘在CRM中的研究现状在中国,将数据挖掘引入到CRM中进行研究并不久,但是,却在这个领域出来了很多的研究成果。魏晓云[38]将数据挖掘技术引入到CRM系统中,充分阐述了数据挖掘的原理以及具体聚类和分类算法的应用的思路。易珺[39]将数据挖掘技术应用于酒店的CRM系统之中,来提高酒店的竞争力。陈建辉[40]具体的提出了一种基于数据挖掘的CRM系统的框架,并将其实现。滕蕾[41]则具体的就聚类规则在CRM系统中的应用进行了阐述。三、论文的研究目标、内容及框架(一)研究内容本文的组织结构是按照CRM系统的客户关系管理和数据挖掘两大功能模块的分析,设计和实现的顺序进行,并对每个步骤按照提出问题,解决问题,进行验证的方法组织内容。阐述了项目中遇到的问题以及解决问题的具体方法和所采用的新技术。(二)论文结构本论文的总体结构如下: 1.介绍了研究背景,课题来源,CRM的发展现状,数据挖掘的发展现状,课题完成的工作以及本论文的组织结构。2.介绍了CRM和数据挖掘的理论,并简单介绍了EDP教育的内容以及当前的发展现状。3.详细介绍了福州大学管理学院EDP教育中心CRM系统的总体分析以及进一步的设计。包括CRM系统应用,系统架构,客户关系管理模块的需求分析和核心功能分析,数据挖掘模块的基本介绍和核心功能介绍。4.详细阐述了CRM客户关系管理数据挖掘的设计和实现,包括模块功能结构,模块流程设计,以及实现技术。5.详细阐述了CRM数据挖掘模块的设计和实现,介绍了模块的实现描述,包括模块的实现流程,采用技术,并对销售分析模块的应用进行分析,研究了如何进行销售分析建模,来更好地指导市场营销活动方案。6.总结本论文并展望未来CRM的发展。第二章相关理论综述一、客户关系管理理论(一)CRM的产生发展随着信息技术的发展和网络化经济的快速进步,传统的商业模式发生了根本性的变化。在很多行业,所提供的产品和服务日益商品化,产品的同质化倾向越来越强,独特的竞争优势越来越难以获得,业务比以前更具竞争性。与此同时,客户的期望也在快速变化。由于计算机、通讯技术和网络的飞速发展,客户完全可以控制要选择谁、何时选择和如何选择,客户选择摆脱了传统地理关系的限制,变成了“点击鼠标的一瞬间” ;客户对随时随地得到服务的要求更高,对质量、个性化和价值的要求更挑剔。在这种环境下,客户的亲和力和忠诚度是取得成功的重要因素,建立和维持客户关系成为企业取得竞争优势的最重要的基础。据统计,93%的CEO认为客户关系管理是企业成功和更有竞争能力的重要因素,2/3的客户离开其供应商是因为客户关怀不够,一个非常满意的客户其购买意愿将六倍于一个满意的客户,在客户满意度方而的5%的提高将使企业利润加倍。为了提高客户满意度,企业必须完整掌握客户信息,准确把握客户要求,快速响应个性化需求,提供便捷的购买渠道、良好的售后服务与经常性的客户关怀等。而在传统的客户关系管理(CustomerRelationshipManagement,简称CRM)中,来自销售、客户服务、市场、制造、库存等部门的信息分散在企业内,客户信息的分散性和片段性使得无法对客户有全而的了解,就是在同一个企业内部对客户的定义和理解也极不相同,各部门难以在统一的信息的基础上面对客户。这种客户信息的分散性和片段性对企业的经营活动造成了极大的困扰,浪费了很多的资源,失去了很多的机会,在市场竞争中处于不利的地位。加强对客户关系管理的研究具有重要意义。在我国,许多企业的内部管理混乱和随意,有的企业脱胎于过去的“计划经济”,连市场营销、公共关系、细分市场等都是新名词,如何在客户数据中分析购买习惯,针对不同的客户进行不同的营销策略,企业没有积累经验;自动销售系统在我国还没有普及,我国企业中真正运用CTI而不仅仅是电话交换系统的呼叫中心屈指可数,网上商城则尚在萌芽阶段。要在手工操作的基础上一步达到多渠道和客户进行友好持续交流的目的,非常有挑战性。另一方面,我国企业的这种跨越式的发展和飞跃也能少走弯路,充分发挥我国企业的后发优势,在CRM整体设计、多系统兼容和接口问题等方面我国会比比国外企业容易。技术发展与现实需要的反差,是我国企业发展的现状与竞争环境的挑战,使加强CRM研究成为具有重要的理论、现实意义和紧迫性的课题(二)CRM的定义目前对CRM的定义有很多,但总的来说,CRM实际上是一种以客户为中心的管理机制和经营战略,它以信息技术为手段,对业务功能进行重新设计,并且对工作流程进行重组,提高客户满意度,从而最终达到企业利润最大化。它所强调的是客户价值,要充分利用以客户为中心的各种资源,采用先进的数据库和其他信息技术来获取客户数据,从而有针对性地为顾客提供产品或服务。由此可知,客户关系管理实际上包含了3个方面的含义:a. CRM首先是一种管理理念。其核心思想是将企业的客户(最终客户、分销商、和合作伙伴)作为最重要的企业资源,通过完善的客户服务和深人的客户分析来满足客户的需求。b.CRM也是一种旨在改善企业和客户之间关系的新型管理机制。是企业战略的一种,它实施于企业的市场营销、销售、客户与技术支持等与客户相关的领域,以使企业更好地围绕顾客行为来有效地管理自己的经营。c.CRM又是一种管理软件和技术。它将最佳的商业实践与数据挖掘、数据仓库、一对一营销、销售自动化以及其他信息技术紧密结合在一起,为企业的销售、客户服务和决策支持等领域提供一个业务自动化的解决方案。(三)CRM的分类目前的CRM产品按照功能可分为3类:操作型、分析型和协作型。1、操作型操作型CRM主要设计目的是让销售、营销、客户服务、技术支持等部门的业务人员在日常工作中能够共享客户资源,减少信息流动滞留点,同时具有一定的分析能力。很容易通过多个渠道快速、全面的获得客户的信息,以及相关的联系等,使得与客户的联系变得连续,呈现给客户的信息一致。2、分析型分析型CRM主要利用大量的客户数据,从中提取有用的信息进行分析,以及对将来的趋势做出预测,协助企业制定市场计划和发展方向。3、协作型协作型CRM是指能够让企业销售、客户服务人员同客户一起完成某项活动。协作型目前主要应用于呼叫中心(CallCenter)、多渠道联络中心、帮助台、以及自助服务帮助导航等。 二、数据挖掘理论(一)数据挖掘的定义数据挖掘(DataMining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理(OLAP),从而得出可供决策参考的统计分析数据。在深层次上,则是从数据库中发现前所未有的、隐含的知识,OLAP的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(DateWarehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。(二)数据挖掘的模式1、分类模式(Classification)分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。该过程由两步构成:模型创建和模型使用.模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是己经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出的。 2、聚类模式(Clustering)聚类就是将数据项分组成多个类或簇,类之间的数据差别应尽可能大,类内的数据差别应尽可能小,即为“最小化类间的相似性,最大化类内的相似性”,原则。与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预先定义的类和带类标号的训练数据集的非监督学习(unsupervisedlearning),无需背景知识,其中类的数量由系统按照某种性能指标自动确定。3、回归模式(Regression)回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。在这种观点下,分类和回归都是预测问题,但在数据挖掘业界,大家普遍认为:用预测法预测类标号为分类,预测连续值(例如使用回归方法)为预测。许多问题可以用线性回归解决,对于许多非线性问题可以通过对变量进行变换,从而转换为线性问题来解决。4、关联模式(Association)关联分析用于发现大量数据中项集之间有意义的关联或相互关系,寻找给定数据集中数据项之间的有趣联系。关联规则的支持度和置信度是两个规则兴趣度的度量标准,它们分别反映发现规则的有用性和确定性。5、序列模式(Sequential)实时状态数据的存在需要在数据挖掘过程中加入时间因素。序列模式分析主要是通过对历史事件中频繁发生的事件序列进行分析,形成预测模式.来对未来行为进行预测。6、偏差模式(Deviation)数据库中可能包含一些数据对象与大部分数据对象的一般行为或模式不一致, 这些不一致的数据就成为孤立点。大部分数据挖掘方法将孤立点视为噪声或异常数据丢掉,然而在一些应用中,罕见的事件可能比正常的事件包含更多潜在有用的知识。由此可见,从数据集合中检测这些孤立点并加以分析是十分有意义的。数据演变分析描述行为随时间变化的对象的规律或趋势。它包括趋势分析、相似性查找和周期性模式分析等方面。(三)数据挖掘的过程数据挖掘是一个完整的、反复的人机交互处理过程,该过程需要经历多个相互联系的步骤。而且因为应用领域的分析目标需求不同,以及数据来源和含义的不同,其中的步骤也不会完全一样。一般来说,数据挖掘的过程主要包含五个阶段:数据准备、数据选择、数据预处理、数据挖掘、转换模型及模式评价。1、数据准备数据是数据挖掘工作成功与否的基础。要进行数据挖掘,数据准备阶段必不可少。因为数据挖掘要处理的数据来自不同的数据源,数据量庞大,数据结构复杂,还有大量数据重复,并且里面夹杂着空缺数据、噪声数据、冗余数据等对数据挖掘有负面影响的数据。因此,数据准备在数据挖掘过程中起着至关重要作用,是数据挖掘工作的基础。数据准备主要包含以下三个方面:1)确定项目目标,制定挖掘计划、2)数据收集和获取、3)数据集成。2、数据选择数据挖掘通常并不需要使用一个部门或者用户所拥有的全部数据,有些数据对于建立模型和发掘模式是没有任何意义的,而且如果数据与此挖掘项目的目标有所偏差,则还有可能给数据挖掘带来负面影响,造成挖掘结果不准确,模式不可用。数据选择就是在相关领域专家的指导下,数据挖掘人员从经过集成后的数据库或数据仓库中检索出与此次挖掘项目任务相关的数据集合,从而缩小范围,保证数据正确性和语义完整性,避免盲目搜索,从而提高数据挖掘的质量和效率。3、数据预处理 数据预处理可以保证数据挖掘所需数据集合的质量。对于数据挖掘来说,数据质量是一个关键的问题,因为如果数据挖掘基于的数据不准确,那么挖掘出来的结果也会是不准确的。挖掘基于的原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一的标准定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。面对这些问题数据,需要对收集好数据进行清理,以使其适用于以后的数据处理。4、数据挖掘数据挖掘就是建立模型解决问题的过程。这是一个反复的过程。需要分别考察不同的模型以判断模型对相关问题有效性。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分:一个用于模型训练,另一个用于模型测试。5、转换模型及模式评价数据挖掘完成之后,必须评价得到结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关成本。经验证有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定。因此直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据以及测试结果,对模式评价通过之后再将模式推广应用。三、EDP教育介绍第三章EDP-CRM系统分析一、背景介绍 作者在撰写硕士论文期间,参加了福州大学EDP中心CRM系统的研究、设计和开发工作。通过对系统的设计、分析和开发,使我对CRM系统的总体结构有了一个较为全面的认识。在系统设计和开发过程中,还将数据挖掘技术与企业的具体情况相结合,对数据挖掘在CRM系统实际应用进行了的尝试和探索性的研究。因此,在论文中,我以福州大学EDP中心的CRM系统为背景,以系统设计开发的具体过程为线索,依次介绍客户管理管理、数据仓库和数据挖掘技术的理论发展及其它们在系统中的实际应用情况。最后在此基础上,论述了基于数据挖掘的EDP-CRM系统的框架体系及实现。二、EDP-CRM系统可行性分析(一)EDP-CRM客户信息管理模块可行性分析1、经济可行性EDP中心的服务都是针对特定领域的客户,而中心能否良好发展的关键在于客户需要的满足。而实施CRM系统,能够保证为客户提供良好的服务,能够及时准确的向客户提供产品服务的信息,在发掘新客户、保持老客户、防止老客户流失等方面都有明显的效果,而由于EDP中心的特点,每增加一名客户,能够获得非常大的经济效益,因此实施CRM系统能够明显提高企业的经济效益。与之相比,虽然实施CRM系统需要在前期投入一笔软件开发与运行维护的成本,但与提高客户满意度从而增加的利润相比只是九牛一毛。因此,福州大学管理学院EDP中心实施客户关系管理系统在经济上完全是可行的。2、技术可行性进入21世纪,信息技术的不断进步,也进一步推进了CRM的发展。计算机技术、通讯技术、网络应用技术使得CRM系统的实施与应用不在仅仅停留在想象阶段。而伴随着企业信息化水平的提升,办公自动化程度、员工计算机应用能力也不断提高,同时企业管理方式也相应转变,这些都有利于客户关系管理的实施。 3、管理可行性福州大学管理学院EDP中心由于受所处高校影响,管理理念非常先进。中心的管理思想早已成功完成从以产品为中心向以客户为中心的转变,而管理思想的转变也影响了管理方式的转变。而先进的思想将有利于中心工作人员轻松适应CRM系统的应用。因此发展CRM的时机己经成熟,通过CRM对该企业的客户资源进行有效的管理,不但会提高企业收益,也将进一步改变企业运行的战略思维。(二)EDP-CRM数据挖掘模块可行性分析数据挖掘可以从大量数据中挖掘隐藏的知识,为决策人员和客户经理提供决策和工作的依据。对EDP中心而言,对中心客户进行数据挖掘是可行的,因为福州大学管理学院EDP中心的客户资料已达到了数据挖掘所需要的海量;而公司的经营者也希望获得更大的利润,所以都支持数据挖掘,希望充分利用现有的数据,挖掘数据背后的知识,提高中心效益;而且公司的信息化建设比较好,数据比较完备,网络设置和员工的计算机水平都比较好。三、EDP-CRM系统需求分析需求分析是软件开发中的一个重要的阶段,他就是描述系统的需求的过程。分析的根本目的是在系统开发者与用户之间建立一种理解和沟通的机制。(一)主要业务分析一个企业业务流程是系统设计的关键,要实施开发CRM系统,必须确定系统的功能需求,这就必须先了解企业的业务流程,从业务流程中分析系统的需求。而EDP-CRM系统的主要业务流程如下图: (二)、业务用例业务用例是在调研阶段得到的信息基础上提取的,是从用户和业务的角度来描述系统提供需要执行的功能。福州大学管理学院EDP中心客户管理管理系统主要实现五大功能,其用例图如下: 1、基本信息管理基本信息管理功能是整个CRM系统的核心模块,它将所有基础信息作为连接其余各个系统模块的主线,也是CRM系统的主要数据来源。主要包括客户信息管理、产品信息管理、员工信息管理。客户信息管理是对EDP中心的客户信息进行详细的管理,主要实现对个人客户信息管理和对集团客户信息管理的两个子功能。产品信息管理是对EDP中心的产品信息进行详细的管理,主要实现对集团产品和对个人产品两个子功能。但是这两个子功能又可以进一步细分,具体的就是将集团产品管理功能继续细分为企业优化咨询信息管理和集团培训信息管理。而个人产品管理功能又可以继续细分为包括学位教育信息管理和讲座公开课信息管理。员工信息管理是对EDP中心的员工信息进行详细的管理,主要实现对营销人员信息管理、对教师信息进行管理和对教务人员进行管理三个子功能。基本信息管理的需求图如下所示: 集团客户信息管理主要是对以下信息进行管理:客户名称、性质、地址、联系人信息、客户经营状况信息(客户档案、客户战略发展、财务状况信息。此外客户信息还包括客户与本企业发生的业务信息、接受本企业服务的信息等;个人客户信息管理主要是对以下信息进行管理:客户姓名、年龄、学历、性别、职位、所属单位、地址、手机、电话、传真、电子邮箱、身份证号码等;咨询优化信息管理主要是对以下信息进行管理:项目名称、项目起始时间、项目客户、优化内容、价格等;集团培训信息管理主要是对以下信息进行管理:培训名称、培训起始时间、培训地点、培训客户、培训对象、培训价格、培训内容等;学位教育信息管理主要是对以下信息进行管理:班级名称、价格、学制、证书性质、课程、授课形式、授课时间等信息;讲座公开课信息管理主要是对以下信息进行管理:讲座公开课名称、讲座公开课时间、讲座公开课地点、讲座公开课内容、讲座公开课教师、讲座公开课价格等信息;销售人员信息管理主要是对以下信息进行管理:员工姓名、年龄、学历、性别、职位、家庭地址、手机、电话、传真、电子邮箱、身份证号码、负责产品等;教师信息管理主要是对以下信息进行管理:教师姓名、年龄、性别、职务、所属单位、联系地址、手机、电话、传真、电子邮箱、身份证号码、研究领域等;教务人员信息管理主要是对以下信息进行管理:员工姓名、年龄、学历、性别、职位、家庭地址、手机、电话、传真、电子邮箱、身份证号码、服务项目等。2、业务管理业务管理是根据福州大学管理学院EDP中心的业务流程,从开发新客户开始到产品服务销售完毕之间发生的一系列业务的过程,主要记录这些业务的数据。主要包括营销管理、销售管理、客户服务管理、售后管理。该功能模块是整个系统的客户信息收集的渠道。营销行为管理是用来记录销售人员与客户的一系列接触过程,分布记录营销每个阶段的客户信息,实现客户资源有记录,保证客户资源有记录,保证中心掌握客户资源。 销售管理可以明细记录销售过程和销售业务信息,并能够动态的查看销售状态,保证销售过程按计划进行。客户服务管理记录的是客户在购买产品后接受产品服务过程中的一系列数据,保证了客户能够接受良好的服务,并记录顾客在服务中的表现。售后管理就是客户反馈管理,是记录客户对产品质量的反馈意见,以及客户服务人员对客户意见的处理结果,增加与客户的交流。业务管理与企业的业务流程息息相关,因此我们根据业务流程图画出业务管理的需求图如下:营销管理主要是对营销信息的管理,主要记录的是营销员工编号、客户编号、营销时间、营销内容;销售管理主要是对销售信息的管理,主要记录的是员工编号、客户编号、产品编号、销售时间;客户服务管理主要是对客户服务信息的管理,主要记录的是员工编号、教师编号、客户编号、产品编号;售后管理主要是对售后服务信息的管理,主要记录的是员工编号、客户编号、售后服务时间、售后服务内容。3、综合管理流程管理是记录产品从营销至售后之间的详细流程,从而保证中心的运作符合规定的流程,保证中心合理、安全、有效的运行。 而费用管理是对公司发生的业务的费用管理,保证公司的成本控制在合理范围以内。主要包括营销流程管理、销售流程管理、客户服务流程管理、售后流程管理和费用管理。其需求图如下所示:4、查询分析管理查询分析模块主要包括综合查询、综合统计和分析预测的功能。综合查询能够将现有数据按查询的条件展示信息,综合统计模块能够按照条件对数据进行简单操作,进行进一步统计,而分析预测模块根据要求和分析预测模型来对现有数据进行分析预测,通过以上模块,管理者能对中心运行现状有清晰的了解,也能进一步对未来可能的发展有一个预测。该模块是整个系统的核心模块,也是体现数据挖掘效果的模块。通过数据的综合查询、统计、分析,发现数据背后潜在的知识,从而达到辅助决策的目的,实现CRM系统对企业管理和指导功能。该模块是体现数据挖掘功能的模块,当前阶段需要的是三个功能,分别是潜在客户识别、潜在客户分类以及客户满意度分析。潜在客户识别是通过数据挖掘的分类技术对当前客户进行分析,进而得出客户的特征,用这些客户特征作为标准来分析潜在客户;潜在客户分类是通过数据挖掘的聚类技术将潜在客户分类,针对不同类的特点设计营销方式;客户满意度分析是通过数据挖掘的聚类技术将影响客户满意度的因素进行分类,针对满意度因素的重要性和当前满意度进行有针对性的改进措施。 5、系统后台管理系统后台管理是对负责系统管理和维护的用户进行授权,对系统部门进行管理;同时还要保证及时准确地对数据进行备份、恢复操作,保证系统安全稳定的运行;同时还要记录系统的更新及版本信息。(二)业务用例分析与建模业务建模是需求工程中最基础的阶段,也是整个项目的初始阶段。其最主要的目的就是要梳理业务的流程,所以要保证需求的技术无关性,还要保证需求不要深入细节。用例模型描述的是外部执行者所理解的系统功能。它的建立是系统开发者和用户反复讨论的结果,表明了开发者和用户对需求规格达成的共识。在需求分析阶段,可以用用例来捕获用户需求,以描述对系统感兴趣的外部角色及其对系统的功能要求。 1、业务主角、业务角色业务主角:参与处理业务的用户就叫做业务主角,在本模型中,业务主角主要包括业务人员(销售人员、教师、教务人员)、管理人员(部门经理、高层管理)、系统管理员。业务角色:不同参与到系统中的人员所获得的权限就是业务角色。在企业中,需要根据业务主角的工作任务来确定他们的管理权限,管理权限主要有浏览、查询、修改、审批等。2、用例视角用例总是从参与者视角出发,将用例表达出来。通常我们根据参与者的请求,来确定系统所要执行事件的先后顺序,从而能够为参与者提供有序、可靠、可观察、有价值的结果。下图展示了本系统的业务用例图((UseCaseDiagrams),它展示了整个系统。它的主要目的是帮助开发者以一种可视化的方式理解系统的功能需求,包括基于基本流程的“角色”(actors)关系,以及系统内用例之间的关系。 第四章、EDP-CRM系统设计一、设计目标随着客户的不断增加,和客户相关的信息资料也不断增加,这就要求更多的人力和物力,才能整理这些庞杂信息资料。而且,为了能够进一步利用现有的信息资源,对数据进行进一步的数据挖掘是必然的选择。但是,显而易见,如果仅仅依靠以往的人工技术或者简单的应用office工具的话,这将是一项几乎不可能的工作。因此,福州大学管理学院EDP中心客户关系系统的设计目标首先是解决现有与客户相关信息的管理工作,其次在此基础上能够运用数据挖掘技术对现有信息进行进一步分析。二、EDP-CRM系统功能结构设计根据企业的组织结构以及上文分析的企业的需求的功能,并结合CRM系统的特点,我们将福州大学管理学院EDP-CRM系统划分为信息管理模块、业务管理模块、综合管理模块、决策管理模块以及后台管理模块等五个模块。通过这五个功能模块主要完成以下功能:客户信息管理、产品信息管理、员工信息管理、营销管理、销售管理、服务管理、售后管理、流程管理、费用管理、查询决策支持分析、后台管理等功能。具体的福州大学管理学院EDP-CRM系统功能模块结构图如下所示: 三、EDP-CRM系统结构设计福州大学管理学院EDP中心的系统结构,主要是两大部分组成,分别是信息管理和数据挖掘。其中,信息管理是数据的根本,为EDP中心的运营提供保障,也为数据挖掘提供数据支持;而数据挖掘是数据的进一步升华,是对数据基本功能外的进一步开发,挖掘数据内在的价值。数据挖掘和信息管理两个部分的管理如下图所示: 四、EDP-CRM系统平台结构设计福州大学管理学院EDP中心客户关系管理系统拟采用Browser/Server平台结构,由网络服务器平台、网络数据库平台、系统文件和辅助开发工具组成。网络服务平台是Microsoft公司的IIS平台,网络数据库平台为Microsoft公司的SQLServer2000数据库平台,辅助开发工具选用的是Macromedia公司的可视化网页编辑工具Dreamweaver8,在这个平台下采用JSP进行开发。五、EDP-CRM系统数据库设计六、EDP-CRM系统数据仓库设计(一)、概念模型设计1、确定系统边界 随着我国经济发展,整个社会对知识的需求日益增加,尤其是企业的中高层人员,拥有大量管理经验但缺乏相应的理论体系的指导。同时,随着科技水平的告诉发展,越来越多的高新技术更快的投入到应用,也要求企业的管理人员需要与之相适应的技术能力和管理能力的支持。因此,近年来EDP高层教育培训越来越受到社会大众的关注,大量企业中高层精英愿意并开始参与到了EDP的学习之中。同时,进入新世纪以来,计算机技术的迅速发展以及数据库管理系统的广泛应用,使得EDP中心应用了许多业务系统,比如教务管理系统、办公自动化系统等。这些系统都是面向应用和事务的,它仅仅向管理者提供了进行简单的归类和汇总的业务数据。随着这些系统的运行,积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,管理者们希望能够对其进行进一步的分析,以便更好地发掘这些数据背后的价值,来提高企业的效益。目前的数据库系统可以高效地实现数据的录入、查询、删除、查询等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据来预测未来的产品、企业的发展趋势。缺乏挖掘数据的手段,导致了“数据爆炸但知识贫乏”的现象。随着我国教育体制改革进程的不断推进,越来越多的高校推出了高层培训的课程服务。高校高层培训市场的竞争愈演愈烈。面对激烈的市场竞争,福州大学EDP中心为了吸引新顾客、维持老顾客、发展新业务、提高顾客利润率,需要建立科学的、适合本身业务需求的CRM系统。为了解决这些问题,福州大学管理学院EDP中心目前分析的对象主要是:客户信息(包括个人客户与集团客户)、产品信息(包括集团产品与个人产品)、员工信息(包括教师、营销人员和教务人员)。2、确定主题域主题是对应分析领域的分析对象,对原有分散的数据库的分析,考虑各级分析人员的需求,在完成系统边界划分的基础上我们确定福州大学管理学院EDP中心的数据仓库的几个基本主题。(1)客户个人客户是以个体为单位向福州大学管理学院EDP中心购买服务,一般以提升个人知识水平,从而达到提升自我素质的目的的客户。中心向个人客户提供各种学位班、讲座、公开课等服务,从而收取相应的费用。 集团客户是以集团为单位向福州大学管理学院EDP中心购买服务,一般以满足集团客户企业优化、内部培训目标,从而使集团企业更好优化为目的的客户。中心想集团客户提供短训班、流程优化项目等服务,收取相应的费用。(2)产品福州大学管理学院EDP中心的业务就是它所提供的培训项目,它是向企业中高层认识提供的服务型产品,通过免费、收费的不同业务,能分别起到提高中心知名度和提高中心经济效益的作用。而中心业务是否受欢迎,直接影响到中心各部门的经济效益。(3)员工当前,福州大学管理学院EDP中心的员工主要分为教师、教务人员与销售人员。在福州大学管理学院EDP中心,销售人员就是负责将中心的教育培训服务介绍给客户,并与客户保持联系,进而达成客户购买服务。他们的目标主要是发展新客户、维持老客户并进一步挖掘客户价值。教师是EDP-CRM系统区别于其他CRM系统的一个特殊主题。从本质上讲,教师是EDP教育培训服务的生产者,但是在授课过程中又部分承担了销售人员的角色。他们的任务是将顾客所需的知识传授给顾客,从而提高顾客满意度。教务人员负责对现有客户进行管理,同时也是现有客户接受购买服务的时候服务的提供者之一。同时,教务人员还承担收集顾客在接受服务时的数据,从而为下一步的数据分析提供信息支持,进一步提高顾客满意度。(二)、逻辑模型设计逻辑模型设计是指在数据仓库中如何描述主题。它是对概念模型设计的进一步细化。一般来说,数据仓库都是在现有的关系型数据库基础上发展起来的。所以数据仓库中的数据仍然是以数据表格的形式进行组织的。逻辑模型就是要把不同主题和维的信息映射到数据仓库的具体的表中。这一阶段的设计主要包括:分析主题和维信息,确定粒度层次划分;关系模式的定义。 1、分析主题域2、粒度划分3、星型模型和雪花模型(三)、物理模型设计(四)、数据仓库的系统结构七、EDP-CRM系统数据挖掘设计当今社会,企业间竞争越来越激烈,从而导致了客户关系越来越重要,客户关系已不再是从前那种简单的用电话、短信或者邮件等方式来增加与客户的沟通。现在,针对客户的决策会很大程度上影响到企业原有客户和潜在客户的去留,可以决定企业的成败。因此,通过分析顾客的信息,经客户信息进行数据挖掘,发现数据间信息,从而做出正确的决策,对企业都显得至关重要。事实上,数据挖掘在客户关系管理中可以发挥相当巨大的作用,在客户关系管理的各个阶段都可以应用数据挖掘技术。数据挖掘能够分析客户的特点,从而将客户分为不同类型,进而提供有针对性的服务;数据挖掘,能够分析客户对产品的不同方面的满意度,从而进一步促进企业改进产品,提高客户的满意度;企业可以分析购买某一商品的客户的特征,从而可以对具有相同特征的客户进行针对性的营销,提高营销的准确性。本文着重从数据挖掘的角度出发,结合EDP教育的特点,EDP-CRM系统的数据信息,主要实现EDP客户关系管理中三个数据挖掘的功能。(一)功能设计数据挖掘模块共设计三个子模块,分别是潜在客户识别、潜在客户分类以及影响客户满意度因素分析。 潜在客户识别是通过对现有客户的分析,对现有客户进行分类,并通过数据挖掘的分类功能提取客户分类的规则,按照规则对现有潜在客户进行分析,识别其中的客户类别,并针对不同客户类别的特点进行有针对性的营销。潜在客户分类是通过对现有潜在客户接受的营销数据进行分析,通过数据挖掘的聚类功能将潜在客户按照营销进度的不同进行聚类,按照聚类后的每个类的进度安排进一步的营销的安排。客户满意度分析是通过调查问卷,收集影响客户满意度的因素,对影响客户满意度的因素进行聚类,按照聚类结果提出相应的改进措施。(二)EDP-CRM系统的客户识别对于许多企业来说,新客户的获得对他们是非常重要的,企业的发展需要不断的获得新的客户。而对于EDP培训教育来说,它的教育具有产品服务周期长、单个产品价格高、产品种类少、同产品无法重复购买的特点,因此,不管如何维持老客户关系,它的老客户也会不断的流失,所以对EDP教育来说,获得新客户至关重要。客户分类功能的主要对象主要是企业以前没有关注到的客户,由于某些客观原因或者缺少数据支持的主观推测,企业并没有意识到那些客户有购买企业产品的需求。通过数据挖掘,能够帮企业成功识别这些具有潜在消费能力的客户群体,从而使营销行为更加有针对性,从而提高市场活动的响应率。1、功能实现流程2、算法选择及介绍(1)算法选择分类是数据挖掘技术的一个重要分支,因此,学者们份份展开了针对分类算法的研究,目前存在的主要分类算法有决策树方法、KNN方法、神经网络和贝叶斯方法等。本文根据CRM中的客户分类挖掘中的要求,选择 以决策树方法进行CRM客户分类研究,再根据数据的特点,选择经典的ID3算法进行实现。(2)ID3算法简介ID3算法是一种其理论清晰,方法简单,学习能力强的算法,普遍认为ID3算法适用于处理大规模的学习问题,一般来说,数据库越大,ID3算法的效果越好,所以,ID3算法已经成为了数据挖掘和机器学习领域中的一个极好范例,在世界上广为使用,得到极大的关注。要理解ID3算法,首先要了解信息增益的概念。信息增益基于信息论中的熵的概念。熵是对事件对应的属性的不确定性的度量。一个属性的熵越大,它蕴含的不确定信息越大,越有利于数据的分类。因此,ID3算法首先根据信息增益找出熵最大的因素,然后将数据根据这个因素分成多个子集,每个子集又选择最熵进行划分,一直进行到所有子集仅包含同一类型的数据为止。据此,我们可以获得一颗决策树,根据决策树,我们可以对新的样例进行分类。(3)信息增益的计算设是个数据样本的集合。假定类标号属性具有个不同值,定义个不同类。设是类中的样本数量。对给定的样本分类所需的期望信息由以下公式给出:(1)其中是任意样本属于的概率,一般用来估计。设属性具有个不同值。可以用属性将划分为个子集,其中包含中这样一些样本,他们在上具有值。如果作为测试属性,则这些子集相对应于包含集合的节点生长出来的分支。设是子集中类的样本数。根据由划分成子集的熵由以下公式给出:(2)这里充当第个子集的权,并且等于子集中的样本数除以 中的样本总数。熵值越小,子集划分的纯度越高。注意,根据上面给出的期望信息计算公式,对于给定的子集,其期望信息由以下公式计算(3)其中是中样本属于类的概率。由期望信息和熵值可以得到对应的信息增益值。对于上分支将获得的信息增益可以由下面的公式得到:(4)ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点,并以该属性标记,对该属性的每个值创建一个分支,并依此划分样本。(三)EDP-CRM系统的客户分类当企业掌握了足够多的潜在客户资源之后,就会针对客户进行营销行为,并会积累相应的营销数据信息。这是,就会有另一个困扰管理者的问题,那就是无法区分潜在客户之间的区别,这样导致的结果是对所有潜在客户采取同样的措施,这就导致了两个问题,首先是营销成本的提高,其次还会影响营销的效果,进而降低企业的效益。通过数据挖掘技术,企业能够按照他们的需求,将客户根据现在的营销进度进行分类,将具有相同营销进度的顾客归为相同的类,对给定类的客户根据这一类的特点制定针对性强、具有差异化的营销策略。这样做不仅能够降低营销的规模,有效的降低营销的成本;同时,因为涉及的营销策略是完全针对这一类的特点,从而使得营销策略更加有针对性,提高营销的效率。从这两方面入手,能够有效降低企业成本,提高企业的效益。更进一步的,企业甚至能根据这些类的特点来设计产品服务,从而提高企业竞争力。 1、功能实现流程2、算法选择及介绍聚类也是数据挖掘的重要模块,聚类算法有很多,其中,K均值算法是聚类分析中一种基本的划分方法,其理论可靠、算法简单、收敛速度快、能有效处理大数据集,因此被广泛使用。我们也选用K均值算法作为EDP-CRM系统的聚类算法。但该方法需要实现确定聚类中心数量K,而且算法受初始值影响很大,容易收敛于局部最优解,所以,我们对K均值聚类算法进行适当改进,提出基于遗传算法的可变K均值聚类方法,以提高算法的功能。(1)聚类分析的数学模型聚类是将样本数据分类到不同的类或者簇的一个过程,聚类结果有效性可以通过内部验证指标和外部验证指标进行验证[5]。本文选取这些内部指标中的Calinski-Harabaszindex(简称为CHindex)作为聚类的目标函数。设是给定空间中的有限数据集,将个数据样本按照它们之间的相似度分为类,聚类的内部聚合度用类内的平方和表示:(1)式中,表示聚类中心:聚类的类外部分离度用类中心到样本中心的平方和与类数量的乘积表示:(2)式中,表示所有个点的中心 所以,聚类问题的目标函数是(3)式中,;为属于第类的样本个数;表示样本属于第类;;为聚类中心个数;为样本数。对于聚类问题而言,类内聚合度越小越好,而类间相似度越大越好,所以聚类问题的目标函数越大越好。(2)K均值算法简介k均值算法,又称为k-平均算法(k-Means),是一种得到最广泛使用的聚类算法。k均值算法以k为参数,把n个对象分为k个簇,以使得簇内具有较高的相似度。相似度的计算根据是一个簇内的平均值来进行。算法首先随机的选择k个对象,每个对象初始地代表了一个簇的平均值或者中心。对剩余的每个对象根据其余各个簇中心的距离,将它赋予最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。k均值算法的准则函数定义为即为上节聚类模型的内部聚合度:这个准则可以保证生成的结果簇尽可能的紧凑和独立。(3)算法改进k均值算法虽然有以上优点,但是需要事先确定聚类中心数量k,因此具有先天的限制。本文算法的思想是在:在研究聚类问题时,将K均值算法与遗传算法结合,来解决K均值无法求解K值缺点。(1)算法流程Step1、初始种群生成Step2、用K均值算法对筛选出来的个体进行优化,并用优化后的个体取代原来的个体Step3、对种群中的个体进行选择、交叉、变异操作,并在完成后重新计算K值 Step3、重复步骤Step2和Step3至满足终止条件(2)染色体编码设计染色体编码方法很多,在聚类分析中常用基于聚类中心的浮点数编码和基于聚类划分的整数编码。由于聚类算法具有多维、量大的特点,聚类样本数目一般远远大于聚类数目,因此本文采用基于聚类中心的浮点数编码。染色体结构为,其中K为基因的长度,为随机产生的聚类中心个数,为染色体第位的基因,它有个维度。,。(3)适应度函数设计遗传算法中的适应度函数是用来评价个体、区别个体优劣的标准。个体的适应度越高,其存活的概率就越大。本文以聚类的目标函数作为适应度函数。(4)选择算子设计为了保证适应度函数越大的染色体保留到下一代的概率越大,本文采用了遗传算法中经典的轮盘赌选择算子。该选择算子具体操作如下:Step1、进行K均值操作,更新染色体;Step2、根据适应度函数,计算当前种群染色体的适应度,并记录其中适应度最大的个体;Step3、再根据个体的适应度值,来计算各个体的选择概率;其中,个体选择概率的计算方法是,为种群规模,即为聚类目标函数的值,为所有个体适应度的总和。Step4、根据计算出的选择概率,使用轮盘赌法选出个体。(5)交叉算子设计随机从种群中选择对染色体作为父代,对每对染色体,产生随机数,当时,在两个染色体中分别随机产生交叉点,其中他们的交叉点范围分别为和,对交叉点后的基因进行交叉运算,并重新计算交叉后的染色体长度,直到所有个体进行过交叉为止。(其中为交叉概率, )。(6)变异算子设计对每一个个体,每一个基因位,产生随机数,当时,对该基因位进行随机变异运算,生成下一代种群。(其中为交叉概率)。(7)K均值操作本文的K均值操作,主要是在遗传算法进行到变异之后,在下一次选择之前进行,主要的操作主要有以下两点:Step1、检查染色体长度,当染色体长度大于最大聚类个数时,将这条染色体从种群中删去;Setp2、先以变异并通过检查后产生的染色体基因为中心,进行K均值聚类,然后用K均值聚类的结果来取代原来的染色体中的基因。(8)循环终止条件循环代数开始为0,每进行一次循环,代数加1,若循环代数达到最大循环代数时结束循环,输出最后的聚类结果。(四)EDP-CRM系统的客户满意度分析在实现了潜在客户发现与分类功能之后,如何分析和保证现有客户的满意度也是一个对企业至关重要的问题。客户满意程度是直接影响到客户的忠诚度,通过客户满意度分析,企业能够不断改进影响客户满意度的环节,增加现有客户忠诚度,也增加自身产品服务的吸引力。客户满意度分析模块通过对影响EDP教育服务客户满意度的因素进行分析,设计适用于EDP教育的客户满意度评价指标,并依据经验和专业知识选择适当的方法确定各评价指标的权重,通过一定的计算方法来获得客户对培训服务的满意情况,然后对客户满意度进行综合分析,调整响应的客户策略,使酒店有针对性的改善硬件产品和服务质量,从而提高客户的满意度,促进改善客户关系。1、功能实现流程 客户满意度就是反映的是客户满意的程度,属于心理范畴,无法直接从客户信息数据库中获得。因此,本文采用建立客户满意度评价指标体系,对客户进行问卷调查的方式来衡量客户的满意度。调查研究工作主要分为以下步骤:确定研究的主要目标和研究对象;根据调研结果分析影响EDP中心客户满意度的主要因素,确定评价指标并建立满意度评价模型;制定满意度调查方案;实施调查;收集调查结果,将结果量化;对客户满意度情况进行分析,支持EDP中心的决策。具体流程如下图所示:2、算法选择与简介在满意度分析中,我们也采用k均值聚类的算法对满意度进行分析,这样能使计算的效率更高,具体的算法简介如上节所述。 第五章EDP-CRM系统架构与实现一、系统开发二、数据挖掘模块的实现(一)客户识别1、数据获得与处理为了实现对客户分类,必须从现有数据中提取每个客户的特征信息,而EDP培训教育的客户涉及不同产业,而且涉及的客户所处的岗位、所承担的工作各不相同,再加上客户资料收集方式各不相同,因此,客户的特征信息也五花八门。因此,我们选取客户的通用特征信息来进行分析。福州大学管理学院EDP中心从建立以来一直都以客户为中心,一直关注于客户信息的搜集与信息反馈,因此,我们提取了中心306名客户的信息。为了实现对客户的分类划分,需要对客户各属性信息进行处理,才能交由进行相应分类操作。(1)属性选择首先要对客户特征表进行属性选择,删除可用其它属性来代替的属性,或者有大量的不同取值且无法进行量化的客户属性。如客户信息表中的身份证号码、手机电话传真号码、邮箱等,它们的取值太多且杂,往往无法在该取值域内进行量化操作,所以应将其删除即可得到如下表所示的特征属性表。编号性别年龄婚否年收入单位性质公司规模职位学历地区1男53已婚30万事业单位600人老师博士福州2女26未婚8万公务员50-100人职员本科福州3女44已婚40万私企100-500人财务总监中专厦门4男38已婚120万外企10-50人运营总监硕士福州5男49离异1000万上市公司1000人以上总裁大专福州(2)属性概化 对离散的数据,我们用属性概化阀值控制技术沿属性概念分层进行概化。具体的离散方法如下,我们将客户文化程度分为0-5六类,分别代表小学、初中、高中、大学、硕士、博士;对于单位类别可以按工作性质分为0-2三类,分别代表集体、私人和公职;客户职位可以分为0-3,分别代表最高管理层、高级管理层、低级管理层、普通职员;而客户性别显然可分为0-1两类,分别代表男和女;客户婚否分为0-2三类,分别代表未婚、已婚以及离婚寡居;至于地区,由于学校地处福州,主要客户群在福州,因此我们将其分为0-1两类,分别代表福州地区以及福州意外地区。而对于连续的数据,我们将其按区间进行划分。表中客户年龄、年收入等数据为连续型数据,一般在分类时,系统执行离散型数据速度较快,因此需要对连续型数据进行离散化处理,根据数据特点,我们将客户年龄分为0-3四类,分别代表20-30岁,30-40岁,40-50岁以及50-60岁;对于客户年收入,我们将其分为分别代表0-3四类,分别代表0-10万、10-100万、100-1000万、1000万以上;同样,对于公司规模,我们将其分为0-4五类,分别代表10-50人、50-100人、100-500人、500-1000人以及1000人以上。因此,经过属性概化后,我们得到的特征属性表如下:编号性别年龄婚否年收入单位性质公司规模职位学历地区103111334021000213203121102111402120013050223040202、ID3算法在EDP-CRM系统客户识别中的应用以福州大学管理学院EDP中心的数据为例,将展示ID3算法是如何在EDP-CRM系统的分类功能中应用的。以下就是算法实现的流程图: 根据算法流程,我们首先提取现有的306名学员的信息,共提取了9种客户属性特征,经过上节的数据处理后,如下表所示,其中Fe1至Fe9的特征定义如上节所述,D为决策属性,取值1至3分别对应类别为福州大学管理学院EDP中心的三种课程,1对应福州大学-威尔士学位班,2对应福州大学高级研修班,3对应福州大学TMBA高级研修班。Fe1Fe2Fe3Fe4Fe5Fe6Fe7Fe8Fe9D03111334031000213202121102111302120013010223040201由于客户信息较多,限于篇幅,我们只展示第一级分类的过程,其余分类结果将在软件结果中展示。统计306位客户中每个决策属性的个数,分别得到,,。据此,我们确定决策属性D分类所需要的期望信息:接下来分别计算每个属性的熵,我们以Fe1性别属性为例,经统计,男性学员一共为192位,女性学员为114位。其中,男性学员中参与威尔士学位班的学员是63位,高级研修班110位,TMBA班19位,即,,。而女性学员中参与威尔士学位班的学员是23位,高级研修班79位,TMBA班12位,即,,。因此,如果样本按照性别划分,对一个给定的样本分类所对应的的熵为:最后,计算按照性别划分的信息增益:同理,可以计算Fe2-Fe9信息增益 因为Fe7属性即职位属性具有最大的信息增益,我们首先将其选择为测试属性,并以职位属性作为根节点创建标记,并根据职位属性的每个属性值,引出一个分支,因为职位属性有4个属性,因此,数据集被划分为4个子集。第一次分类到此结束,接下来对子节点继续进行进一步的分类,直到每个子节点下的所有属性的决策属性都有相同的属性值,或者该节点为空,或者没有属性能够进行进一步的分类,那么,遇到以上三种情况,算法结束。(二)客户分类1、数据获取与处理(1)数据抽取福州大学管理学院EDP中心针对客户个人的主要营销方式主要分为六类,分别为杂志营销、E-mail营销、QQ营销、电话营销、讲座营销以及公开课试听营销方式。通过记录与客户营销过程的数据,福州大学管理学院EDP中心积累了丰富的客户营销数据。对于客户分类,我们首先提取数据库中的客户信息和针对他们的营销信息,然后对营销方式进行聚类操作。提取了他们在我们营销数据库中的六个和营销进程相关的属性变量,将客户进行分类。具体的数据格式如下表:客户编号杂志营销邮件营销QQ营销电话营销讲座营销公开课营销16336432570000348530045450005321250(2)数据处理 在福州大学管理学院EDP中心的营销方式分为三个层次,其中,杂志营销和邮件营销属于初级阶段,QQ营销和电话营销属于中级阶段,讲座营销和公开课营销属于高级阶段。据此,我们设计了四个指标对营销进度以及程度进行聚类。这四个指标分别是K1:采取的营销种类数占所有营销种类的比重;K2:初级营销次数占所有营销次数的比重;K3:中级营销次数占所有营销次数的比重;K4:高级营销次数占所有营销次数的比重;客户编号K1K2K3K4119/259/257/2521/310032/312/208/20041/29/145/14055/65/133/135/132、改进k均值算法在EDP-CRM客户分类中的应用(三)客户满意度分析1、数据获取与处理(1)创建满意度指标体系在进行满意度调查时,需要把EDP中心的设施或服务划分成相应的指标,选择那些既能全面反映客户满意状况又有代表性的指标来让客户进行评价。在划分指标之前,先分析客户对EDP的感知主要产生方面。我们根据EDP中心的业务流程,将其分为三级,其中第一级即目标性指标,二级为准则性指标,三级为具体评价性指标,具体指标如下图:二级指标三级指标对产品评价课程数量课程内容层次性课程内容完备性课程内容新颖性课程内容实用性对服务评价上课场所环境 上课场所后勤保障后勤服务人员服务态度学生活动对老师评价老师上课可理解性课堂气氛师生关系师生课下交流学生作业批改情况对教务评价教务通知的及时准确性成绩管理的正确合理性实践活动的有效性对营销服务评价营销内容是否全面到位营销人员的服务态度营销人员的素质咨询问题是否解答满意对成本的评价实际费用与预期费用比较自身所接受的服务与支付的费用比较(2)问卷设计与调查将二级评价指标展开即可形成问卷调查的问题,从而形成完整的调查问卷,调查问卷的主要对象是当前EDP中心的客户。由于计算客户满意度需要对问卷进行数学计算,所以需要将指标进行量化,本文根据EDP中心实际情况,采用梯级量化法对指标进行量化,即将酒店客户满意度调查的各项指标,按照“很满意、满意、一般、不满意、很不满意”5个梯级来表示客户的感受,5个梯级分别对应5、4、3、2、1的分值。这样就得到了客户对该项指标的评价的具体分值。问卷的填写规范是客户选择上表中认为影响他们满意度的多个选项并对选项进行打分。满意度调查由客户关系管理部门负责组织实施,可以通过在每次课程后进行问卷调查。调查结果的数据通过人工录入到客户满意度数据库中,以便与进行客户满意度分析。 首先,根据上文的设计客户满意度问卷,通过各种渠道收集客户对23个满意度要素的评价。指标名称指标描述K1认为该项因素是影响客户满意度的因素的客户人数占总客户人数的比重K2客户给该项要素累计打分与客户总人数的比K3对该项要素满意(包括非常满意和满意)的客户占打分客户的比值K4对该项要素不满意(包括非常不满意和不满意)的客户占打分客户的比值其次,我们收集的信息进行进一步处理。确立4个特征指标进行进一步分类。这4个特征指标分别是:2、算法在EDP-CRM系统客户满意度分析中的应用最后,我们根据这四个指标对23个影响客户满意度的因素进行K均值聚类,并按K1指标的高低分为A:非常重要因素、B:重要因素、C:不重要因素、D:无关因素四类。然后根据K2、K3、K4进行相应的改进措施与建议。 三、系统功能模块展示(一)基本信息管理模块(二)业务管理模块(三)决策管理模块(四)综合管理模块(五)系统管理模块第六章总结与展望
此文档下载收益归作者所有
举报原因
联系方式
详细说明
内容无法转码请点击此处