基于昆明电信的客户流失分析

基于昆明电信的客户流失分析

ID:33174870

大小:1.98 MB

页数:69页

时间:2019-02-21

上传者:U-22107
基于昆明电信的客户流失分析_第1页
基于昆明电信的客户流失分析_第2页
基于昆明电信的客户流失分析_第3页
基于昆明电信的客户流失分析_第4页
基于昆明电信的客户流失分析_第5页
资源描述:

《基于昆明电信的客户流失分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

昆明理工大学硕士学位论文基于昆明电信的客户流失分析姓名:高敏申请学位级别:硕士专业:计算机应用技术指导教师:胡建华20050410 昆明理工大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明确的说明并表示了谢意。本声明的法律结果由本人承担。学位论文作者签名:/高套/{、日期:时口月U~日关于论文使用授权的说明本人完全了解昆明理工大学有关保留、使用学位论文的规定,即:学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布论文的全部或部分内容,可以采用影印或其他复制手段保存论文。(保密论文在解密后应遵守)导师签名:堑躐论文储张高苏日期:羔!趟垒.丝月型旦 昆明理工大学硕士论文基于昆明电信的客户流失分析摘要本文以昆明电信决策支撑系统为背景,通过在昆明电信一年半时间的领域调研和课题研发,为论文工作奠定了充分的领域知识和相关理论及工程经验,以此为基础,使用了数据仓库、统计分析和数据挖掘的技术,对PAS客户流失主题进行了较为完善、深入的分析与研究,为昆明电信经营分析系统作了有益的尝试与探索。针对PAS客户流失分析主题,本文选取了2005年3个月的PAS流失用户及其流失前的历史消费信息为样本。依据昆明电信ODS数据的实际,确定了个体样本影响流失的基本特征向量和目标变量。样本数据的获取和预处理对于数据挖掘的优劣是一个极其重要的基础性工作,本论文为此付出了大量的时间,通过对大量相关技术和统计方法的研究,最终确定了采用OLAP以及因子分析、交互作用分析、相关性分析及多种判别分析等分析方法,实现了样本空间中特征量的取舍、影响度、补全预测等预处理工作,给出了向量空间较好的样本集,建立了PAS客户流失分析主题的数据仓库,为数据挖掘提供了良好的基础。在建立了数据挖掘“宽表”的基础之上,采用了聚类方法分别对各类特征分量进行分类,以确定流失用户在客户价值区间、自然属性、地域区间等各种特征分量在空间上的分布特性,以此得到流失用户的共性特征,并结合领域知识经验,获取决镶树的生成规则,指导决策树的生成。实践证明,本论文整体的技术路线是可行的,其中间结果对于昆明电信的流失分析已经起到了一定的作用,所发现的知识具有一定的合理性和参考价值,对相关领域的研究起到了一定的推动作用。关键词;决策支撑系统、数据仓库、ETL、统计分析、数据挖掘电信客户流失的分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文ABSTR^CTThearticleusesometechnologysuchasDataWarehouse,statisticalanalysis,DataMining,ere.anddeeplyandsophisticatedresearchthesubjectofthePAScustomermissingofKunmingtelecom.TheauthorhassurveyedandstudiedinKunmingtelecomalmostoneandahalfyears,andaccumulatemuchexperience,theoryandfieldknowledge.AimedatthePAScustomermissing,thearticletakessomecustomermissinginformationwhichoccurredin3monthsof2005aSsample.AndaccordingtofactoftheKtmmingtcleeom'sODSdata,thearticlemadecertainofbasingcharacterizedvectorandtargetvariable,individualsampleinfluencedmissing.Theacquiringandpmproeessofsampledataisaveryimportantworktodatamining.Thearticlehasspendmuchoftimeinresearchofrelativelytechnologyandstatisticalmethod,atlastwedecideaprojectwhichuseOLALfactoranalysis,interactionanalysis,relativityanalysis,severaljudgmentanalysis.Thisincludingpreproeesssuchasacquiringcharacterizedvectorofsamplespace,influence,fixingandforecasting.Then,thearticleoffersagoodsampleset,andbuildsaDataWarehousebasedonthesubjectofPAScustomermissing.Basedonbuilda‘'widetable”,weuseclusteringmethodtoclassifythecharacterizedvector,determinethedistributecharacteristicofmanycharacterweightsuchascustom’Svaluezone,naturalattribute,terrazone.AndSUITIupmuchconlmomleSS,andcombinefieldexperience,obtaindecisiontreescreatecondition,andgIlidethebuildingofdecisiontrees.Thepracticeproved,thetechnologyofthearticleusedisfeasible,themidresclttakesomeeffecttomissinganalysisofKumningtelecom,theknowledgewediscoveredhassomerationalityandreferencevalue.KEYWORDS:DSS,DATAWAREHOUSE,ETL,STATISTICALANALYSIS,DATAMINING电信客户流失的分析与研究作者:高敏导师:胡建华王清心-2- 昆明理工大学硕士论文第一章绪论本章介绍了电信行业的发展背景、信息系统现状;同时,简要地说明了论文的项目研究背景、论文的研究内容及研究意义。1.1电信行业的发展背景≯中国电信行业的体制变革在计划体制下,中国电信有两个基本特征:一是高度集中,企业的经营管理权属于中央政府;二是高度垄断,价格的确定和市场资源的分配完全由垄断者支配[“。随着电信行业的政企分开,移动、联通等竞争对手的出现,以及已经完成的对中国电信的垂直性肢解,中国电信独一无二的垄断地位受到了威胁。》电信行业国内市场的竞争来自信息产业部的消息:电信市场竞争格局发生变化,主导运营企业的市场占有率下降,新兴电信企业的市场份额逐步上升。我国各大基础电信运营企业2000年所占业务收入的市场份额:中国电信为52.3%、中国移动为39.1%、中国联通为10.6%、其他(如中国卫星和铁通公司)约占0.25%;2001年在电信业务收入的市场占有率,中国电信为50.7%,中国移动为37.7%,中国联通为10,6%,其他约占1%;到2003年6月底,中国电信为31.1%、中国网通为16.6%、中国移动为3"/.4%、中国联通为13.4%、中国卫星和铁通公司为1.5%12]13]。≯外资电信在中国状况随着中国加入wTO,信息产业部部长吴基传已签署命令,宣布在1993年9月11日发布的《从事放开经营电信业务审批管理暂行办法》和1995年11月10日发布的《放开经营的电信业务市场管理暂行规定》tl2001年12月11日即中国加入wTO之日起废止。之后,中国将严格按照服务贸易承诺减让有关电信方面的内容,逐步对外资开放中国电信市场14】。许多有实力的外资电信公司已陆续在我国设立了办事机构,正积极地在我国寻找市场机会【51,并已经初步开展一些行动:々2001年AT&T和上海电信合资成立上海信天,上海信天于2001年3月获得营运牌照。电信客户滤失的分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文夺6夺2002年英国沃达丰买下中国移动香港上市公司3.27%的股份,并称要在5年内力争控股20%。2003年SK电讯携手中国联通成立联通时科。2004年法国电信与中国电信的北京研发中心浮出水面。2004年6月30日深圳“深大电话有限公司”宣布成立并入深圳电信。新加坡电信在北京、上海和广州三地设立办事处。1.2电信行业的信息系统现状≯国内电信行业的信息系统电信行业内早有大量成熟的数据库应用系统,现有的信息系统主要包括五个部分:“九七”营业受理系统、交换传输及网管系统、计费账务系统、客户服务系统和财务统计系统。从电信业现有系统所涵盖的数据流程来看,要查询一次历史数据时,费时费力,更不用说把不同业务部门的数据来关联比较分析了,同时也会遇到像数据类型不匹配、数据定义不同、数据不一致、数据冗余等问题【6】。从业务流程来看,一般电信运营商缺乏对客户需求的科学分析,在发展新业务时可能会冒很大的风险。从客户关系管理的观念来看,电信公司的首要任务是如何争取客户并且提高客户的忠诚度。信息系统必须以客户为中心,了解不同客户的不同消费模式,针对不同的用户采取不同的策略以达到个性化服务的目标。>电信行业信息系统的发展趋势近些年,电信市场内的竞争日剧,电信运营企业有电信、联通、移动、网通、吉通、铁通等。在各个业务领域内已初步形成多元化的竞争局面,同时,随着中国加入WTO,国外的电信公司也会进入中国市场。在这样的形势下,作为行业老大的中国电信,正确及时的决策将是企业生存与发展最重要的环节,而要作好决策工作,就要利用最近几年才快速发展起来的数据仓库技术以及基于此技术的商业智能,深层次、多角度地挖掘,分析当前和历史的生产业务数据、客户信息、竞争对手的信息等相关环境的多种数据,发现其内在的规律,从而得到宝贵的决策支持信息,才能快速、准确地分析商业问题,并且对企业未来的生产计划和长电信客户流失的分析与研究作者:高敏导师:胡建华壬清心 昆明理工大学硕士论文远规划提供理论指导。唯有这样,中国电信才能在激烈的竞争中,高瞻远瞩,永不出局【7】。目前,应用数据仓库技术,改善企业决策支持模式,并取得最大的投资回报,已经成为大多数成功企业的共识[8119][1o】【11舭】。作为当今发展最快,吸收新技术最快的电信企业,原始数据正在快速地积累和膨胀,如何保存并利用好这些珍贵的资源,将其中蕴藏的信息转化为生产力,将成为业内人士所关注的又一个技术熟点。因此数据仓库、数据分析和数据挖掘的技术成为电信行业信息系统的发展趋势。》国外电信行业的信息系统目前,世界上已有多个国家的电信公司正在利用数据仓库技术提升利润空间。比利时国家电信经纪入使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为‘Ⅲ。此外,英国电信公司采用数据仓库应用系统保证了关键性业务的处理【12】。NCR联合太平洋铁路公司,将几百个数据库合并转换成数据仓库应用系统,能准确识别豁免税购买,一年能节省100万美元营业税;通过在部分铁轨上提速,每月节省30万美元。应用系统在可支付帐目、设备维护、市场营销以及汽车和火车头调动等方面提高了操作效率,改进了服务质量【12l。1.3论文的项目研究背景、研究内容及意义≯论文的项目研究背景本文是基于中国电信昆明分公司经营分析支撵系统项目为背景来展开的。昆明电信经营分析支撑系统是电信运营商为在激烈的市场竞争中生存和持续发展,尽可能全面地满足企业经营管理工作的需要,跟上市场形势的变化,使庞大的数据库系统有效地产生企业知识,以新经营管理支撑手段及时准确地了解市场竞争、业务发展和资源使用情况,以便及时发现问题和解决问题,并根据分析结果及时调整政策而开发的分析系统,电信客户流失韵分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文目前该项目首期已结束,2004年的帐务数据已导入、核对完毕,数据仓库已初步建立,为后续工作的开展奠定了基础。》论文的研究内容本文针对昆明电信PAS流失客户,从时间、地域、产品类型、在网时长、用户状态、城乡标识、行业、年龄等角度进行分析,通过构建数据仓库模型得到数据挖掘需要的样本集,通过聚类及知识领域的指导来生成关于PAS客户流失的决策树,找出PAS客户流失的特征和规律,来辅助昆明电信制定营销政策。>论文的研究意义经营分析支撑系统的建设成为昆明电信分公司经营分析的有力辅助工具,从海量客户数据中细分客户、进行深入分析,进行针对性的后续营销,为公司的经营决策寻找最佳路径提供有力支撑,有利于提高整体经营管理水平。在昆明电信的业务中,PAS/PHS(小灵通)占有重要的位置【3】。如下图I_I所示:图i_I2003年l~12月电信收入比例(来自信息产业部)根据调查机构的数据显示,“用户保持率”增加5%,就有望为运营商带来85%的利润增长,发展一位新客户的成本是挽留一个老客户的4倍;客户忠诚度下降5%,则企业利润下降25%:向新客户推销产品的成功率是15%,然而,向老客户推销产品的成功率是50%f3】【引。这些数据表明:如何防范老客户流失必须要引起高度重视。因此进行PAS用户的客户流失分析是极为重要的。本论文是为5.17电信日制订PAS营销政策提供辅助服务的。电债客户流失的分析与研究作者;高敏导师t胡建华王溥心 昆明理工大学碗士论文键。第二章研究的主要内容及拟采取的主要技术路线本章详细介绍了论文的主要内容、拟采用的技术路线和涉及到的主要技术关2.1论文的主要内容本文是基于中国电信昆明分公司经营分析支撑系统项目为背景来展开的.是为昆明电信制定“5.17电信日”活动的P^S营销政簧提供辅助服务的。针对PAS客户流失分析主题,将从昆明电信原有数据库系统中抽取与PAS有关的数据,经过抽取、清洗、转换等过程后进入数据仓库,从行业、用户状态、地域、费率类型、营销统计属性、城市标识、vIP客户标识等方面建立PAS客户流失主题立方体,运用OLAP分析PA$客户流失的基本特征,同时进行数据挖掘的样本数据的采集,建立数据挖掘模型得到PAS客户流失的特征和规律,其体系结构如图21所示:图21队s客户流失系统体系结构在PAS客户流失分析中,存储PAS信息的数据表较多,关系比较复杂,如表ACCT存储了PAS客户的帐务信息,表SERV存储了PAS客户的资料信息等,其数据模型如图2_2所示:电信客户流失的分析与研究作者;高域导师:胡建华王清心一一一一一一一 昆明理工大学硕士论文图27PAS客户流失数据模型2.2拟采用的技术路线针对PAS客户流失分析主题,进行数据仓库模型的设计,其中概念模型设计阶段要确定与PAS客户流失分析主题有关的因素、需要描述的问题(如:PAS流失用户数和用户流失前的消费额);逻辑模型设计阶段拟采用实体关系建模和维度建模方法分别建立PAS客户流失分析的实体关系模型和维度模型;物理模型设计阶段确定建立PAS客户流失分析时采用的存储结构、索引策略、存储策略(使用表合并和表分割),运用缓冲池的技术进行存储分配优化。基于PAS客户流失分析主题建立数据仓库模型。根据设计的内容,建立时间维、流失时间维、部门维、产品维、VIP客户维、统计属性维、属地维、地处维、费率类型维、使用类型维、在网时长区间维、客户价值区间维等维度,同时构建PAS客户流失分析主题事实数据表,从而得到PAS客户流失分析的数据仓库模型。数据的采集与清理需要补全年龄数据,拟采用统计分析中的因子方差分析和电信客户流失的分析与研究作者:高敏导师:胡建华王清心.10. 昆明理工大学硕士论文交互作用分析排除与年龄无关的属性型的因素,确定与年龄有关的因素,同时利用相关性分析确定数值型数据是否与年龄有关,并利用这些因素运用判别分析方法对未知的年龄进行预测。在构造补全年龄需要用的数据(如:月平均消费、月平均话务量)时,需要找出客户流失前12个月每个月的消费和话务量,然后找出产生费用和话务量的月份的个数(因为有中间新增用户和停机保号用户)。本文将利用OLAP来提取这些数据,简化运算过程。当数据补全后重新生成数据仓库模型,因此,数据仓库是一个不断反复和不断完善的过程。运用数据仓库中的数据,构建数据挖掘宽表,拟采用OLAP对宽表的样本数据进行采集,并对目标维变量进行检验,从而确定目标维变量;用聚类算法构造出PAS客户流失分析主题的挖掘模型,由于聚类算法具有无监督性,使用因子统计分析方法找到相关特征分量,对聚类模型改进,进而完成PAS流失客户的分类,找到客户流失的共性特征;把与目标维变量有关的特征向量分别与目标维变量结合构建聚类模型,得到各特征向量对流失特征的影响频度;用决策树算法构造出关于PAS流失客户的决策树,为客户流失的预测做准备,由于决策树算法的不稳定性,用聚类的结果以及电信领域知识来指导决策树的节点和节点值,进而指导决策树的生成,最终得到较为合理的客户流失的规律和特征。2.3主要的技术关键>统计分析在数据采集和清理过程中,ETL是一个相当复杂的过程,但因为有经营分析系统的项目背景,在本文开始进行时,ETL已不再是难点,而数据的补全是本文进行过程中的一个技术关键。本论文将为此付出大量的时间,通过对大量相关技术和统计方法的研究,最终确定拟采用OLAP以及因子分析、交互作用分析、相关性分析及多种判别分析等分析方法,来实现样本空间中特征量的取舍、影响度、补全预测等预处理工作。≯数据仓库、OLAP无论是在数据采集和清理中,还是在数据挖掘的样本数据集的构造过程中,数据仓库和OLAP分析都将贯穿始终,起到重要的作用。建立数据仓库模型和电信客户漉失的分析与研究作者:高敏导师;胡建华王清心 昆明理工大学硕士论文进行OLAP分析,不仅要对系统有全面的了解,而且要对进行分析的内容即PAS客户流失主题的业务熟悉,才能合理完成数据仓库模型设计的各个阶段,得到与PAS客户流失有关的特征分量,恰当利用OLAP的分析功能,得到向量空间较好的样本集。>数据挖掘在建立数据挖掘“宽表”的基础之上,拟采用聚类方法对特征分量进行分类,鉴于聚类算法的无监督性,拟结合因子分析方法进行聚类,得到流失客户的共性特征;把各个特征分量与目标维变量结合进行聚类,得到各特征分量对客户流失的影响频度;拟利用聚类的中间结果共性特征和影响频度分别指导决策树的节点和节点值,并结合领域知识和经验,获取决策树的生成规则,指导决策树的生成。因为数据挖掘是比较先进的技术,本论文将花费大量的精力寻找应用此技术的路线,合理地使用聚类的结果结合领域知识对决策树的生成进行指导,得到合理的流失特征和规律。电信客户斑失构分析与研究作者t高敏导师:胡建华王清心 昆明理工大学硕士论文第三章PA$客户流失分析主题数据仓库模型本章针对PAS客户流失分析主题介绍了构建数据仓库模型过程,在逻辑设计阶段描述了维度、事实表的构建,给出了PAS流失分析的实体关系模型和维度模型。数据模型的构造无疑是数据仓库的建设过程中最关键的一步‘饥。数据模型的影响是深远的。它决定了数据仓库所能够进行的分析的类型、分析的细致程度、分析的效率以及响应时间。不同的模型会导致不同的存储空间以及数据更新策略,并直接影响着数据仓库项目的投资【l4】【l51。可以说,模型设计是系统的基础和成败的关键,数据仓库模型的好坏,决定了数据仓库项目的成功与否。数据仓库模型的设计大体需要经过以下过程:※概念模型设计※逻辑模型设计※物理模型设计3.1PAS客户流失分析主题的概念模型设计数据仓库是面向决策分析的数据库,无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是需要解决的。在本系统中,需要解决的问题是小灵通(PAS/PHS)的客户流失问题。由“图21PAS客户流失系统体系结构”可知,与PAS的客户流失相关因素的数据可来源于“帐务中心”、“97系统”、“联创系统”、“10000号”、“网络中心”、“”智能网、“非结构化数据”。但由于客观原因,系统的样本选择受到了限制。本系统的数据基本上只来自于“帐务中心”,而且由于项目中现有的硬件资源有限,PAS详单的数据量太大,无法放入系统中。主题域是围绕小灵通的客户流失来进行的,在此,从两个方面来对小灵通的客户流失进行描述:流失用户数和用户流失前的费用。对于流失用户数和费用的主题域,可以根据流失用户的属性来分别确定不同地域、不同产品类型、不同部门、不同费率类型等方面的流失用户数及流失前的费用,从而找出它们之间的关系,进而可以得到小灵通流失客户的特征。电信客户漉失的分析与研兜作者t高敏导师t胡建华王清心 昆明理工大学硬士论文3.2PAS客户流失分析主题的逻辑模型设计逻辑建摸是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用【7l【9】【加1【14】【151。目前较常用的两种建模方法:实体关系建模(Entity—RelationshipModeling)和维建模(DimensionModeling)。下面将针对昆明电信PAS客户流失分析分剐给出实体关系模型和维度模型。3.2.1实体关系建模实体关系建模通过两个概念(“实体”和“关系”)构造特定的数据模型7Ⅱ14】【15】。实体关系模型是一种抽象的工具,能够简化企业中复杂的数据关系,并把它用规范的方式表示出来,使其易于理解。在本系统中,需要对PAS流失客户的数据进行分析,从现有数据库数据中选取以下实体模型⋯3:设备、资源、帐户、客户、出帐一收入等。>设备(serv):其属性包含计费帐务系统中的用户资料信息;》资源(ServProduct):其属性包含计费帐务系统中的用户占用资源信息;》帐户(Acct):其属性包含计费帐务系统中的帐务信息;》客户(Cust):其属性包含计赞帐务系统中的客户信息表信息;》出帐一收入(AceFee):其属性包含计费帐务系统中的出帐及收入信息。根据以上各实体及其属性可以褥出“流失客户”实体,使其属性包含流失客户的各种特征信息。现建立实体关系模型如图3_l所示:电信客户流失豹分析与研究作者:高敏导师:胡建华王漓心 昆明理工大学硕士论文3.2.2维度建模图3-1流失主题部分实体关系模型维度建模用于数据仓库的设计中。其目的是组织数据以提高旨在分析和汇总大量数据的查询的效掣7l【14】【15】【16】。星型结构或雪花型结构是数据仓库的典型逻辑结构。而两种结构相比较,星型结构比雪花型结构包含的用于信息检索的连接少,更容易管理,所以在本系统中,着重采用了星型结构。星型模式是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(1)imensionTable)组成㈣【16】。每个维表都有一个维作为主键。所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。≯维度的构建在PAS客户流失分析中,使用常规维度的星型架构和父子维度。下面举例说明不同类型维度的构建。电信客户流失的分析与研究作者:高敏导师:胡建华王清心.15. 昆明理工大学硕士论文当维表中的数据字段为时间类型时,可构建时间维度。如系统中的时间维和流失时间维均建为时间维度并在层次结构上使用了“年、月”的分层。采用星型架构的标准维度方式可以构建普通或有层次的维度,如在PAS客户流失分析中,维度“VIP客户”即为无层次的维度,而维度“使用类型”则为有层次的维度,它首先把使用类型分为“计费、免费、自用”,而免费又可按合同号分为“合同号100至500、合同号小于500”。在PAS客户流失分析中,如维度“部门”是采用了父子维度的创建方式的,字段“AREA_ID”即为成员键列,SUP为父键列,标识AREAjD的父代,从而可以构建多重层次关系。表3_1详细描述了该分析主题的维度设计及构建。模型名称:PAS客户流失分析模块功能:用于PAS客户流失消费构成分析对应的事实表IFACT—PAS—LS—FEE度量:收入数据粒度:在事实表中记录流失用户相关信息及其在流失前每月的费用信息相关的维度:(1)时间维(层次:年、月)(2)流失时间维(层次;年、月)(3)部门维(3层),层次关系如下:,觋业大客户罄l现业商业客户部J公话业务部弋增值业务部lf--邦县台计。安宁局、呈霞局、宜良曷、石林禺、晋宁局、嵩明禺、L全局合计l富民局、功禄局、东川局、寻甸局、官渡禺、西山局1L现业合计;营销中心、东区局、南区局、西区局、北区局(4)产品维(PAS专号、虚拟PAS)(5)VIP客户维(VIP用户、非VIP用户)(6)营销属性维电信客户流失的分析与研究作者:高敏导师r胡建华王清心 表3_1PAS客户流失分析维度设计说明书>事实表的构建每个数据仓库或数据集市都包括一个或多个事实数据表。星型架构或雪花型架构的中心是一个事实数据表,用以捕获衡量单位业务运作的数据。事实数据表不应包含描述性信息,也不应包含数字度量字段以及使事实与维度表中的对应项相关的索引字段之外的任何数据。PAS客户流失分析主题中事实表构建如表3j所示:事实表(FACT—PAS—LS—FEE)原表字段名数据类型备寝名字段名数据类型注SERVIDvarchar(10)ACC—FE吼S_PASSERVIDnumeric(9)AccTIDVarchar(10)ACCFEELSPAS—惦CTIDnumeric(9)伽STIDVarehar(10)ACC—,FEE——kS—.PASCUSTIDturmeric(9)SERVJyPE-IDVarchar(10)维SERNjj娶jKSSERV—TYPE_IDVarchar(6)JLDATEsmalldatetime维ACCjEE土SjKSJF_DATEsmalldateti(4)me(4)LSjF_DATEsmalldatetime维SERVj3土S_PASLSjF_DATEsmalldateti“)me(4)NLQJchar(4)维SERVJJ—、sjKSNL叮char(4)TRADETYPEIDVarchar(10)维SERV_TJ—LS—PASTRADE—TYPE_IDVarchar(10)电信客户流失的分析与研究作者:高敏导师:胡建华王清心 昆明理工大学硬士论文TRAIFF_GROUP_IDVarchar(5)维S嘣jj上S_mASTRAIFF_6ROIPIDARE^IDchar(4)维艇烈j1上S._PASAREAIDVarchar(10)ISCITYchar(4)维鹱黜j3j玉jKSISCITYchar(4)VIPchar(4)维SER、j3jSjKSVlPchar(4)PRE_ITEMTYPE—IDVarchar(5)维SERV_TJ_LSPASPRE——ITEg—.TYPEVarchar(5).ID蹦Yarchar(10)维髓删jj工S_PASAIlEA_ID、赋值Varchar(10)CUSTJYPE—ID-YXchar(4)维疑删j3上S—PASDEVDEPT_ID(左char(4)一位)CUST—TYPLID-TJchar(4)维SERV31.磷Ij}sDEVDEPTID(右char(4)一位)Z1『SCchar(4)SERV_TJ_LSPASZWSCchar(4)ZWScQJchar(4)维鼬勰j】jSj嗡ZWSCQJchar(4)AcCNBRVarchar(is)ACC—.FEE—.LS—。PASACC№RVarchar(10)V^LDecimal(9)度ACC_FEE_LS_PASVALnumeric(9)量值表32PAS流失客户分析主题事实表数据转换规则注:表“ACc_FEE-LS_PAS”和表“SERV_TJ_LS_PAS”通过字段“SERv_ID”相关联,另外,表“ACC—FEE—LS—PAS”和表“SERV5J-Ls—PAs”都不是原始数据库中的表,而是经过很多处理得到的。>PAS客户流失分析的数据仓库模型根据已经构建出的维度和事实表,建立出来的PAS客户流失分析的数据仓库如图3■所示:电信客户流失的分析与研究作者:高敏导师;胡建华王清心 昆明理工大学硕士论文图3_2PAS客户流失分析的数据仓库模型3.3PAS客户流失分析主题的物理模型设计在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据存储策略、数据的存储分配优化等问题。根据需要,在PAS客户流失分析中对数据的存储结构选用RAID5,数据的索引策略使用微软的SQLSERVER提供的两种索引:聚集索引(clusteredindex,也称聚类索引、簇集索引)和非聚集索引(nonelusterexiindex,也称非聚类索引、非簇集索引)相结合的方式,如在表ACC—FEE—LS—PAS中对字段JF_DATE进行聚合索引,以增加查询的速度。而在表SERV—TJ—LS~PAS中对主键SERV—ID建立聚集索引,同时对字段TARIFF_GROUP_ID、USER—STATE、AREA_ID、DEVDEPT.ID、ISCITY、PRE_ITEM_TYPE_ID建立非聚集索引。在系统中,经常需要为电信业务人员提取数据,对于重要程度高、经常存取并对响应时间要求高的数据,采取的存储方式是把它整合进在线数据库中,以便于以后的数据提取;而对于使用频率低或对存取响应时间要求低的数据,不放入电倌霉户流失的分析与研究作者t高敏导师:胡建华王清心 昆明理工大学硕士论文在线数据库中。使用合理的存储策略可以提高系统的I/O效率,在本系统中,采用以下的存储优化方法:>表合并表合并是按照常用访问序列确定表的物理存放位置的方法。如:经常需要统计用户从去年到今年每个月份的消费额,则需要从表ACCFEE200401、ACC_FEE_200402⋯⋯ACC—FEE一200503中分别求得,需要做15次操作,相当复杂,由于表的数据结构相同.可以把这些表合并成一个表ACCFEE,再进行类似操作时就相当方便了。另外如话务量的表也采用相同的处理方法:把表ACC_STAT200401、ACC_STAT_200402⋯⋯ACC_STAT_200503合并成一个表ACC_STAT。>表分割为了便于数据的访问,可以在逻辑设计中对大表进行分割。需要访问大表中某类数据时,只需访问分割后的对应小表从而提高访问效率。在本系统中,表EQUIP_ACC包含了计费帐务系统中从2002年至《现在的出帐及收入信息,此类信息在每个月大约有600万条记录,所以当需要在这样庞大的一个表(约2.34亿条记录)中查询信息时,将是非常痛苦的。这时采用表分割的方法,使得一年的数据放入一个表中,即把表分割成表:EQUIP_ACC__2002、EQUIP_ACC2003、EQUIP_ACC_2004和表EQUIP-Acc_2005t另外,数据的存储分配优化采用SQLSERVER2000提供的缓冲池技术。电信客户镳失舳分析与研究作者t高敏导师t胡建华王清心 昆明理工大学硕士论文第四章数据的采集和清理本章介绍了数据的采集及清理过程中ETL模型的建立,举例给出了数据抽取、转换和加载过程中包的模型及代码;以年龄数据为例,详细描述了数据清洗中需要做的清除噪音数据及补全数据的过程,并介绍了数据噪音清除和补全时采用的统计分析算法。4.1ETL模型ETL即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系统向数据仓库加载的主要过程。ETL过程关系到数据的质量,是数据仓库应用的基石。根据目前建设数据仓库的经验,这个过程一般占到这个过程时间的50%以上。本系统中采用SQLSERER2000的DTS工具完成ETL过程,如:PAS流失客户基本信息的转换包及转换代码如下所示:》包SERVTJPAS图41包SERV—TJ—PAS≯转换代码:SELECTONLINETEST.ACC—FEEINFO_200405.ACCT_ID,ONLINETEST.ACCFEEI'NFO_200405,ACCTjD,ONLINETEST.ACC—FEEINFO_200405.CUST_ID,电信窖声流失的分析与研究作者,高敏导师t胡建华王清心 昆明理工大学硕士论文ONLINETEST.ACC—FEEINFO_200405.ACC_NBR,ONLINETEST.ACC—FEEINFO_200405.SERV_TYPEID,ONLlNETEST.SERV.TARIFF_OROUPID,ONLlNETEST.SERV.BILLING_TYPE_ID,ONLINETEST.SERV.INSTAⅢME,ONLINETEST.SERV.WORK_ID,ONLlNETEST.ACCFEE1NFO_200405.ACCT_WORK_ID,ONLINETEST.CUS£一REA_200405.AREA_ID,ONLINETEST.CUST_AREA_200405.AREAID,’2004—5-26’ASJF_TIMEFROMONLINETEST.ACCFEEINFO_200405,ONLINETEST.CUST_AREA_200405,ONLINETEST.SERVWHEREONLINETEST.ACC_FEE_INFO_20(M05.ACCT_ID=ONLINETEST.CUST_AREA●00405.ACCTIDANDONLINETEST.ACCFEEINFO200405.ACCTjD=ONLlNETEST.SERV.ACCTIDANDONLINETEST.ACCFEE1NFO.200405.SERVWORK_ID=ON£妣!EsrSERV.WORKID4.2年龄数据的噪音清除当分析客户流失特征时,年龄是反映用户自然特征的一个重要因素。在数据采集中,年龄是根据身份证号来确定的,而事实上,在现有电信的数据库系统中,身份证号是不完整的,有些为燥声数据,有些为空值,因此需要对年龄数据进行补全。在PAS流失客户数据的身份证字段中发现有些数据不符合身份证号码的位数,而有些根据身份证号得出的年龄小至2岁,大至99岁,显然此类数据为燥声数据,需要清除,代码如下:DELETEFROMSERV—.EX—.PAS—.LSINSERTINTOSERV,。EX..PAS—.LSSELECTSERVID,MAX(PAPERJD),NULLFROMSERV——EX—.200502WHERESERV_IDlN(SELECTDISTINCTSERV_IDFROMSERVTJ——LS)GROUPBYSERV_ID电债客户藏失的分折与研究作者;离敏导师:胡建华王滴心·22。 昆明理工大学硕士论文UPDATESERV—EX—PAS—LSSETCSNY=SUBSTRING(PAPERID,7'4)WHERESUBSTRING(PAPERID。7,2户’19'AND(LEN(PAPER_ID)=150RLEN(PAPERID)=1$)ANDSUBSTRING(PAPER_ID,9,2p。20’ANDSUBSTRING(PAPER_ID,9,2)<_穆5‘UPDATESERV—EX—PASJSSETCSNY=CONVERT(CHAR(4),(’19’+SUBSTRING(PAPERID,7,2)))WHERESUBSTRING(PAPER_]D,7,2)>020’ANDSUBSTRING(PAPERID,7,2卜爿95’AND(LEN(PAPERID)=15ORLEN(PAPER_ID)=18、4.3年龄数据的补全过程概述经过了噪音数据的清除以后年龄数据仍然有部分空值,需要补全。对于含空值比例较小的数据集,删除含空值的数据记录不失为一种有效的方法。然而当空值达到一定的比例时,如采用直接删除的方法将大大减少数据集中的记录,从而将可能丢失大量的信息。因此,空值也是数据清洗的一项重要内容,本系统中使用数据挖掘及统计分析的技术,通过已有的数据集预测空缺值的可能取值,具体过程为:1.确定与年龄有关的因素:对属性类型的数据采用因子方差分析和交互作用分析,对数据型的数据进行相关性分析;2.对年龄按区问进行分类,分为;少年、青年、中年和老年;3.对有关的属性类型的因素进行分类,分别进行分析:4.以一组数据为例,选用不同的判别方法进行判别分析;5.选择回代判错率小的判别方法,对未知年龄数据进行预测。4.4对属性类型的数据采用因子方差分析4.4.1单因子方差分析算法方差分析就是把实验数据的总波动(总变量或总方差)分解为由所考察因素引起的波动(各因素的变差)和随机因素等引起的波动(误差的变差),然后通过分析比较这些变差来判断哪些因素对所考察指标的影响是显著的,哪些是不显著的【17】【18l。电信客户流失舶分析与研究作者;高敏导师t蛆建华王清心·23- 昆明理工大学硕士论文单因子方差分析问题就是在方差相等情况下对多个正态均值是否彼此相等的一个假设检验问剐17Ⅱ18】【19】【20】【21]Fz21。所涉及的一对假设如下:1to:卢1=1zj=⋯∥,,1tl:诸口f不全相等。若在显著性水平口上拒绝岛,则称因子4在水平口上是显著的,简称因子A显著。否则称因子4不显著。寻找检验上述一对假设的关键在于总平方和的分解公式。在此需简要介绍凡个数学概念及公式:>偏差平方和及其自由度在统计学中,把k个数据",肋,⋯,Yk对其均值Y的偏差的平方和:伊(y,.歹)2+仳.歹)2+⋯+Op歹)2屯i.歹)2称为七个数据的偏差平方和,有时简称平方和,它是一个重要的统计量。偏差平方和Q常用来度量若干个数据集中与分散(即波动)的程度。Q中的k个偏差M一剪Y2一只⋯,YI一萝间有一个恒等式:∑(乃一罗)=0。故Q中独立的偏差只有缸1个。记产缸l,并称厂为Q的自由度。Q的简化计算公式为:Q=∑Y;一T2/k,T=y。+y:+⋯+Yk。》平方和的分解公式单因子试验共有H=m,+埘2+⋯+m,个数据,其总平均值为罗=吉喜薹驴去喜m∞只=寺缸。这"个数据的波动可用总偏差平方和s,表示:rm1S,=∑∑(yF一粥矗=”一1。J。1jffil对昌中每一项插入±只二项,利用代数运算,可把品分解为如下两个平方电信客户流失酶分析与研究作者t高敏导师;龋臻毕薹清心 昆明理工大学硕士论文和方和S,:壹羔【(y,一只)+(只一y-3121-1t-1=∑∑(_y口一只)2+∑m。(只-y-)2,=1J=lJ-I其中第一个平方和,Ⅲf∑艺(y口一只)2I王1』t1称为组内平方和%,又称为误差平方和s。,其自由度以=玎一r.第二个平∑m。(只-YD2称为组间平方和‰,又称为因子A的平方和只,其自由度厶=r一1。总平方和分解公式:sr2s。+吼,fT=工+L。这些都是代数恒等式。>各平方和的计算记Z为水平下数据之和,T=五十正+⋯+£为总和.各平方和简化计算公式如下:舄=竞。-I兰j-1圹2iT2,,r⋯1,以:芏十星+...+里一!,厶:,一1,“m1rn2m,H—S。-n-Ql+Q2+⋯+O,,正=n—r。常用的计算过程是:先按前二式计算曲和S。,然后用减法计算S。=Sr—S』,正=fT—fA。这样计算可省略了S。的大量计算,又可提高计算精度。≯均方和电信客户流失的分折与研究作者:高敏导Ji|jt胡建华王清心 昆明理工大学硕士论文平方和除以自己的自由度称为均方和,亦可称均方,记为MS。其排除了自由度对平方和的干扰,便于比较。误差的均方和与因子A的均方和分别为蝇=鲁,MSa=鲁.九一r,一I在单因子方差分析的三个基本假定下,有E(S。)=(行一r弦2,E(S。)=(,一1)仃2+Em,(∥,一∥)2。1=1其中∥=吉喜聊幽=E(刃。误差均方和脚。是盯2的无偏估计。在原假设风成立下,因子A的均方和MS。也是仃2的有偏估计。>F检验可以证明:在原假设日。成立下,两个均方和之比服从F分布,即F:磐~F(r-1扩r)。埘。、77此F是用来检验原假设H。成立与否的检验统计量。当原假设凰成立时,两个均方和都是盯2的无偏估计,其比值F不会过大.当原假设凰不成立时,分子的均方和^掇。是盯2的有偏估计,其比值会较大。拒绝域应为∥={F>c},对给定的显著性水平口,其中c可由F分布的1一口分位数E一。(,-1,"一r)确定。≯方差分析表由以上概念可以得到方差分析表4_1如下电信客户流失的分析与研究作者:高敏导师t胡建华王清心 昆明理工大学硕士论文来源平方和自由度均方和F比因MS。:兰F:盟子S。=∑m。(只-y)2|~=p-1r—lMS。A误S。:主艺(蜥一只):正=H—rMS。:量差et-Ij=ln—r和S,=∑∑(%-y)2矗=”一1T表41方差分析表从而可以得到结论:◆当F>E.。(r-1,n-r)时,拒绝原假设Ho,即认为诸正态均值间有显著差异;夺当F≤E一。(,一l,n-r)时,保留原假设日o,因为尚无发现诸均值∥。,∥2,⋯,从间有显著差异的迹象,只好保留日。。》显著性概率P和临界概率值口上述结论中提到:当各正态均值有显著差异时,F>E.。(r-1,n-r),假设发生F>E。(r—l,,l一,)的概率为P,则称P为显著性概率。若检验的显著性水平(或危险率)给定为仉时,则可以把㈣作为临界值来检验零假设(即检验差异是否显著)。由给定的显著性水平,通常是a=0.05。≯因子方差分析结论由此可以得出因子方差分析结论:々若P值小于临界概率值伍,则拒绝零假设,各组均值有显著差异,即因子与考察指标有关。夺反之,若P值大于临界概率值俚,则不能拒绝零假设,各组均值无显著差异,即因子与考察指标无关。4.4.2单因子方差分析结果根据从数据库中提取出电信客户属性,一一分析是否与年龄有关。选取的客户属性为:行业(TRADE-_TYPE)、用户状态(USER—STATE)、地域(AREA_ID)、费率类型(TARIFF_GROUPID)、营销统计属性(DEVDEPT_ID)、城市标识电信客户流失的分析与研究作者;高敏导师;胡建华王清心-27· 昆明理工大学硕士论文(ISCITY)、VIP客户标识(VIP)。下面给出分析结果:图42因子方差分析:行业—年龄由图42可以看出在针对“行业”这个因子的分析中,有5885条记录(n=5885),可分为7类数据(,=7),根据表4.1可以得到;自由度:fA=,一1=7·1=6;办=n一1=5885·l=5884;正="一r=5884—6=5878平方和:S。=∑M(只一刃2=1007.0112;,Ⅲ●&=∑∑(均-y,)2=595796.1942I-l1=1,m+Sr=∑∑饥-y)2=696803.2054扣lJ=l均方和:MS。=≠与=167.8352;电信客户流失的分析与研究作者t高敏导师:胡建华互清心-28- 昆明理工大学硕士论文MS。:旦:118.3729r/一rF:F:坐:1.42MS。显著性概率:p=O.2035>a(0.05)根据因子方差分析结论可知:行业因素属性与年龄无关。≯用户状态(USER_STATE)图4-3因子方差分析:用户状态—年龄由图43可以看出在针对“用户状态”这个因子的分析中,有5885条记录(n=5885),可分为3类数据(严3),根据表Ll可以得到:自由度:^=,一1=3·1宅;^=”一1=5885-1。5884:正=n—r25884-2=5884平方和:s。=Em,(只一歹)2=12981.2232:iffilrm.S。=∑∑饥一只)2_683821。9822:I=1Jzl电信客户流失钓分析与研究作者t高敏导师:胡建华王漶心-29- 昆明理工大学硕士论文Sr=∑r∑Mj嘶一刃2=696803.2054i-IJ;I均方和:船^=rS—A1=6490.6116;懈。:量:116.2567H—rF.F:兰堕;555.83埘。显著性概率:p地域(AREAjD)]he札-procedureCImI.eveII耐orMt.I∞CI●箱I.刊ellVII啪e^畦^-lDII10eo16081003101010111012I口la1014101510161017Nobl-ofohervetI吖5985TheoL-Pr∞edumDepeadentY^rl曲Ie:■也‰ucceNodeIErrorCorrectedT吐tSour髓&一of蚱gquare§-e¨洳MFv^l∞Pr>F埔84t2.姻3184t.24982.88n.eO诣5674698880.712$118.04405884曲ee08.2554R-轴阻mCoalfYarRoot峨也h0.00舶97a0.6625510.eB49135.‘8147*TypelllS8■晰1毒4鱼reF‰luePr)F图4_4因子方差分析:地域—年龄由图44可以看出在针对“地域”这个因子的分析中,有5885条记录(n=5885),可分为11类数据(严11),根据表41可以得到:自由度:六=,一1=11-1=10;矗=H-155885一125884;无=”一,=5884一lO=5874电信客户流失的分析与研究作者;高敏导师t胡建华壬清心.30. 昆明理工大学硕士论文平方和:S。=Em。(只-y)2=3412.4931:J-1只=∑∑‰一只)2=693390.7123;扭l1=1,Ⅲ·Sr=∑∑(yF一刃2=696803.2054均方和:MS』:S』.=341.2493;,一j坶:旦:118.0440以一rF.F:兰叁江:2.89MS。显著性概率:p=o.0013<∞t(0.05)根据因子方差分析结论可知:地域因素属性与年龄有关。使用同样的方法可以得到:费率类型(TARIFFGROUP_ID)因素属性与年龄有关,营销统计属性(DEVDEPTID)因素、城市标识(ISCITY)因素和VIP客户标识(VIP)因素属性均与年龄无关。4.4.3交互作用分析从单因子方差分析结果可知:与年龄有关的因素为:用户状态(USER—STATE)、地域(AREA_ID)和费率类型(TARIFF_GROUP_ID)与年龄无关的因素为:行业(TRADETYPE)、营销统计属性(DEVDEPT_ID)、城市标识(IscITY)和VIP客户标识(VIP)。虽然“行业(TRADETYPE)、营销统计属性(DEVDEPT—ID)、城市标识(1scITY)和VIP客户标识(vIP)”的单个因素对年龄不产生影响,但不同因子不同水平的交叉搭配可能对年龄有影响【17】【18112011221,这种联合作用称为因子间的交互作用。使用交互作用分析,得到分析结果如图4-5所示:电信客户流失的分析与研究作者:商敏导师;胡建华王清心 昆明理工大学硕士论文图4_5PAS客户流失交互作用方差分析由图4-5可以看出交互作用模型中,显著性概率P的值没有小于Ⅱ(0.05),所以各属性间的交互作用对年龄是没有影响的。4.5对数值型的数据进行相关性分析对数据型的数据进行相关性分析,经过数据整合,可以得到的数据型的数据属性为:在网时长(ZWSC)、月平均消费(FEE_PJ)、月平均话务量(QUAN_PJ)。对各属性进行与年龄的相关性分析,结果如图4.6、图4_7和图4-8所示:电信客户漉先的分析与研究作者:高敏导师:胡建华王清心 昆明理工大学硬士论文图4_6相关性分析:在网时长—年龄图4_7相关性分析:月平均消费一年龄图4_8相关性分析:月平均话务量一年龄电信客户流失的分析与研究作者t高敏导师:胡建牮王清心-33- 昆明理工大学硕士论文相关性分析采用的是零假设的方法,如图46中,首先进行零假设即假设“在网时长”和“年龄”是无差异的,得到的相关性p<0.0001,则拒绝零假设,“在网时长”和“年龄”是相关的。同理,由图47中可以得到“月平均消费”和“年龄”的相关性胪0.0028<0.05,拒绝零假设,“月平均消费额”和“年龄”是相关的;由图48中可以得到“月平均话务量”和“年龄”的相关性p卸.0007<0.05,拒绝零假设,“月平均消费额”和“年龄”是相关的。其相关性可由“年龄”与“在网时长”、“月平均消费额”、“月平均话务量”的相关性散点图上更为形象地表现出来,如图4.9所示:图4-9相关性分析;散点图4.6对年龄按区间进行分类为了更好得对年龄进行预测和分析,按照电信的常规惯例,把年龄按区间分为:≯少年:18岁以下:电信客户濂炙的分析与研究作者r高敏导师t胡熏华王精心 昆明理工大学硕士论文>青年:18.30岁;≯中年:30.60岁;>老年:60岁以上。4.7用判别分析法对不同类别的数据进行年龄预测4.7.1判别分析方法的选择判别分析是判别样品所属类型的一种统计方法,是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进步判别法。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等,按判别准则的不同又提出多种判别方法。常用的判别方法有距离判别法、Bayes(贝叶斯)判别法、Fiser判别法和逐步判别法。无论哪一种判别方法,去判断样品的归属问题,均不能永远做出正确的判断,一般总是发生错判,用错判概率的大小来衡量判别效果是很自然的想法,目前已研究出很多种估计错判概率的方法。用建立判别函数的训练样品进行回代,用错判的样品数比上全体样品数作为错判概率的估计。对数据按与年龄有关的属性进行分类,此处选取其中的一种分类的数据:TRAIFFGROUPID一1000(PAs资费为标准资费),AREAID=1000(地域为营销中心)并且USERSmⅡE-FOA(用户流失时的状态为正常,即正常流失)。采用不同的判别分析法对这部分数据(FACTFOA1000i000)进行判别分析,分析结果如下:》距离判别法夺代码:/+距离判别法+/PROCDISCRmDATA=SASUSER.FACT—FOA—i000一i000SIMPLEWCOVDISTANCELIST;CLASSNLQJ;VARZWSCFEE_PJQUANPJ;RUN;夺判别结果(此处仅列出回代错判率)电信客户流失的分析与研究作者:高敏导师-胡建华王清心-35. 昆明理工大学硕士论文图410距离判别法判别结果由图410可以得到回代错判率为:49.31%。≯Bayes(贝叶斯)判别法夺代码/+贝叶斯(Bayes}判别法+/PROCDISCRIMDATA=SASUSER.FACT—FOA—1000一i000pool2noDISTANCEL工ST;CLASSNLQJ;priors·老年,=0.25,中年钟.25‘青年’铷.25I少年‘毋.25;VARZWSCFEEPJQUANPJ;RUN:夺判别结果(此处仅列出回代错判率)图411Bayes判别法判别结果由图4II可以得到回代错判率为:54.40%。≯Fiser判别法夺代码/+费歇(Fisher)判别法t/腿OCcandisoDATA=SASUSER.FACT—FOA—1000一1000out=aaancan=2DISTANCEsimplejCLASSNLQJ;VARZWSCFEE_PJQUANPJ;RUN;PROCDISCRIMDATA=SASUSER.FACT—FOA—.1000..1000LIST;CLASSNLQJ;VARCANlCAN2;RUN;夺判别结果(此处仅列出回代错判率)图4—12Fiser判别法判别结果由图4_12可以得到回代错判率为:50.41%。电信客户巍失的分析与研究作者;商敏导师;胡建华王精心 昆明理工大学硕士论文》逐步判别法◆过程代码/+逐步判别法*/PROCst印discDATA=SASUSER.FACT—FOA—1000—1000CLASSNLQJ;VARZWSCFEE_PJQUAN_PJ;RUN;夺中间判别结果图4-13逐步判别法第一步图t14逐步判别法第二步由图413可以知变量“ZWSC”首先被引入,由4—14可以知没有变量可被剔除,也没有变量可被引入了。因此只需要根据变量“ZWSC”进行判电信客户派失的分折与研究作者:高敏导师:胡建华王清心 昆明理工大学硕士论文别。耷判别代码PROCDISCRIMDATA;SASUSERFACTFOA1000LISTcLASSNLQJ;VARZWSC;RUN;夺判别结果(此处仅列出回代错判率)trrorUOLiltEStIInte$torNLQJ老年青年少年中年TotaI晰e0.62670.76866.00006.78546.5322Priors6.25000.25006.25000.2500图4-15逐步判别法判别结果由图4_15可以得到回代错判率为:53.22%。>结论:根据上述各种方法的分析结果,可以看出判剐分析法的回代错判率最低,因此选用判别分析法来进行年龄的预测。4.7.2距离判别法>基本思想距离判别分析法的基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第j类的重心距离最近,就认为它来自第窍廷。》计算方法设声‘”,/.z2⋯/j(0,∑‘”,∑‘”,⋯∑‘‘’分别为G1,G2,Gj的均值向量和协方差,马氏距离定义为:D2(X,G,)=(鼻一∥‘‘’)’(∑‘。1)_1(X一//(0)判别函数为:%(z)=却D2(x,q)一D2(J,Gf)】=【J一去(∥‘n+∥‘’’)】’∑一@‘o-/J‘7’),f,J±1,2,3二相应的判别准则为:厂x∈G』,当x∈q,%(x)>o,对一切,≠f创建新变量如上所述,在确定需要的数据内容后可以从数据仓库中获取相应的数据。但是,从数据仓库中直接褥到的数据可能对客户的流失特征刻画得不够细致。因此需要在现有变量的基础上创建新交量。产生新变量的目的有两个:(1)利用这些新变量可以将客户的呼叫行为刻画得更加清晰和完整。(2)这些新变量可能比原来的变量对目标变量影响更大。在PAS客户流失分析中,创建新变量“通话费与其总消费额的比值差”,即目标变量。当数据准备好之后,需要对目标变量赋上初值。按下面的公式得出比值差的初值:BZC=0.4+(BZ_200412-BZ_200411卜0.2’(BZ_200411-BZ200410)"tO.1+(BZ200410-BZ_200400)+o.08+(BZ_200409-BZ__200408)+0.06+(BZ200408-BZ_200407)+0.04‘(BZ_200407-BZ_200406)+0.02+(BZ_200406-BZ200405)+0.004’(BZ_200405-BZ_200404)+0.003’(BZ_200404-BZ_200403)+o.002‘(BZ200403-BZ..200402)+o.001+(BZ_200402-BZ200401)需要特别指出的是:在这里仅仅是给曩标变量赋上初值,其目的是为模型准备训练,验证数据集合,初值并不是最终的结果。这些初值中包含了对模型应当如何建立的倾向性信息。选择不同的初值设置方法(比如采用不同的计算公式),将对模型的正确程度产生一定程度的影响。至此,宽表已经生成完毕,下面可以应用宽表来进行数据挖掘了e电信客户流失的分析与研究作者,高敏导师t胡建华王清心 昆明理工大学颈士论文5.3PAS客户流失分析中的聚类模型5.3.1迭代的平方误差分区聚类聚类分析是数据挖掘中的一种主要技术,是把一组个体按照相似性分成若干类别,使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类分析主要分为层次聚类和迭代的平方误差分区聚类。层次方法按群组的嵌套顺序组织数据,以树状图或树形结构来表示。平方误差分区算法试图得到一个使类内分散最小而类间分散最大的分区。这些方法是非层次的,因为所有最终的类是在同一个分区水平上的样本群组嗍[311136109]。在PAS客户流失分析中采用的就是迭代的平方误差分区聚类。使用这种方法,设m是样本参与聚类的属性个数,11是样本的个数,S是由用户预先设定的分类数目,聚类分析问题可描述为:给定m维空间R,中的n个向量,把每个向量归属到S聚类中的某一个,使得每个向量与其聚类中心的“距离”最小【2们。5.3.2P^S客户流失中的聚类分析根据以上数据准备得到的宽表,可以应用聚类对流失的PAS客户进行分类,从而得到用户流失的共性特征。建立数据挖掘模型如图5_3所示:电信客户流失的分析与研究作者:高敏导师,胡建华王清心 昆明理工大学硕士论文图5_3针对所有特征分量的PAS客户流失聚类模型由图53可以看出,聚类时选取了宽表中的所有属性,把集合聚为了5类,图中显示了第一类节点的数据,这类数据的节点路径为:Srqi2SR。10一50,Quanqi=QUAN_3,Zwscqj=N23,Zwscqj2N3·5,Srqj2sR10,Bzcqj=C一-0.1—0,Slqj=中年,UserState—FOA,Zwscqj=N5一,TariffGroupId=1000,AreaId=1000,AreaId=1016,Nlqj=老年,AreaId=1013,UserState=FOJ,电信客户流失的分析与研究作者:高敏导师t胡建华壬清心·49- 昆明理工大学硕士论文DevdeptId=6C,TradeType=B,Iscity=Y,DevdeptId=6B,TradeType=A根据每个字段代表的意义,可以得到该节点的相应解释即该类人群的共性特征:消费额区间为50元以下,话务量为3个小时以内,在网时长为2年以上,为中年或老年,流失前的用户状态为正常或用户报停,费率类型为标准资费,地域为营销中心、安宁局或东川局,营销属性为小灵通设备、统计属性为商业客户或公众客户,且地处为城市的人群。从特性数据区中,可以看出这类人群,在比值差在.0.1.0时的流失的可能性为67.69%,比值差在-0.1—0.2时的流失的可能性为2.4%⋯⋯同理,可以解释其他类人群的共性特征。5.3.3聚类与因子统计分析方法的结合使用聚类和分类之间的不同之处在于:分类问题中在分类前已经知道Y011练例的分类属性,而在聚类中就需要在训练例中找到这个分类属性值。聚类算法是无监督的,虽然前面给出了数据挖掘模型,也给出了相应的解释,但在分出的类别上,并没有显著的差异特征。有人以为在聚类时放入的属性越多,聚类越好。其实这种想法是错误的,聚类时只需要针对主要相关因素,如果放入的属性过多,反而会干扰聚类的结果。针对主要特征分量进行的聚类得到的流失客户的共性特征才是合理的。在此,选用了统计分析方法中的因子分析对聚类算法进行监督,分析各特征分量与目标变量是否相关。下面给出分析结果,如图5_4所示:电信客户流失的分析与研究作者:高敏导师:胡建华玉清心 昆明理工大学硕士论文?he札-Pm啊dumClta^L.evollnformLlcainCI●●●L.■悄I●vIlL_TAR]讦』f规ID41600100t10631994"帅已傩7AeF6H0R^FI.^.IO1I10001091100910101011'01210II{014101510161017tJ涮STAIE0F9AFOJnlDEVCEP乙lD02B5C0--日BCI站ITY2HYYIP20l心4老年青年步年中年洲eSR_10SPLl0-50SPJ00-200矾j00-300SR.S00日U0-100aS∞J7蝴.2腔J翳-5●E.Ylj也IYtJ2删灿6伽札laj●0LM_±0.J0OLI■L.10rⅢqN_$OOLIAM_9_9OLIn_5_10vIrIable:田C毗SaJr口iiedolErrorCorreoteclToLlIThe叫Pmcedlure“玎昨觚r啊h翱tllIMiFvIluoPr>F秭L2嘶5●100●.1621髓“”.70<.0001盯1108.885档1119.9059艏●tt,韩40.e0095012R-S祧roCoeffY.rRoot畦瞄--n●.119895-O!.19蛇O.076460-0.¨5031FvIlu}-.柚a.盯2.抽94.扑1.蛇D.20●.●●2.¨108.e_’.00Pr>F0.?6440.I椭口.¨M‘00010.00190.1‘B20.09600.●240<.0601<.9691图54因子分析:目标维变量各特征分量由图54可以看出,与目标变量“比值差”(BZC)无关的属性有:TI必.IFFGROUPD<费率类型)、TRADEr忡E(行业)、DEVDEPTD(营销、统计属性)、ISC[TY(地处)、V]P(V口客户)、NLQJ(年龄区间);与目标变量有关的属性有:AREA一]D(地域)、USER_STATE(用户状态)、SRQJ(消费额区问)、ZWSCQJ(在网时长区闽)、QUANQJ(话务量区问)。所以在进行聚类时,只需针对与目标变量有关的属性就可以了,得到的数据挖掘模型如图55所示:电信客户流失的分斩与研究作者:商敏导师t胡建华王清心 —~.曼塑堡三盔堂塑主堡塞图5-5针对相关特征分量的PAS客户流失聚类模型由图ss可以看出,聚类时选取了宽表中的相关属性,把集合聚为了5类,图中显示了第一类节点的数据,这类数据的节点路径为:Srqj—SR_50—100,Qu,anqi=QUAN_5—10,Quanqj2QUAN_3—5,Zwseqi2N2_3,UserState=FOA,Areald=1000,Zwscqi=N3·5,Bzcqj=C_O一0.I,Bzcqi2C一-0.2一-0.1,Bzcqj。C_-0.1_o,AreaId=1015,AreaId=1016,Srqj2SR_100-200,电倌客户溉失的分析与研究作者:高敏导师:胡建毕王清心.52. 昆明理工大学硕士论文Zwscxli=NI.2,Quanqj2QUAN10—20,Bzcqj=C_-0.3根据每个字段代表的意义,可以解释为:消费额区间为50。200元,话务量区间为3.20个小时,在网时长区间为l-5年,用户状态为正常流失,地域为营销中心、禄劝局或东川局的人群。从特性数据区中,可以看出这类人群,在比值差在.0.1.0时的流失的可能性为54.52%,比值差在.0.1~0.2时的流失的可能性为9.54%⋯⋯这类人群已经有了较为显著的特征:消费额、话务量、在网时长都处于中等水平,且为主动流失的,而且限定了地域范围。基本达到了客户细分的功能,如果采取措施制定营销政策时,较容易做到一对一营销。5.3.4特征分量聚类对客户流失的影响频度根据上述因子分析,对目标维变量根据相关属性分别进行聚类分析,得到对流失影响最大的类别,从而的得到流失用户在各相关属性的特征分薰在空间上的分布特性,以此得到流失用户的共性特征。而使用单个特征分量结合目标维变量建立聚类模型,强q可以得到该因素对客户流失的影响频度,找出对客户流失影响频度最大的节点,利用各个特征分量对流失频度影响最大的节点来指导决策树的生成。下面分别针对由因子分析得到的各个相关的特征分量,结合目标维变量建立聚类模型,进行分析:>属地(A糊£AII))电信客户溅失舶分析与研究作者;高敏导师一胡建华壬清心 昆明理工大学硕士论文图5-6聚类模型:目标维变量—属地由图5_6可以看出AREA_ID=1000时,即属地为营销中心时,对流失起到了重大的影响,使锝其目标维变量比值差在“.O.1.0”,即通话费比值小幅度减小时,影响频度达到95.13%。》用户状态(USERSTATE)电信客户流失的分析与研究作者:高敏导师t胡建华王清心 昆明理工大学硕士论文圈5-7聚类模型:目标维变量—用户状态由图5_7可以看出USER_STATE=FOA时即用户为正常流失时,对流失起到了重大的影响,使得其目标维变量比值差在“.0.1-0”,即通话费比值小幅度减小时,影响频度达到95.73%。≯消费额区间(SRQJ)电信客户流失的分析与研究作者:高敏导师。胡照华王清心 昆明理工大学碗士论文图58聚类模型:目标维变量消费额区间由图5-8可以看出当SRQJ=SR10_50时,即用户月平均消费额在10—50元之间时,对流失起到了重大的影响,使得其目标维变量比值差在“-O.1-0”,即通话费比值小幅度减小时。影响频度达到96.65%。类似地,可以得到:当ZWSCQJ=N2._3时,即用户在网时长在2-3年之间时,对流失起到了重大的影响,使得其目标维变量比值差在“-0.1-o”,即通话费比值小幅度减小时,影响频度达到89.260/,.·当QUANQJ=QUAN._3时,既用户月平均话务量在3个小时以内时,对流失起到了重大的影响,使得其目标维变量比值差在“.0,1.0”,即通话费比值小幅度减小时,影响频度达到70.32%。电信客户流失韵分析与研究柞者:高敏导师t胡建华壬精心 昆明理工大学硕士论文5.4PAS客户流失分析中的决策树模型5.4.1决策树算法思想及构造方法分类知识(C1assification)反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识咖【41][4211431。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。≯决策树的构造方法决策树通过把实例从根节点排列到某个叶予节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值[231[371。决策树构造的基本算法是贪心算法,它以自定向下低轨的各个击破的方式构造判定树。1)树以代表训练样本的单个节点开始。2)如果样本都在同一个类,则该节点成为树叶,并用该类标记。3)否则,算法使用一种衡量标准作为启发信息,选择能够最好的将样本分类的属性,成为该节点的测试属性。4)对测试属性的每一个己知的值,创建一个分枝,并据此划分样本。5)算法使用同样的过程,递归的形成每个划分上的样本子抉策树。当出现如下情况之一时,递归停止:(a)给定节点的所有样本属于同一类(b)没有剩余的属性来进一步划分样本或者分枝中没有样本,这时使用多数表决,将给定的节点转换为树叶,并用父节点中多数类来标记它。决策树常用的算法有CART、CHAID、ID3、C4.5、C5.0等。≯ID3的思想(1)自顶向下构造决策树(2)从“哪一个属性将在树的根节点被测试”开始(3)使用统计测试来确定每一个实例属性单独分类训练样例的能力≯决策树学习的实际问题夺确定决策树增长的深度电信客户流失的分析与研究作者,高敏导师t胡建华王清心-57. 昆明理工大学硕士论文呤处理连续值的属性夺选择一个适当的属性筛选度量标准夺处理属性值不完整的训练数据夺处理不同代价的属性夺提高计算效率针对这些问题,1D3被扩展成C4.5。5.4.2PAS客户流失分析的决策树模型现在针对PAS流失客户建立决策树数据挖掘模型,目标变量为“比值差区间”,模型如图5-9所示;图59针对所有特征分基的PAS客户流失决策树由图59可以看出,影响目标值变量最重要因素是ZWSCQJ(在网时长区间),当在网时长区间为1.3个月时,对目标值变量影响最大的因素是QUANQJ(话务量区间),其中话务量区间为缺少时是指当月有消费但没有通话,有可能为报停用户或非报停零次用户。当在网时长区间不为l一3个月时,对目标值变量影响最大的因素是TRAIFF_GROUP_ID(费率类型),其中当费率类型为标准资电信客户流失韵分析与研究作者t高敏导师;胡建华王清心.58— 昆明理工大学碾士论文费时,对目标值变量影响最大的因素是QUANQJ(话务量区间),当话务量不为零时,对目标值变量影响最大的因素是SRQJ(消费额区间)。从图s-9可以看出.当数的颜色基于所有事例时,叶节点Srqi=sRjO·50的颜色最深,它的节点路径为:TariffGroupId=1000与Srqj;SR一10—50与Quanqj存在与Zwscqi非=Y1—3由此可以得到这样的一条流失规律:当用户的资费类型为标准资费,话费贡献率为10.50元,话务量不为零,且在网时长不为1-3个月时,这样的用户最容易流失。并且当它的比值差处于.0.1-0之间时,它的流失可能性为:63.53%。>决策树需要指导◆比较基于“图59针对所有特征分量的PAS客户流失决策树”模型,是仅仅对比值差区间(BZCQJ)建立的决策树模型,其相关性网络如图5_10所示:图5—10单决策树相关性网络电信客户流失的分析与研究作者t高敏导师·胡建华王清心 昆明理工大学硕士论文由图5-10可以看出节点“BZCQJ”是由节点“QUANQJ”,“SRQJ”,“zwscQJ”和“TARIFFGROUPID”来预测的。当输入完全相同的特征分量,建立多决策树时(在对“比值差区间”建立预测树的同时,也对“消费额区间”“话务量”和“在网时长区间”建立预测树),其相关性网络关系,如图511相关性网络所示:图511多决策树相关性网络由图511可以看出:节点“BZCQJ”是由节点“QUANQJ”,“SRQJ”,“ZWSCQJ”、“AREA_ID”和“TARIFF_GROUP_ID”来预测的。夺结论由图510和图51l比较得知:虽然两副图表示的都是关于“比值差区间(BZCQJ)”的预测树的相关性网络,而且输入的特征分量是完全相同的,但得到的相关性网络却是不同的,这说明决策树的生成过程是不稳定的,对外界的影响异常敏感。所以要得到稳定、有效的决策树,需要对其生成过程进行指导。电信客户流失的分析与研究作者:高敏导师z胡建华王清心 昆明理工大学硕士论文5.4.3聚类对决策树的指导生成5.4.3.1聚类结果对确定决策树节点的指导根据5.3.3小节聚类的结果,可以知道当进行比值差区间的描述时,不需要对费率类型进行描述,而在决策树中却有这个节点;当进行比值差区间的描述时,需要对用户状态进彳亍描述,而在决策树中却有这两个节点。这说明决策树的生成规则是不合理的,需要由聚类得到的共性特征加以指导,指导后得到的挖掘模型如图5_12所示:图5—12聚类结果对确定决策树节点的指导由图512可以看出,相应的节点已经和聚类算法基本保持一致了。5.4.3.2聚类结果对确定决策树节点值的指导由图5—12可以看出,虽然决策树的节点和聚类保持了一致,但决策树中的节点值,如:由根节点向下发展的第一个节点“ZWSCQJ=YI_3”是无法解释的。由5.3.4小节聚类结果可知并不是在网时长区间为1.3个月时,对流失特征影响电信客户流失的分析与研究作者t高敏导师:胡建华王清心-61- 昆明理工大学硕士论文频度最大,而是当在网时长在2—3年之间时,对流失特征影响最大,当通话费比值小幅度减小时,影响频度达到89.26%。所以决策树的决策节点是不正确的,需要由聚类的结果加以指导。根据5.3.4小节聚类结果,列出不同特征分量对流失特征影响最大的节点:AREA_ID21000,USERSTATE=FOA,SRQJ=SRjO_50,ZWSCQJ=N2_3,QUANQJ=QUAN_3,根据这些节点,重新生成决策树,如图5.14所示:图513聚类结果对确定决策树节点值的指导由图513可知,决策树的生成规则和聚类的结果是基本保持~致的,并可得到8条流失规则:当在网时长区间在2.3年之间,为正常流失用户,消费额在lO.50元之间,属地不为营销中心的用户比为营销中心的用户更容易流失,且为营销中心用户、比值差在“-o.1.0”时。流失可能性为20.66%,不为营销中心用户、比值差在“-o.1.0”时,流失可能性为9.18%;当在网时长区间在2—3年之间,为正常流失用户,消费额不在10.50元之间,月平均话务量在3个小时之内的用户比月平均话务量不在3个小时之内的用户更容易流失,且月平均话务量在3个小时之内的用户、比值差在“.O.1.0”时,流失可能性为61.18%,月平均话务量不在3个小时之内的用户、比值差在“一0.1-0”时,流失可能性为53.53%;⋯⋯电信客户流失的分析与研究作者。高被导师:胡建华王清心 昆明理工大学硕士论文5.4.3.3领域知识对决策树的指导虽然上述决策树给出了一些客户流失的一些特征和规律。但根据电信领域知识,可以知道上述特征和规律是不准确的,如:客户的资费类型对流失特征是有影响的,在决策树生成时,应该把资费类型的因素考虑进去。由此,根据电信领域知识的指导,可以得到新的决策树。如图5j4所示:图5_14领域知识对决策树的指导由图可以得到客户流失的规律:当在网时长区间在2-3年之间,资费类型为标准资费,非正常流失用户,比值差在“.O.1-0”时,流失可能性为52.16%。电信客户流失的分析与研究作者;高敏导师;胡建华王清心 昆明理工大学硕士论文6.1总结第六章结束语本文以昆明电信决策支撑系统为背景,通过在昆明电信一年半时间的领域调研和课题研发,为论文工作奠定了充分的领域知识和相关理论及工程经验,以此为基础,使用了数据仓库、统计分析和数据挖掘的技术,对PAS客户流失主题进行了较为完普、深入的分析与研究,为昆明电信经营分析系统作了有益的尝试与探索。针对PAS客户流失分析主题,本文选取了2005年3个月的PAS流失用户及其流失前的历史消费信息为样本。依据昆明电信ODS数据的实际,确定了个体样本影响流失的基本特征向量和目标变量。样本数据的获取和预处理对于数据挖掘的优劣是一个极其重要的基础性工作,本论文为此付出了大量的时间,通过对大量相关技术和统计方法的研究,最终确定了采用OLAP以及因子分析、交互作用分析、相关性分析及多种判别分析等分析方法,实现了样本空间中特征向量的取舍、影响度、补全预测等预处理工作,给出了向量空间较好的样本集,建立了PAS客户流失分析主题的数据仓库,为数据挖掘提供了良好的基础。在建立了数据挖掘“宽表”的基础之上。采用了聚类方法对特征分量进行分类,鉴于聚类算法的无监督性,结合因子分析方法进行聚类,得到了流失客户的共性特征;把各个特征分量与目标维变量结合进行聚类,得到了各特征分量对客户流失的影响频度;利用聚类的中间结果共性特征和影响频度分别指导了决策树的节点和节点值,并结合领域知识和经验,获取决策树的生成规则,指导决策树的生成。实践证明,本论文整体的技术路线是可行的,其中间结果对于昆明电信的流失分析已经起到了一定的作用,所发现的知识具有一定的合理性和参考价值,对相关领域的研究起到了一定的推动作用。由于项目本身正在进展中,以及问题本身的复杂性,本论文的工作需要实际的证明和不断的迭代和完善,论文肯定存在不足。电信客户漉失的分析与研究作者:高敏导师:胡建华王清心 昆明理工大学硕士论文6.2展望和下一步工作本文在项目中虽然解决了一些问题,但同时也发现并遗留了很多的问题,需要进行改进,如:》样本空间的选择由于客观原因,本文选择的样本空间有一定的局限性,有些与客户流失分析有关的信息没有放入系统,下一步工作中需要对样本进行补充,如:夺各种因子数据,如:在网积分、消费积分、主叫、被叫、打电话时段等:夺目标变量数据。如:信用度、客户价值、挽留价值、流失概率、信用度层次、挽留价值层次等。>数据挖掘算法本身的改进与选择由于数据挖掘在本项目中刚处于起步阶段,本文仅仅选择了聚类算法和决策树算法对客户流失进行分析,下一步工作中应该根据需要来选择数据挖掘的算法,并且根据需要对挖掘算法进行改进后加以使用。信息技术不断发展、用户的需求也不断变化,这些都对系统提出了更多更新的要求,同时也需要有更新更好的实现方式和技术不断的扩展系统。数据仓库、数据分析和数据挖掘作为电信行业必然要走的技术路线,随着对项目遗留问题的解决以及对新问题的发现.它们会起到越来越重要的作用。电信客户流失的分析与研究作者,商敏导师·胡建华壬清心 昆明理工大学硕士论文致谢首先感谢我的导师胡建华副教授和王清心教授。感谢两位导师在我攻读硕士学位的近三年时间里无微不至的关怀和孜孜不倦的教诲。导师不仅在学业上严格要求,为我的论文花费了很多心血;在为人处世、待入接物方面也言传身教使我受益匪浅。近三年来,导师渊博的学识、严谨的治学态度、活跃的学术思想、高尚的为师品德无时无刻不在影响着我,为我将来的工作和学习树立了榜样,我将永生难忘。感谢实验室的各位老师和同学。在将近三年的学习期间,他们给了我很大的帮助和指导。尤其是周海河老师,是他跟两位导师一起在我的论文完成过程中给予指导和帮助,同时感谢秦海菲师妹在统计分析方法知识中给予的帮助。感谢昆明电信的市场拓展部、帐务结算部的各位领导、员工,因为他们的配合、支持和帮助,我们的项目才取得了今天的成果,我的论文才得以顺利完成。最后,感谢我的父母和所有关心我的亲戚和朋友,没有他们对我的关怀和支持,论文就不可能顺利完成。电信客户流失的分析与研究作者t高敏导师:胡建华壬漓心 昆明理工大学硕士论文参考文献[1]沈卫利,位置一中国电信的迷思,h!!巳;ZZbQ翌!:4Qn£曼§:QQ型4Q娶£!§』目兰!i!l!』!』18±!:h±坐![2]信息产业部,2002年电信业发展概况[3]信息产业部,电信业十五规划和发展概况[4]信息产业部,2001年电信业利用外资现状[5]信息产业部,电信业利用外资现状[6]肖朝虎,电信信息化:数据挖掘助竞争,中国计算机报一赛迪网[7】段云峰吴唯宁李剑威等,数据仓库及其在电信领域中的应用,电子工业出版社[8]文海龙,数据仓库及其在安监决策支持系统中的应用研究,硕士论文,铁道部科学研究院,2000[9]刘蝾,面向数据仓库的MIS系统设计方法研究,硕士论文,河海大学,2002[10]LenSilverston著,林友芳等译,数据模型资源手册,第二版,机械工业出版社,2004年8月[1l】RalphKimball,MargyRoss著,潭明金译,数据仓库工具箱:维度建模的完全指南,第二版,电子工业出版设,2003年10月[12]数据仓库技术的应用,b主兰巳;』』曼璺型:i兰墨!:壁垒翌:璺旦』主曼曼h旦垒≥Qg!Zi珏亟金墨星Q≥:垒璺怼[13]内部资料,昆明电信ODS与现有业务系统接口规范说明书[14]SOLServer2000数据仓库与AnalysisServices,TonyBain著,电力出舨社[15]帮助文档,Microsoft公司SOLServer2000中的AnalysisServices[16]罗运模,SQLServer2000数据仓库应用与开发,第一版,人民邮电出版设,2001年7月[17]高惠璇。实用统计方法与SAS系统,第一版,北京大学出版社,2001年10月[18]于秀林任雪松,多元统计分析,第一版,中国统计出版社,1999年8月[19]阮桂海等编著,SAS统计分析实用大全,第一版,清华大学出版社,2003电信客户流失的分析与研究作者t高敏导师t胡建华王清心-67- 昆明理工大学硕士论文年6月[20]张文彤,SPSSII统计分析教程基础篇,2002年6月[21]张文彤,SPSS11统计分析教程高级篇,2002年6月第一版,北京希望电子出版社,[22]洪楠侯军,SASforwindows(V8)统计分析系统教程新编,第一版,清华大学出版社。北京交通大学出版社。2004年9月[23]李畅,基于统计的分类算法及其在潜在客户识别中的应用研究,硕士论文,湖南大学,2004[24]林字等,数据仓库原理与实践,第一版,人民邮电出版社,2003年1月[25]MehmedKantardzic著,闪四清陈茵程雁等译,数据挖掘——概念、模型、方法和算法,第一版,清华大学出版社,2003年8月[26]ClaudeSeidman著,SQLServer2000数据挖掘,机饿工业出版社[271朱红,基于人才认知的数据挖掘研究,昆明理工大学,2002[28]BusinessIntelligenceandDataWarehousinginSQLServer2005,微软资料[29]许洪波,程学旗,王斌等文本挖掘与机器学习(--),中国科学院计算技术研究所丛纽;Z』!塑:i£!:然:QDZ§=§:垒!E2id二84鱼!鲢12£n女堑21[30]张云涛龚玲,数据挖掘原理与技术,第一版,电子工业出版社,2004年4月[31]DavidHand,HeikkiMannila,PadhraicSmyth著,张银奎,廖丽,宋俊等译,数据挖掘原理,机饿工业出版社[32]林杰斌,刘明德,陈湘,数据挖掘与OLAP理论与实务。清华大学出版社‘[33]陈京民,数据仓库与数据挖掘技术电子工业出版社[34]JiaweiHan著,数据挖掘——概念与技术(影印版),高等教育出版社[35]SelimSZ.IsmailMA.Softclusteringofmultidimensionaldata:asemifuzzyapproach.PatternRecognition。1984.[361郊红英,数据挖掘聚类算法的分析和应用研究:[硕士论文].重庆大学,2002[37]焦瑾,基于数据挖掘的商业银行个人客户细分系统分析与设计:[硕士学位电信客户流失的分析与研究作者t商敏导师:胡建华王滴心 昆明理工大学硕士论文论文].西南财经大学,2003.[38]张斌,聚类算法研究及在客户忠诚度分析中的应用:[硕士学位论文].青岛,青岛大学,计算机工程学院2003.[39]RuspiniEH.Anewapproachtoclustering.InfCont。1969.[40]G.Piatetsky—Shapiro.KnowledgeDiscoveryinDatabases.AhAIPress.1991.[41]M.S.Chen,J.Han,andP.S.Yu.Datamining:Anoverviewfromdatabaseperspective.IEEETransac—tionsOnKnowledgeandDataEng.8(6):866—883。December1996[42]Fayyad,U.DataMiningandKnowledgeDiscovery:MakingSenseOutofData.IEEEExpertIntelligentSystemsandtheirApplications,(11):5,1996[43]田小霞,宴n晓霞,范全润,数据挖掘技术在客户保持中的应用研究,ComputerEraNo.22003电信客户流失的分折与研究作者:高敏导师,胡建华王清心-69-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭