《基于昆明电信的客户流失分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
昆明理工大学硕士学位论文基于昆明电信的客户流失分析姓名:高敏申请学位级别:硕士专业:计算机应用技术指导教师:胡建华20050410 昆明理工大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明确的说明并表示了谢意。本声明的法律结果由本人承担。学位论文作者签名:/高套/{、日期:时口月U~日关于论文使用授权的说明本人完全了解昆明理工大学有关保留、使用学位论文的规定,即:学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布论文的全部或部分内容,可以采用影印或其他复制手段保存论文。(保密论文在解密后应遵守)导师签名:堑躐论文储张高苏日期:羔!趟垒.丝月型旦 昆明理工大学硕士论文基于昆明电信的客户流失分析摘要本文以昆明电信决策支撑系统为背景,通过在昆明电信一年半时间的领域调研和课题研发,为论文工作奠定了充分的领域知识和相关理论及工程经验,以此为基础,使用了数据仓库、统计分析和数据挖掘的技术,对PAS客户流失主题进行了较为完善、深入的分析与研究,为昆明电信经营分析系统作了有益的尝试与探索。针对PAS客户流失分析主题,本文选取了2005年3个月的PAS流失用户及其流失前的历史消费信息为样本。依据昆明电信ODS数据的实际,确定了个体样本影响流失的基本特征向量和目标变量。样本数据的获取和预处理对于数据挖掘的优劣是一个极其重要的基础性工作,本论文为此付出了大量的时间,通过对大量相关技术和统计方法的研究,最终确定了采用OLAP以及因子分析、交互作用分析、相关性分析及多种判别分析等分析方法,实现了样本空间中特征量的取舍、影响度、补全预测等预处理工作,给出了向量空间较好的样本集,建立了PAS客户流失分析主题的数据仓库,为数据挖掘提供了良好的基础。在建立了数据挖掘“宽表”的基础之上,采用了聚类方法分别对各类特征分量进行分类,以确定流失用户在客户价值区间、自然属性、地域区间等各种特征分量在空间上的分布特性,以此得到流失用户的共性特征,并结合领域知识经验,获取决镶树的生成规则,指导决策树的生成。实践证明,本论文整体的技术路线是可行的,其中间结果对于昆明电信的流失分析已经起到了一定的作用,所发现的知识具有一定的合理性和参考价值,对相关领域的研究起到了一定的推动作用。关键词;决策支撑系统、数据仓库、ETL、统计分析、数据挖掘电信客户流失的分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文ABSTR^CTThearticleusesometechnologysuchasDataWarehouse,statisticalanalysis,DataMining,ere.anddeeplyandsophisticatedresearchthesubjectofthePAScustomermissingofKunmingtelecom.TheauthorhassurveyedandstudiedinKunmingtelecomalmostoneandahalfyears,andaccumulatemuchexperience,theoryandfieldknowledge.AimedatthePAScustomermissing,thearticletakessomecustomermissinginformationwhichoccurredin3monthsof2005aSsample.AndaccordingtofactoftheKtmmingtcleeom'sODSdata,thearticlemadecertainofbasingcharacterizedvectorandtargetvariable,individualsampleinfluencedmissing.Theacquiringandpmproeessofsampledataisaveryimportantworktodatamining.Thearticlehasspendmuchoftimeinresearchofrelativelytechnologyandstatisticalmethod,atlastwedecideaprojectwhichuseOLALfactoranalysis,interactionanalysis,relativityanalysis,severaljudgmentanalysis.Thisincludingpreproeesssuchasacquiringcharacterizedvectorofsamplespace,influence,fixingandforecasting.Then,thearticleoffersagoodsampleset,andbuildsaDataWarehousebasedonthesubjectofPAScustomermissing.Basedonbuilda‘'widetable”,weuseclusteringmethodtoclassifythecharacterizedvector,determinethedistributecharacteristicofmanycharacterweightsuchascustom’Svaluezone,naturalattribute,terrazone.AndSUITIupmuchconlmomleSS,andcombinefieldexperience,obtaindecisiontreescreatecondition,andgIlidethebuildingofdecisiontrees.Thepracticeproved,thetechnologyofthearticleusedisfeasible,themidresclttakesomeeffecttomissinganalysisofKumningtelecom,theknowledgewediscoveredhassomerationalityandreferencevalue.KEYWORDS:DSS,DATAWAREHOUSE,ETL,STATISTICALANALYSIS,DATAMINING电信客户流失的分析与研究作者:高敏导师:胡建华王清心-2- 昆明理工大学硕士论文第一章绪论本章介绍了电信行业的发展背景、信息系统现状;同时,简要地说明了论文的项目研究背景、论文的研究内容及研究意义。1.1电信行业的发展背景≯中国电信行业的体制变革在计划体制下,中国电信有两个基本特征:一是高度集中,企业的经营管理权属于中央政府;二是高度垄断,价格的确定和市场资源的分配完全由垄断者支配[“。随着电信行业的政企分开,移动、联通等竞争对手的出现,以及已经完成的对中国电信的垂直性肢解,中国电信独一无二的垄断地位受到了威胁。》电信行业国内市场的竞争来自信息产业部的消息:电信市场竞争格局发生变化,主导运营企业的市场占有率下降,新兴电信企业的市场份额逐步上升。我国各大基础电信运营企业2000年所占业务收入的市场份额:中国电信为52.3%、中国移动为39.1%、中国联通为10.6%、其他(如中国卫星和铁通公司)约占0.25%;2001年在电信业务收入的市场占有率,中国电信为50.7%,中国移动为37.7%,中国联通为10,6%,其他约占1%;到2003年6月底,中国电信为31.1%、中国网通为16.6%、中国移动为3"/.4%、中国联通为13.4%、中国卫星和铁通公司为1.5%12]13]。≯外资电信在中国状况随着中国加入wTO,信息产业部部长吴基传已签署命令,宣布在1993年9月11日发布的《从事放开经营电信业务审批管理暂行办法》和1995年11月10日发布的《放开经营的电信业务市场管理暂行规定》tl2001年12月11日即中国加入wTO之日起废止。之后,中国将严格按照服务贸易承诺减让有关电信方面的内容,逐步对外资开放中国电信市场14】。许多有实力的外资电信公司已陆续在我国设立了办事机构,正积极地在我国寻找市场机会【51,并已经初步开展一些行动:々2001年AT&T和上海电信合资成立上海信天,上海信天于2001年3月获得营运牌照。电信客户滤失的分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文夺6夺2002年英国沃达丰买下中国移动香港上市公司3.27%的股份,并称要在5年内力争控股20%。2003年SK电讯携手中国联通成立联通时科。2004年法国电信与中国电信的北京研发中心浮出水面。2004年6月30日深圳“深大电话有限公司”宣布成立并入深圳电信。新加坡电信在北京、上海和广州三地设立办事处。1.2电信行业的信息系统现状≯国内电信行业的信息系统电信行业内早有大量成熟的数据库应用系统,现有的信息系统主要包括五个部分:“九七”营业受理系统、交换传输及网管系统、计费账务系统、客户服务系统和财务统计系统。从电信业现有系统所涵盖的数据流程来看,要查询一次历史数据时,费时费力,更不用说把不同业务部门的数据来关联比较分析了,同时也会遇到像数据类型不匹配、数据定义不同、数据不一致、数据冗余等问题【6】。从业务流程来看,一般电信运营商缺乏对客户需求的科学分析,在发展新业务时可能会冒很大的风险。从客户关系管理的观念来看,电信公司的首要任务是如何争取客户并且提高客户的忠诚度。信息系统必须以客户为中心,了解不同客户的不同消费模式,针对不同的用户采取不同的策略以达到个性化服务的目标。>电信行业信息系统的发展趋势近些年,电信市场内的竞争日剧,电信运营企业有电信、联通、移动、网通、吉通、铁通等。在各个业务领域内已初步形成多元化的竞争局面,同时,随着中国加入WTO,国外的电信公司也会进入中国市场。在这样的形势下,作为行业老大的中国电信,正确及时的决策将是企业生存与发展最重要的环节,而要作好决策工作,就要利用最近几年才快速发展起来的数据仓库技术以及基于此技术的商业智能,深层次、多角度地挖掘,分析当前和历史的生产业务数据、客户信息、竞争对手的信息等相关环境的多种数据,发现其内在的规律,从而得到宝贵的决策支持信息,才能快速、准确地分析商业问题,并且对企业未来的生产计划和长电信客户流失的分析与研究作者:高敏导师:胡建华壬清心 昆明理工大学硕士论文远规划提供理论指导。唯有这样,中国电信才能在激烈的竞争中,高瞻远瞩,永不出局【7】。目前,应用数据仓库技术,改善企业决策支持模式,并取得最大的投资回报,已经成为大多数成功企业的共识[8119][1o】【11舭】。作为当今发展最快,吸收新技术最快的电信企业,原始数据正在快速地积累和膨胀,如何保存并利用好这些珍贵的资源,将其中蕴藏的信息转化为生产力,将成为业内人士所关注的又一个技术熟点。因此数据仓库、数据分析和数据挖掘的技术成为电信行业信息系统的发展趋势。》国外电信行业的信息系统目前,世界上已有多个国家的电信公司正在利用数据仓库技术提升利润空间。比利时国家电信经纪入使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为‘Ⅲ。此外,英国电信公司采用数据仓库应用系统保证了关键性业务的处理【12】。NCR联合太平洋铁路公司,将几百个数据库合并转换成数据仓库应用系统,能准确识别豁免税购买,一年能节省100万美元营业税;通过在部分铁轨上提速,每月节省30万美元。应用系统在可支付帐目、设备维护、市场营销以及汽车和火车头调动等方面提高了操作效率,改进了服务质量【12l。1.3论文的项目研究背景、研究内容及意义≯论文的项目研究背景本文是基于中国电信昆明分公司经营分析支撵系统项目为背景来展开的。昆明电信经营分析支撑系统是电信运营商为在激烈的市场竞争中生存和持续发展,尽可能全面地满足企业经营管理工作的需要,跟上市场形势的变化,使庞大的数据库系统有效地产生企业知识,以新经营管理支撑手段及时准确地了解市场竞争、业务发展和资源使用情况,以便及时发现问题和解决问题,并根据分析结果及时调整政策而开发的分析系统,电信客户流失韵分析与研究作者;高敏导师:胡建华王清心 昆明理工大学硕士论文目前该项目首期已结束,2004年的帐务数据已导入、核对完毕,数据仓库已初步建立,为后续工作的开展奠定了基础。》论文的研究内容本文针对昆明电信PAS流失客户,从时间、地域、产品类型、在网时长、用户状态、城乡标识、行业、年龄等角度进行分析,通过构建数据仓库模型得到数据挖掘需要的样本集,通过聚类及知识领域的指导来生成关于PAS客户流失的决策树,找出PAS客户流失的特征和规律,来辅助昆明电信制定营销政策。>论文的研究意义经营分析支撑系统的建设成为昆明电信分公司经营分析的有力辅助工具,从海量客户数据中细分客户、进行深入分析,进行针对性的后续营销,为公司的经营决策寻找最佳路径提供有力支撑,有利于提高整体经营管理水平。在昆明电信的业务中,PAS/PHS(小灵通)占有重要的位置【3】。如下图I_I所示:图i_I2003年l~12月电信收入比例(来自信息产业部)根据调查机构的数据显示,“用户保持率”增加5%,就有望为运营商带来85%的利润增长,发展一位新客户的成本是挽留一个老客户的4倍;客户忠诚度下降5%,则企业利润下降25%:向新客户推销产品的成功率是15%,然而,向老客户推销产品的成功率是50%f3】【引。这些数据表明:如何防范老客户流失必须要引起高度重视。因此进行PAS用户的客户流失分析是极为重要的。本论文是为5.17电信日制订PAS营销政策提供辅助服务的。电债客户流失的分析与研究作者;高敏导师t胡建华王溥心 昆明理工大学碗士论文键。第二章研究的主要内容及拟采取的主要技术路线本章详细介绍了论文的主要内容、拟采用的技术路线和涉及到的主要技术关2.1论文的主要内容本文是基于中国电信昆明分公司经营分析支撑系统项目为背景来展开的.是为昆明电信制定“5.17电信日”活动的P^S营销政簧提供辅助服务的。针对PAS客户流失分析主题,将从昆明电信原有数据库系统中抽取与PAS有关的数据,经过抽取、清洗、转换等过程后进入数据仓库,从行业、用户状态、地域、费率类型、营销统计属性、城市标识、vIP客户标识等方面建立PAS客户流失主题立方体,运用OLAP分析PA$客户流失的基本特征,同时进行数据挖掘的样本数据的采集,建立数据挖掘模型得到PAS客户流失的特征和规律,其体系结构如图21所示:图21队s客户流失系统体系结构在PAS客户流失分析中,存储PAS信息的数据表较多,关系比较复杂,如表ACCT存储了PAS客户的帐务信息,表SERV存储了PAS客户的资料信息等,其数据模型如图2_2所示:电信客户流失的分析与研究作者;高域导师:胡建华王清心一一一一一一一 昆明理工大学硕士论文图27PAS客户流失数据模型2.2拟采用的技术路线针对PAS客户流失分析主题,进行数据仓库模型的设计,其中概念模型设计阶段要确定与PAS客户流失分析主题有关的因素、需要描述的问题(如:PAS流失用户数和用户流失前的消费额);逻辑模型设计阶段拟采用实体关系建模和维度建模方法分别建立PAS客户流失分析的实体关系模型和维度模型;物理模型设计阶段确定建立PAS客户流失分析时采用的存储结构、索引策略、存储策略(使用表合并和表分割),运用缓冲池的技术进行存储分配优化。基于PAS客户流失分析主题建立数据仓库模型。根据设计的内容,建立时间维、流失时间维、部门维、产品维、VIP客户维、统计属性维、属地维、地处维、费率类型维、使用类型维、在网时长区间维、客户价值区间维等维度,同时构建PAS客户流失分析主题事实数据表,从而得到PAS客户流失分析的数据仓库模型。数据的采集与清理需要补全年龄数据,拟采用统计分析中的因子方差分析和电信客户流失的分析与研究作者:高敏导师:胡建华王清心.10. 昆明理工大学硕士论文交互作用分析排除与年龄无关的属性型的因素,确定与年龄有关的因素,同时利用相关性分析确定数值型数据是否与年龄有关,并利用这些因素运用判别分析方法对未知的年龄进行预测。在构造补全年龄需要用的数据(如:月平均消费、月平均话务量)时,需要找出客户流失前12个月每个月的消费和话务量,然后找出产生费用和话务量的月份的个数(因为有中间新增用户和停机保号用户)。本文将利用OLAP来提取这些数据,简化运算过程。当数据补全后重新生成数据仓库模型,因此,数据仓库是一个不断反复和不断完善的过程。运用数据仓库中的数据,构建数据挖掘宽表,拟采用OLAP对宽表的样本数据进行采集,并对目标维变量进行检验,从而确定目标维变量;用聚类算法构造出PAS客户流失分析主题的挖掘模型,由于聚类算法具有无监督性,使用因子统计分析方法找到相关特征分量,对聚类模型改进,进而完成PAS流失客户的分类,找到客户流失的共性特征;把与目标维变量有关的特征向量分别与目标维变量结合构建聚类模型,得到各特征向量对流失特征的影响频度;用决策树算法构造出关于PAS流失客户的决策树,为客户流失的预测做准备,由于决策树算法的不稳定性,用聚类的结果以及电信领域知识来指导决策树的节点和节点值,进而指导决策树的生成,最终得到较为合理的客户流失的规律和特征。2.3主要的技术关键>统计分析在数据采集和清理过程中,ETL是一个相当复杂的过程,但因为有经营分析系统的项目背景,在本文开始进行时,ETL已不再是难点,而数据的补全是本文进行过程中的一个技术关键。本论文将为此付出大量的时间,通过对大量相关技术和统计方法的研究,最终确定拟采用OLAP以及因子分析、交互作用分析、相关性分析及多种判别分析等分析方法,来实现样本空间中特征量的取舍、影响度、补全预测等预处理工作。≯数据仓库、OLAP无论是在数据采集和清理中,还是在数据挖掘的样本数据集的构造过程中,数据仓库和OLAP分析都将贯穿始终,起到重要的作用。建立数据仓库模型和电信客户漉失的分析与研究作者:高敏导师;胡建华王清心 昆明理工大学硕士论文进行OLAP分析,不仅要对系统有全面的了解,而且要对进行分析的内容即PAS客户流失主题的业务熟悉,才能合理完成数据仓库模型设计的各个阶段,得到与PAS客户流失有关的特征分量,恰当利用OLAP的分析功能,得到向量空间较好的样本集。>数据挖掘在建立数据挖掘“宽表”的基础之上,拟采用聚类方法对特征分量进行分类,鉴于聚类算法的无监督性,拟结合因子分析方法进行聚类,得到流失客户的共性特征;把各个特征分量与目标维变量结合进行聚类,得到各特征分量对客户流失的影响频度;拟利用聚类的中间结果共性特征和影响频度分别指导决策树的节点和节点值,并结合领域知识和经验,获取决策树的生成规则,指导决策树的生成。因为数据挖掘是比较先进的技术,本论文将花费大量的精力寻找应用此技术的路线,合理地使用聚类的结果结合领域知识对决策树的生成进行指导,得到合理的流失特征和规律。电信客户斑失构分析与研究作者t高敏导师:胡建华王清心 昆明理工大学硕士论文第三章PA$客户流失分析主题数据仓库模型本章针对PAS客户流失分析主题介绍了构建数据仓库模型过程,在逻辑设计阶段描述了维度、事实表的构建,给出了PAS流失分析的实体关系模型和维度模型。数据模型的构造无疑是数据仓库的建设过程中最关键的一步‘饥。数据模型的影响是深远的。它决定了数据仓库所能够进行的分析的类型、分析的细致程度、分析的效率以及响应时间。不同的模型会导致不同的存储空间以及数据更新策略,并直接影响着数据仓库项目的投资【l4】【l51。可以说,模型设计是系统的基础和成败的关键,数据仓库模型的好坏,决定了数据仓库项目的成功与否。数据仓库模型的设计大体需要经过以下过程:※概念模型设计※逻辑模型设计※物理模型设计3.1PAS客户流失分析主题的概念模型设计数据仓库是面向决策分析的数据库,无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是需要解决的。在本系统中,需要解决的问题是小灵通(PAS/PHS)的客户流失问题。由“图21PAS客户流失系统体系结构”可知,与PAS的客户流失相关因素的数据可来源于“帐务中心”、“97系统”、“联创系统”、“10000号”、“网络中心”、“”智能网、“非结构化数据”。但由于客观原因,系统的样本选择受到了限制。本系统的数据基本上只来自于“帐务中心”,而且由于项目中现有的硬件资源有限,PAS详单的数据量太大,无法放入系统中。主题域是围绕小灵通的客户流失来进行的,在此,从两个方面来对小灵通的客户流失进行描述:流失用户数和用户流失前的费用。对于流失用户数和费用的主题域,可以根据流失用户的属性来分别确定不同地域、不同产品类型、不同部门、不同费率类型等方面的流失用户数及流失前的费用,从而找出它们之间的关系,进而可以得到小灵通流失客户的特征。电信客户漉失的分析与研兜作者t高敏导师t胡建华王清心 昆明理工大学硬士论文3.2PAS客户流失分析主题的逻辑模型设计逻辑建摸是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用【7l【9】【加1【14】【151。目前较常用的两种建模方法:实体关系建模(Entity—RelationshipModeling)和维建模(DimensionModeling)。下面将针对昆明电信PAS客户流失分析分剐给出实体关系模型和维度模型。3.2.1实体关系建模实体关系建模通过两个概念(“实体”和“关系”)构造特定的数据模型7Ⅱ14】【15】。实体关系模型是一种抽象的工具,能够简化企业中复杂的数据关系,并把它用规范的方式表示出来,使其易于理解。在本系统中,需要对PAS流失客户的数据进行分析,从现有数据库数据中选取以下实体模型⋯3:设备、资源、帐户、客户、出帐一收入等。>设备(serv):其属性包含计费帐务系统中的用户资料信息;》资源(ServProduct):其属性包含计费帐务系统中的用户占用资源信息;》帐户(Acct):其属性包含计费帐务系统中的帐务信息;》客户(Cust):其属性包含计赞帐务系统中的客户信息表信息;》出帐一收入(AceFee):其属性包含计费帐务系统中的出帐及收入信息。根据以上各实体及其属性可以褥出“流失客户”实体,使其属性包含流失客户的各种特征信息。现建立实体关系模型如图3_l所示:电信客户流失豹分析与研究作者:高敏导师:胡建华王漓心 昆明理工大学硕士论文3.2.2维度建模图3-1流失主题部分实体关系模型维度建模用于数据仓库的设计中。其目的是组织数据以提高旨在分析和汇总大量数据的查询的效掣7l【14】【15】【16】。星型结构或雪花型结构是数据仓库的典型逻辑结构。而两种结构相比较,星型结构比雪花型结构包含的用于信息检索的连接少,更容易管理,所以在本系统中,着重采用了星型结构。星型模式是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(1)imensionTable)组成㈣【16】。每个维表都有一个维作为主键。所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。≯维度的构建在PAS客户流失分析中,使用常规维度的星型架构和父子维度。下面举例说明不同类型维度的构建。电信客户流失的分析与研究作者:高敏导师:胡建华王清心.15. 昆明理工大学硕士论文当维表中的数据字段为时间类型时,可构建时间维度。如系统中的时间维和流失时间维均建为时间维度并在层次结构上使用了“年、月”的分层。采用星型架构的标准维度方式可以构建普通或有层次的维度,如在PAS客户流失分析中,维度“VIP客户”即为无层次的维度,而维度“使用类型”则为有层次的维度,它首先把使用类型分为“计费、免费、自用”,而免费又可按合同号分为“合同号100至500、合同号小于500”。在PAS客户流失分析中,如维度“部门”是采用了父子维度的创建方式的,字段“AREA_ID”即为成员键列,SUP为父键列,标识AREAjD的父代,从而可以构建多重层次关系。表3_1详细描述了该分析主题的维度设计及构建。模型名称:PAS客户流失分析模块功能:用于PAS客户流失消费构成分析对应的事实表IFACT—PAS—LS—FEE度量:收入数据粒度:在事实表中记录流失用户相关信息及其在流失前每月的费用信息相关的维度:(1)时间维(层次:年、月)(2)流失时间维(层次;年、月)(3)部门维(3层),层次关系如下:,觋业大客户罄l现业商业客户部J公话业务部弋增值业务部lf--邦县台计。安宁局、呈霞局、宜良曷、石林禺、晋宁局、嵩明禺、L全局合计l富民局、功禄局、东川局、寻甸局、官渡禺、西山局1L现业合计;营销中心、东区局、南区局、西区局、北区局(4)产品维(PAS专号、虚拟PAS)(5)VIP客户维(VIP用户、非VIP用户)(6)营销属性维电信客户流失的分析与研究作者:高敏导师r胡建华王清心 表3_1PAS客户流失分析维度设计说明书>事实表的构建每个数据仓库或数据集市都包括一个或多个事实数据表。星型架构或雪花型架构的中心是一个事实数据表,用以捕获衡量单位业务运作的数据。事实数据表不应包含描述性信息,也不应包含数字度量字段以及使事实与维度表中的对应项相关的索引字段之外的任何数据。PAS客户流失分析主题中事实表构建如表3j所示:事实表(FACT—PAS—LS—FEE)原表字段名数据类型备寝名字段名数据类型注SERVIDvarchar(10)ACC—FE吼S_PASSERVIDnumeric(9)AccTIDVarchar(10)ACCFEELSPAS—惦CTIDnumeric(9)伽STIDVarehar(10)ACC—,FEE——kS—.PASCUSTIDturmeric(9)SERVJyPE-IDVarchar(10)维SERNjj娶jKSSERV—TYPE_IDVarchar(6)JLDATEsmalldatetime维ACCjEE土SjKSJF_DATEsmalldateti(4)me(4)LSjF_DATEsmalldatetime维SERVj3土S_PASLSjF_DATEsmalldateti“)me(4)NLQJchar(4)维SERVJJ—、sjKSNL叮char(4)TRADETYPEIDVarchar(10)维SERV_TJ—LS—PASTRADE—TYPE_IDVarchar(10)电信客户流失的分析与研究作者:高敏导师:胡建华王清心 昆明理工大学硬士论文TRAIFF_GROUP_IDVarchar(5)维S嘣jj上S_mASTRAIFF_6ROIPIDARE^IDchar(4)维艇烈j1上S._PASAREAIDVarchar(10)ISCITYchar(4)维鹱黜j3j玉jKSISCITYchar(4)VIPchar(4)维SER、j3jSjKSVlPchar(4)PRE_ITEMTYPE—IDVarchar(5)维SERV_TJ_LSPASPRE——ITEg—.TYPEVarchar(5).ID蹦Yarchar(10)维髓删jj工S_PASAIlEA_ID、赋值Varchar(10)CUSTJYPE—ID-YXchar(4)维疑删j3上S—PASDEVDEPT_ID(左char(4)一位)CUST—TYPLID-TJchar(4)维SERV31.磷Ij}sDEVDEPTID(右char(4)一位)Z1『SCchar(4)SERV_TJ_LSPASZWSCchar(4)ZWScQJchar(4)维鼬勰j】jSj嗡ZWSCQJchar(4)AcCNBRVarchar(is)ACC—.FEE—.LS—。PASACC№RVarchar(10)V^LDecimal(9)度ACC_FEE_LS_PASVALnumeric(9)量值表32PAS流失客户分析主题事实表数据转换规则注:表“ACc_FEE-LS_PAS”和表“SERV_TJ_LS_PAS”通过字段“SERv_ID”相关联,另外,表“ACC—FEE—LS—PAS”和表“SERV5J-Ls—PAs”都不是原始数据库中的表,而是经过很多处理得到的。>PAS客户流失分析的数据仓库模型根据已经构建出的维度和事实表,建立出来的PAS客户流失分析的数据仓库如图3■所示:电信客户流失的分析与研究作者:高敏导师;胡建华王清心 昆明理工大学硕士论文图3_2PAS客户流失分析的数据仓库模型3.3PAS客户流失分析主题的物理模型设计在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据存储策略、数据的存储分配优化等问题。根据需要,在PAS客户流失分析中对数据的存储结构选用RAID5,数据的索引策略使用微软的SQLSERVER提供的两种索引:聚集索引(clusteredindex,也称聚类索引、簇集索引)和非聚集索引(nonelusterexiindex,也称非聚类索引、非簇集索引)相结合的方式,如在表ACC—FEE—LS—PAS中对字段JF_DATE进行聚合索引,以增加查询的速度。而在表SERV—TJ—LS~PAS中对主键SERV—ID建立聚集索引,同时对字段TARIFF_GROUP_ID、USER—STATE、AREA_ID、DEVDEPT.ID、ISCITY、PRE_ITEM_TYPE_ID建立非聚集索引。在系统中,经常需要为电信业务人员提取数据,对于重要程度高、经常存取并对响应时间要求高的数据,采取的存储方式是把它整合进在线数据库中,以便于以后的数据提取;而对于使用频率低或对存取响应时间要求低的数据,不放入电倌霉户流失的分析与研究作者t高敏导师:胡建华王清心 昆明理工大学硕士论文在线数据库中。使用合理的存储策略可以提高系统的I/O效率,在本系统中,采用以下的存储优化方法:>表合并表合并是按照常用访问序列确定表的物理存放位置的方法。如:经常需要统计用户从去年到今年每个月份的消费额,则需要从表ACCFEE200401、ACC_FEE_200402⋯⋯ACC—FEE一200503中分别求得,需要做15次操作,相当复杂,由于表的数据结构相同.可以把这些表合并成一个表ACCFEE,再进行类似操作时就相当方便了。另外如话务量的表也采用相同的处理方法:把表ACC_STAT200401、ACC_STAT_200402⋯⋯ACC_STAT_200503合并成一个表ACC_STAT。>表分割为了便于数据的访问,可以在逻辑设计中对大表进行分割。需要访问大表中某类数据时,只需访问分割后的对应小表从而提高访问效率。在本系统中,表EQUIP_ACC包含了计费帐务系统中从2002年至《现在的出帐及收入信息,此类信息在每个月大约有600万条记录,所以当需要在这样庞大的一个表(约2.34亿条记录)中查询信息时,将是非常痛苦的。这时采用表分割的方法,使得一年的数据放入一个表中,即把表分割成表:EQUIP_ACC__2002、EQUIP_ACC2003、EQUIP_ACC_2004和表EQUIP-Acc_2005t另外,数据的存储分配优化采用SQLSERVER2000提供的缓冲池技术。电信客户镳失舳分析与研究作者t高敏导师t胡建华王清心 昆明理工大学硕士论文第四章数据的采集和清理本章介绍了数据的采集及清理过程中ETL模型的建立,举例给出了数据抽取、转换和加载过程中包的模型及代码;以年龄数据为例,详细描述了数据清洗中需要做的清除噪音数据及补全数据的过程,并介绍了数据噪音清除和补全时采用的统计分析算法。4.1ETL模型ETL即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系统向数据仓库加载的主要过程。ETL过程关系到数据的质量,是数据仓库应用的基石。根据目前建设数据仓库的经验,这个过程一般占到这个过程时间的50%以上。本系统中采用SQLSERER2000的DTS工具完成ETL过程,如:PAS流失客户基本信息的转换包及转换代码如下所示:》包SERVTJPAS图41包SERV—TJ—PAS≯转换代码:SELECTONLINETEST.ACC—FEEINFO_200405.ACCT_ID,ONLINETEST.ACCFEEI'NFO_200405,ACCTjD,ONLINETEST.ACC—FEEINFO_200405.CUST_ID,电信窖声流失的分析与研究作者,高敏导师t胡建华王清心 昆明理工大学硕士论文ONLINETEST.ACC—FEEINFO_200405.ACC_NBR,ONLINETEST.ACC—FEEINFO_200405.SERV_TYPEID,ONLlNETEST.SERV.TARIFF_OROUPID,ONLlNETEST.SERV.BILLING_TYPE_ID,ONLINETEST.SERV.INSTAⅢME,ONLINETEST.SERV.WORK_ID,ONLlNETEST.ACCFEE1NFO_200405.ACCT_WORK_ID,ONLINETEST.CUS£一REA_200405.AREA_ID,ONLINETEST.CUST_AREA_200405.AREAID,’2004—5-26’ASJF_TIMEFROMONLINETEST.ACCFEEINFO_200405,ONLINETEST.CUST_AREA_200405,ONLINETEST.SERVWHEREONLINETEST.ACC_FEE_INFO_20(M05.ACCT_ID=ONLINETEST.CUST_AREA●00405.ACCTIDANDONLINETEST.ACCFEEINFO200405.ACCTjD=ONLlNETEST.SERV.ACCTIDANDONLINETEST.ACCFEE1NFO.200405.SERVWORK_ID=ON£妣!EsrSERV.WORKID4.2年龄数据的噪音清除当分析客户流失特征时,年龄是反映用户自然特征的一个重要因素。在数据采集中,年龄是根据身份证号来确定的,而事实上,在现有电信的数据库系统中,身份证号是不完整的,有些为燥声数据,有些为空值,因此需要对年龄数据进行补全。在PAS流失客户数据的身份证字段中发现有些数据不符合身份证号码的位数,而有些根据身份证号得出的年龄小至2岁,大至99岁,显然此类数据为燥声数据,需要清除,代码如下:DELETEFROMSERV—.EX—.PAS—.LSINSERTINTOSERV,。EX..PAS—.LSSELECTSERVID,MAX(PAPERJD),NULLFROMSERV——EX—.200502WHERESERV_IDlN(SELECTDISTINCTSERV_IDFROMSERVTJ——LS)GROUPBYSERV_ID电债客户藏失的分折与研究作者;离敏导师:胡建华王滴心·22。 昆明理工大学硕士论文UPDATESERV—EX—PAS—LSSETCSNY=SUBSTRING(PAPERID,7'4)WHERESUBSTRING(PAPERID。7,2户’19'AND(LEN(PAPER_ID)=150RLEN(PAPERID)=1$)ANDSUBSTRING(PAPER_ID,9,2p。20’ANDSUBSTRING(PAPER_ID,9,2)<_穆5‘UPDATESERV—EX—PASJSSETCSNY=CONVERT(CHAR(4),(’19’+SUBSTRING(PAPERID,7,2)))WHERESUBSTRING(PAPER_]D,7,2)>020’ANDSUBSTRING(PAPERID,7,2卜爿95’AND(LEN(PAPERID)=15ORLEN(PAPER_ID)=18、4.3年龄数据的补全过程概述经过了噪音数据的清除以后年龄数据仍然有部分空值,需要补全。对于含空值比例较小的数据集,删除含空值的数据记录不失为一种有效的方法。然而当空值达到一定的比例时,如采用直接删除的方法将大大减少数据集中的记录,从而将可能丢失大量的信息。因此,空值也是数据清洗的一项重要内容,本系统中使用数据挖掘及统计分析的技术,通过已有的数据集预测空缺值的可能取值,具体过程为:1.确定与年龄有关的因素:对属性类型的数据采用因子方差分析和交互作用分析,对数据型的数据进行相关性分析;2.对年龄按区问进行分类,分为;少年、青年、中年和老年;3.对有关的属性类型的因素进行分类,分别进行分析:4.以一组数据为例,选用不同的判别方法进行判别分析;5.选择回代判错率小的判别方法,对未知年龄数据进行预测。4.4对属性类型的数据采用因子方差分析4.4.1单因子方差分析算法方差分析就是把实验数据的总波动(总变量或总方差)分解为由所考察因素引起的波动(各因素的变差)和随机因素等引起的波动(误差的变差),然后通过分析比较这些变差来判断哪些因素对所考察指标的影响是显著的,哪些是不显著的【17】【18l。电信客户流失舶分析与研究作者;高敏导师t蛆建华王清心·23- 昆明理工大学硕士论文单因子方差分析问题就是在方差相等情况下对多个正态均值是否彼此相等的一个假设检验问剐17Ⅱ18】【19】【20】【21]Fz21。所涉及的一对假设如下:1to:卢1=1zj=⋯∥,,1tl:诸口f不全相等。若在显著性水平口上拒绝岛,则称因子4在水平口上是显著的,简称因子A显著。否则称因子4不显著。寻找检验上述一对假设的关键在于总平方和的分解公式。在此需简要介绍凡个数学概念及公式:>偏差平方和及其自由度在统计学中,把k个数据",肋,⋯,Yk对其均值Y的偏差的平方和:伊(y,.歹)2+仳.歹)2+⋯+Op歹)2屯i.歹)2称为七个数据的偏差平方和,有时简称平方和,它是一个重要的统计量。偏差平方和Q常用来度量若干个数据集中与分散(即波动)的程度。Q中的k个偏差M一剪Y2一只⋯,YI一萝间有一个恒等式:∑(乃一罗)=0。故Q中独立的偏差只有缸1个。记产缸l,并称厂为Q的自由度。Q的简化计算公式为:Q=∑Y;一T2/k,T=y。+y:+⋯+Yk。》平方和的分解公式单因子试验共有H=m,+埘2+⋯+m,个数据,其总平均值为罗=吉喜薹驴去喜m∞只=寺缸。这"个数据的波动可用总偏差平方和s,表示:rm1S,=∑∑(yF一粥矗=”一1。J。1jffil对昌中每一项插入±只二项,利用代数运算,可把品分解为如下两个平方电信客户流失酶分析与研究作者t高敏导师;龋臻毕薹清心 昆明理工大学硕士论文和方和S,:壹羔【(y,一只)+(只一y-3121-1t-1=∑∑(_y口一只)2+∑m。(只-y-)2,=1J=lJ-I其中第一个平方和,Ⅲf∑艺(y口一只)2I王1』t1称为组内平方和%,又称为误差平方和s。,其自由度以=玎一r.第二个平∑m。(只-YD2称为组间平方和‰,又称为因子A的平方和只,其自由度厶=r一1。总平方和分解公式:sr2s。+吼,fT=工+L。这些都是代数恒等式。>各平方和的计算记Z为水平下数据之和,T=五十正+⋯+£为总和.各平方和简化计算公式如下:舄=竞。-I兰j-1圹2iT2,,r⋯1,以:芏十星+...+里一!,厶:,一1,“m1rn2m,H—S。-n-Ql+Q2+⋯+O,,正=n—r。常用的计算过程是:先按前二式计算曲和S。,然后用减法计算S。=Sr—S』,正=fT—fA。这样计算可省略了S。的大量计算,又可提高计算精度。≯均方和电信客户流失的分折与研究作者:高敏导Ji|jt胡建华王清心 昆明理工大学硕士论文平方和除以自己的自由度称为均方和,亦可称均方,记为MS。其排除了自由度对平方和的干扰,便于比较。误差的均方和与因子A的均方和分别为蝇=鲁,MSa=鲁.九一r,一I在单因子方差分析的三个基本假定下,有E(S。)=(行一r弦2,E(S。)=(,一1)仃2+Em,(∥,一∥)2。1=1其中∥=吉喜聊幽=E(刃。误差均方和脚。是盯2的无偏估计。在原假设风成立下,因子A的均方和MS。也是仃2的有偏估计。>F检验可以证明:在原假设日。成立下,两个均方和之比服从F分布,即F:磐~F(r-1扩r)。埘。、77此F是用来检验原假设H。成立与否的检验统计量。当原假设凰成立时,两个均方和都是盯2的无偏估计,其比值F不会过大.当原假设凰不成立时,分子的均方和^掇。是盯2的有偏估计,其比值会较大。拒绝域应为∥={F>c},对给定的显著性水平口,其中c可由F分布的1一口分位数E一。(,-1,"一r)确定。≯方差分析表由以上概念可以得到方差分析表4_1如下电信客户流失的分析与研究作者:高敏导师t胡建华王清心 昆明理工大学硕士论文来源平方和自由度均方和F比因MS。:兰F:盟子S。=∑m。(只-y)2|~=p-1r—lMS。A误S。:主艺(蜥一只):正=H—rMS。:量差et-Ij=ln—r和S,=∑∑(%-y)2矗=”一1T表41方差分析表从而可以得到结论:◆当F>E.。(r-1,n-r)时,拒绝原假设Ho,即认为诸正态均值间有显著差异;夺当F≤E一。(,一l,n-r)时,保留原假设日o,因为尚无发现诸均值∥。,∥2,⋯,从间有显著差异的迹象,只好保留日。。》显著性概率P和临界概率值口上述结论中提到:当各正态均值有显著差异时,F>E.。(r-1,n-r),假设发生F>E。(r—l,,l一,)的概率为P,则称P为显著性概率。若检验的显著性水平(或危险率)给定为仉时,则可以把㈣作为临界值来检验零假设(即检验差异是否显著)。由给定的显著性水平,通常是a=0.05。≯因子方差分析结论由此可以得出因子方差分析结论:々若P值小于临界概率值伍,则拒绝零假设,各组均值有显著差异,即因子与考察指标有关。夺反之,若P值大于临界概率值俚,则不能拒绝零假设,各组均值无显著差异,即因子与考察指标无关。4.4.2单因子方差分析结果根据从数据库中提取出电信客户属性,一一分析是否与年龄有关。选取的客户属性为:行业(TRADE-_TYPE)、用户状态(USER—STATE)、地域(AREA_ID)、费率类型(TARIFF_GROUPID)、营销统计属性(DEVDEPT_ID)、城市标识电信客户流失的分析与研究作者;高敏导师;胡建华王清心-27· 昆明理工大学硕士论文(ISCITY)、VIP客户标识(VIP)。下面给出分析结果:图42因子方差分析:行业—年龄由图42可以看出在针对“行业”这个因子的分析中,有5885条记录(n=5885),可分为7类数据(,=7),根据表4.1可以得到;自由度:fA=,一1=7·1=6;办=n一1=5885·l=5884;正="一r=5884—6=5878平方和:S。=∑M(只一刃2=1007.0112;,Ⅲ●&=∑∑(均-y,)2=595796.1942I-l1=1,m+Sr=∑∑饥-y)2=696803.2054扣lJ=l均方和:MS。=≠与=167.8352;电信客户流失的分析与研究作者t高敏导师:胡建华互清心-28- 昆明理工大学硕士论文MS。:旦:118.3729r/一rF:F:坐:1.42MS。显著性概率:p=O.2035>a(0.05)根据因子方差分析结论可知:行业因素属性与年龄无关。≯用户状态(USER_STATE)图4-3因子方差分析:用户状态—年龄由图43可以看出在针对“用户状态”这个因子的分析中,有5885条记录(n=5885),可分为3类数据(严3),根据表Ll可以得到:自由度:^=,一1=3·1宅;^=”一1=5885-1。5884:正=n—r25884-2=5884平方和:s。=Em,(只一歹)2=12981.2232:iffilrm.S。=∑∑饥一只)2_683821。9822:I=1Jzl电信客户流失钓分析与研究作者t高敏导师:胡建华王漶心-29- 昆明理工大学硕士论文Sr=∑r∑Mj嘶一刃2=696803.2054i-IJ;I均方和:船^=rS—A1=6490.6116;懈。:量:116.2567H—rF.F:兰堕;555.83埘。显著性概率:p
此文档下载收益归作者所有