欢迎来到天天文库
浏览记录
ID:32136776
大小:1.52 MB
页数:59页
时间:2019-01-31
《基于企业数据仓库的数据挖掘在电信行业中的分析 (1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在年解密后适用本版权书。本学位论文属于不保密臼:学位论文作者签名:更了).芝日期:2,ohe年咖/,El指导教师签名:呆羲译日期:乩年≥月上日第一章绪论1.1研究背景电信行业是全球经济中增长最快的行业,同时也是竞争最激烈的行业。随着全球经济一体化迸程的推进,电信行业的竞争格局发生了
2、重大改变,从原有少数几个电信企业在局部市场的竞争,转变为众多电信企业对全球市场的争夺,因而竞争也变得空前的残酷。电信如何在众多企业中获得消费者青睐,提高企业的分析能力,提高企业的市场竞争力,维持市场领导地位,是目前最严峻的考验。为了保持竞争的优势,电信运营企业的管理层和业务人员必须随时了解企业的业务运行情况,并根据市场情况随时调整业务策略,这些必须建立于对信息的需求得到满足的基础之上。但是电信业务的特点是数据量庞大,业务系统众多,如“电信业务计算机综合管理系统”、“本地网管系统”、“计费帐务系统”等,这些系统产生了大量的业务处理数据。而这些历史数据都被存放在磁带、光盘中
3、,或是分布在不同的硬件、数据库内,利用传统的信息获取手段,比如手工报表的方式,信息的提供在速度、质量、范围上都大大滞后于信息的需求。比如某电信企业有千万级的电信客户,每个客户每月几百次的本地电话和上百分钟的长途电话,上TB级的数据使得原来的数据存储、分析方法和处理能力力不从心。从电信运营企业庞大的业务处理系统随时获取所需的信息,几乎是不可能的,因此必须引入新的技术,来支持企业业务对信息的需要。竞争的加剧使得数据仓库作为决策分析支撑的数据平台并在该平台上进行数据挖掘分析的手段日益盛行。数据仓库技术是目前已知的较为成熟和被广泛采用的解决方案。利用数据仓库整合电信运营企业内部
4、所有分散的原始的业务数据,并通过便捷有效的数据访问手段,可以支持企业内部不同部门,不同需求,不同层次的用户。随着市场竞争的加剧,企业业务人员和管理者对信息的需求日益增多,电信数据仓库系统的建立和使用已经成为必然的趋势【“。1.2课题来源上海电信目前数据主要来自于CRM系统和BSS系统。系统经过多年的运行,已经存储了大量的历史数据。这些数据中蕴涵着丰富的信息,从中可以了解企业在电信市场经营过程中所处的态势、竞争对手的经营形势、客户群的分布状况、消费特征、企业经营发展的趋势等,对其进行分析处理可以得到很多令人欣喜的结论。强大的数据处理能力,加上丰富的企业数据,可以有力地促进
5、企业经营和竞争。这些海量数据在原有分离的CRM系统和BSS系统中难以进一步提炼并升华为有用的信息,使得信息资源无法在更大更深的范围内共享和利用。随着中国电信的南北拆分,使得本来竞争激烈的电信行业不得不面临更大的竞争,同时为了进一步细分客户,在现有的基础上力求业务增长点,上海电信将构建统一的数据平台,建立oDS/EDW系统,整合现有的CRM和BSS等系统,从而实现数据源的统一,跨越各个业务运营系统,建立综合的信息资源平台,利用数据仓库技术,深层次地挖掘、分析当前和历史的生产业务数据以及相关环境数据,自动快速获取其中有用的决策信息,为企业提供快速、准确和便捷的决策支持。1.
6、3研究的主要内容本文着重研究了以下几个方面的内容:1)系统地介绍了本研究的背景和来源,详细地阐述了相关的技术,如数据仓库、数据挖掘等的概念和发展现状。2)系统地阐述了企业数据仓库的概念,并介绍了研究手段和实现方法。并针对企业数据仓库的构建方式提出了基于企业数据仓库的数据挖掘模块的实现:将企业数据仓库和数据挖掘算法的方式结合起来,充分考虑企业数据仓库数据组织和存储的特点,实现基于企业数据仓库的数据挖掘功能,以达到数据仓库与数据挖掘系统的集成。3)提出一个基于分区的散列算法(HashPartitionAlgorithm):该算法通过对数据的分区,可以极大地减少数据库的扫描次
7、数。同时结合散列技术很大程度上减少不可能成为频繁项集的候选集,提升了电信行业中基于海量数据的数据挖掘算法的性能,很好地为日益增长的电信用户实现了客户呼叫模式的关联分析。该算法充分考虑了基于海量数据中的数据挖掘性能。4)提出一种新的基于K-means算法的遗传算法在电信大客户特征的聚类识别中的应用;在对电信大客户分析的基础上,该算法通过遗传算法,可以显著地降低对数据库的浏览次数,提高算法性能,并能够准确充分地反映大客户的特征,从而实现对大客户特征的聚类。1.4本文的结构本文共分六章,其中第三、四、五章是本文的重点章节。第一章是论文的绪论,主
此文档下载收益归作者所有