欢迎来到天天文库
浏览记录
ID:41006154
大小:33.00 KB
页数:8页
时间:2019-08-13
《数据仓库维度建模技术在电信行业的应用doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据仓库维度建模技术在电信行业的应用研究Cww.net.cn2005年5月8日15:36 通信世界网山东大学计算机科学与技术学院栾诚李玉忱 在电信行业经营分析系统设计中,数据仓库维度建模设计至关重要。并将作为企业经营分析中最为关心的主题之一。本文将以客户流失分析为例,研究在实施电信行业经营分析系统时,如何构建数据仓库的维度模型。 一、建模步骤 a)面向经营分析系统的数据仓库与面向事务处理的数据库应用需求不同,所采用的建模方法也不同。数据仓库建模的两个重要特点是面向主题和集成性。面向主题与传统数据库面向应用相对应。主题是一个
2、在较高层次将数据归类的标准,是用户使用数据仓库进行决策分析时所关心的重点方面。每一个主题对应一个分析领域,通常与多个操作型信息系统相关。集成性是指在来源复杂的数据进入数据仓库之前,必须经过数据加工和集成,消除源数据中的不一致性,以保证数据仓库内的信息是关于整个电信行业的一致的全局信息。 1.模型关键数据结构的设计 数据仓库的建模分为物理建模和逻辑建模。物理建模侧重于对物理存储介质的访问存取性能优化。逻辑建模针对于具体应用。 1.1模式选择 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统
3、的物理实施有着重要的指导作用。目前较常用的两种建模方法是所谓的第三范式(3NF,即ThirdNormalForm)和星型模式(Star-Schema)。 1.1.1第三范式 范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(Normalize)。在数据仓库的模型设计中目前一般采用第三范式,它有非常严格的数学定义。如果从其表达的含义来看,一个符合第三范式的关系必须具有以下三个条件: (1)每个属性的值唯一,不具有多义性; (2)每个非主属性必须完全依赖于整个主键,
4、而非主键的一部分; (3)每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。 第三范式的定义基本上是围绕主键与非主属性之间的关系而做出的。如果只满足第一个条件,则称为第一范式;如果满足前面两个条件,则称为第二范式,依此类推。因此,各级范式是向下兼容的。 1.1.2星型模式 星型模式是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(DimensionTable)组成。每个维表都有一个维作为主键,所有这些维组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。
5、事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据,而维大都是时间、地域等类型的数据。 由于电信行业数据量非常大(达到TB级),在进行数据仓库设计时,多表连接、表的累计、数据排序、大量数据的扫描等操作是面临的主要问题。要解决这些问题,在设计模型时,就需要采取如对表进行预连接(Pre-Join)、在模型中增加有关小计数据(SummarizedData)的项、对数据事先排序、通过使用大量的索引来等措施。 基于系统的响应速度、系统的复杂度、系统的维护工作量等方面考虑,我们在实施某电信行业数据仓库系统的建设
6、时,采用星型模式。星型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。 1.2基础架构的建立 建立模型的关键是维度的选取、维度的分割、维度属性的选取、实事数据项的选取。在电信行业,经营分析的目的是发现数据中的趋势,这种发现数据中的趋势的能力在很大程度上受数据质量的影响。 在电信行业经营分析系统需求分析的基础上,首先确定数据仓库分析主题域,以次作为数据聚类重组的依据。经营分析系统设计主要包括以下几个方面: i.确定分析的主题。 ii.确定分析的主要指标。 iii.确定分析的
7、角度。 iv.设计分析主题的角度、指标的对应关系。 以客户流失分析为例。客户流失分析从消费层次、产品类型、欠费时间等角度分析网上流失客户的客户属性构成、业务使用构成、业务使用量构成,分析在某一时段网上流失客户构成、流失客户数及发展趋势;分析影响客户流失的主要因素,以便制定合理的客户保留的营销策略;监控流失客户的情况,对流失进行预警;通过对流失客户的分析,掌握客户流失的规律,进行既定条件下客户流失的仿真模拟,为制定科学合理的营销策略提供依据。 根据分析的需求定义客户流失资料所包含的信息,主要包括: (1)时间类信息:流失
8、日期,在网月份数等; (2)客户类信息:客户标识、所属地区、年龄、性别、职业、所属行业等; (3)账务类信息:缴费类型、服务类型等。 其次,设计客户流失分析的角度、指标,及其对应关系。 1.3数据仓库中的
此文档下载收益归作者所有