资源描述:
《数据仓库技术与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算机与现代化2004年第11期JISUANJIYUXIANDAIHUA总第111期文章编号:100622475(2004)1120086203数据仓库技术与应用项 军,雷英杰(空军工程大学导弹学院,陕西三原 713800)摘要:对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍,在此基础上提出适用于电信系统应用的设计思想,详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词:数据仓库;联机分析处理;数据挖掘中图分类号:TP311.13文献标识码:ATheTechniqueandApplicationofDataWarehouseXIANGJun,LEIYing2jie(
2、MissileInstituteofAirForceEngineeringUniversity,Sanyuan713800,China)Abstract:Thispaperintroducestheconceptsofdatawarehouse,on2lineanalyticalprocessinganddatamining,putsforwardthedesignthoughtoftelecommunicationsystemandbrieflyintroducesthesystemstructure,thekeytechniquesofthesystemandthefunctionsof
3、eachsub2system.Keywords:datawarehouse;on2lineanalyticalprocessing;datamining1.1 数据仓库(DataWarehouse)0 引 言根据W.H.Inmon的定义“数据仓库是面向主题:近年来,随着企业计算机应用的不断深入,大部的、集成的、稳定的、随时间变化的数据集合,用以支分企业已经投入了大量的时间和资源建立了庞大而持决策制定过程。”数据仓库是一个专门的数据仓储[1]复杂的信息系统,积累了大量的宝贵数据资源。面对对象。它通过清理、转移、分析、映射和综合,形成日益激烈的市场竞争和潜在的金融风险,这些企业迫统一的存储格式,
4、最终为用户特别是决策支持者提供切希望能有一个强而有力的分析工具来帮助他们从对公用数据的更好的访问支持。数据仓库有四个显[2]这些海量的数据中充分挖掘有意义的信息,以辅助高著特点:层领导者进行计划和指导决策活动。(1)数据仓库的面向主题性。数据仓库的目的是为了建立一种体系化的数据主题是一个抽象的概念,是在较高的层次上对企存储环境,将分析决策所需要的大量数据从传统的操业信息系统中的数据综合、归类后进行分析利用的抽作环境中分离出来,使分散、不一致的操作数据转成象。在逻辑意义上,它是对应企业中某一宏观分析领集成、统一的信息,进而支持决策。完整的数据仓库域的分析对象,是针对某个决策问题而设置的。包括三
5、个方面的技术内容:数据仓库技术、联机分析(2)数据仓库的数据是集成的。处理技术和数据挖掘技术。该文对数据仓库技术及数据仓库中存储的数据从原来的分散、异构的数其决策支持工具进行了详尽的讨论,并提出适用电信据库数据经过抽取、统一、综合转换成全局统一的定行业的方案设计思想。义消除不一致和错误之处。(3)数据仓库的数据是不可更新的。1 数据仓库及其决策支持工具的概述数据仓库中的数据通常是一起载入与访问的,在收稿日期:2003212227基金项目:教育部高等学校骨干教师资助计划项目(GG281029003921003)作者简介:项军(19792),男,四川绵阳人,空军工程大学导弹学院计算机工程系硕士研
6、究生,研究方向:智能信息处理与人工智能;雷英杰(19562),男,陕西渭南人,教授,博士生导师,研究方向:智能信息处理,模式识别,人工智能。©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.872004年第11期项军等:数据仓库技术与应用数据仓库环境中不进行一般意义上的数据更新。所分析的深度的角度来看,OLAP位于较浅的层次,DM以数据在一定的时间间隔是稳定的,并且能反映企业所处的位置较深。当前和历史的数据。尽管DM与OLAP存在差异,但作为数据仓库的(4)数据仓库的数据是随时间变化的。工具层的组成部分,两者相辅相成
7、,相互结合,多维数数据仓库的数据随时间变化不断增加新的数据据挖掘(OLAM)是OLAP和DM相结合的产物。内容和删去旧的数据内容。数据仓库中含有大量与2 电信系统数据仓库技术应用方案时间有关的综合数据。粒度是数据元素中包含的信息的确切性程度,分随着电信市场的逐渐开放,传统的电信厂商面临[3]为细粒度和粗粒度。它深深地影响存放在数据仓着国内外厂商的挑战,电信厂商间的竞争将日趋激库中的数据量的大小,影响存储介质大