欢迎来到天天文库
浏览记录
ID:59593605
大小:211.00 KB
页数:41页
时间:2020-11-14
《数据仓库实例(dw3)培训资料.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据仓库实例(dw3)针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护2.6数据仓库的设计2.6数据仓库的设计确定系统边界要做的决策类型有哪些?决策者感兴趣的是什么问题?这些问题需要什么样的信息?要得到这些信息需要包含哪些数据源?概念模型设计确定系统边界确定主要的主题及其内容OLAP设计2.6数据仓库的设计确定主要的主题即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括:确定主题及其属性信息描述每个属性的取值情况固定不变的半固定的经常变化的确定主题的公共码键主
2、题间的关系:主题间联系及其属性在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如:2.6数据仓库的设计主题名公共码键属性信息商品商品号固有信息:商品号,商品名,类别,颜色等采购信息:商品号,供应商号,供应价,供应日期,供应量等销售信息:商品号,顾客号,售价,销售日期,销售量等库存信息:商品号,库房号,库存量,日期等供应商供应商号固有信息:供应商号,供应商名,地址,电话,供应商类型等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等顾客顾客号固有信息:顾客号,姓名,性别,年龄,
3、文化程度,住址,电话等购物信息:顾客号,商品号,售价,购买日期,购买量等2.6数据仓库的设计供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期商品固有信息商品库存信息商品、顾客和供应商之间的E-R图2.6数据仓库的设计逻辑模型设计将E-R图转换成关系数据库的二维表定义数据源和数据抽取规则在逻辑模型的设计过程中,需要考虑以下一些问题:适当的粒度划分合理的数据分割策略定义合适的数据来源等2.6数据仓库的设计逻辑模型设计–粒度划分在设计过程中需要考虑数据仓库中数
4、据粒度的划分原则,即数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低数据综合度越高,粒度越大,级别就越高。一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,或者采用更多级的粒度划分方法。例如:根据时间跨度进行的统计有:天,周,月,季度,年对于不适合进行统计的属性值,可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。2.6数据仓库的设计商品固有信息:商品表(商品号,商品名,类型,颜色,…)/*细节数据*/商品采购信息:采购表1(商品号
5、,供应商号,供应日期,供应价,…)/*细节数据*/采购表2(商品号,时间段1,采购总量,…)/*综合数据*/……采购表n(商品号,时间段n,采购总量,…)商品销售信息:销售表1(商品号,顾客号,销售日期,售价,销售量,…)/*细节数据*/销售表2(商品号,时间段1,销售总量,…)/*综合数据*/……销售表n(商品号,时间段n,销售总量,…)商品库存信息:库存表1(商品号,库房号,库存量,日期,…)/*细节数据*/库存表2(商品号,库房号,库存量,星期,…)/*样本数据*/……库存表n(商品号,库房号,库存量,年份,…)其它导
6、出数据:……2.6数据仓库的设计逻辑模型设计–数据分割数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。选择数据分割的因素有:数据量的大小数据分析处理的对象(主题)简单易行的数据分割标准数据粒度的划分策略通常采用‘时间’属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。2.6数据仓库的设计逻辑模型设计–定义数据来源及其抽取规则定义数据仓库中数据的来源,以及数据的抽取规则,例如:主题名
7、属性名数据源系统源表名源属性名商品商品号库存子系统商品商品号商品商品名库存子系统商品商品名商品类别采购子系统商品类别…………………………2.6数据仓库的设计物理模型设计在逻辑模型设计基础上确定数据的存储结构、确定索引策略、确定存储分配及数据存放位置等与物理有关的内容,物理模型设计的具体方法与数据库设计中的大致相似。其目的是为了提高数据仓库系统的访问性能。常用的一些技术有:合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引2.6数据仓库的设计在常见的一些分析处理操作中,可能需要执行多表连接操作。为了节省I/O开销,
8、可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。这样的技术我们称为合并表。合并表技术与传统关系数据库中的集簇(Clustering)技术类似。物理模型设计–合并表2.6数据仓库的设计按照数据的处理顺序调整数据的物理存放位置,以减少减少系统的磁盘I/O的开销。物理模型设计–建立
此文档下载收益归作者所有