欢迎来到天天文库
浏览记录
ID:49800014
大小:5.41 MB
页数:70页
时间:2020-03-02
《SQL Server 数据仓库最佳实践.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、SQLServer数据仓库最佳实践Level300课程内容数据仓库设计与最佳实践设计最佳实践案例2数据仓库基本概念数据和信息的区别数据是由可观察和可记录的事实组成,通常存在于OLTP系统中。数据只有被加工处理为信息后,才有意义。信息是经过加工处理并对人类客观行为产生影响的数据表现形式。3Kimball数据仓库建设4一、定义业务需求5说明提炼业务流程初始化数据仓库总线矩阵6二、维度建模7四步建模过程8AdventureWorksCycles公司企业数据仓库总线矩阵--全公司9定义业务流程优先级业务流程数据可行性低,业务价值/影响低10
2、确定粒度维度中粒度表示法业务流程的粒度及基础度量11业务角色矩阵定义角色,明晰每个角色需要看的业务流程数据进一步可进行数据安全性的设计12定义维度属性/数据质量分析定义维度属性源系统数据质量分析13为每个业务流程定义详细维度模型SalesOrderItemQuantityUnitCostTotalCostUnitPriceSalesAmountShippingCostTime(OrderDateandShipDate)SalespersonCustomerProductCalendarYearMonthDateFiscalYearFi
3、scalQuarterMonthDateRegionCountryTerritoryManagerNameNameCountryStateorProvinceCityAgeMaritalStatusGenderCategorySubcategoryProductNameColorSize14根据维度模型详细定义进行数据仓库逻辑设计维度表事实表星型架构15雪花型架构以下情况考虑:在多个维度之间共享的子维度存在层次结构,并且维度表包含变化频繁的小的数据子集多个不同粒度的事实表引用到维度层次结构的不同层级DimSalesPersonSale
4、sPersonKeySalesPersonNameStoreKeyDimProductProductKeyProductNameProductLineKeySupplierKeyDimCustomerCustomerKeyCustomerNameGeographyKeyFactOrdersCustomerKeySalesPersonKeyProductKeyShippingAgentKeyTimeKeyOrderNoLineItemNoQuantityRevenueCostProfitDimDateDateKeyYearQuarter
5、MonthDayDimShippingAgentShippingAgentKeyShippingAgentNameDimProductLineProductLineKeyProductLineNameDimGeographyGeographyKeyCityRegionDimSupplierSupplierKeySupplierNameDimStoreStoreKeyStoreNameGeographyKey16维度表逻辑设计-键代理建业务键17属性和层次结构层次结构切片钻取明细18Unknown和None识别NULL值的含义Unkno
6、wn还是None?不要假设NULL等价使用ISNULL()源维度表19设计缓慢渐变维度类型1类型2类型320时间维度表代理键粒度范围属性和层次结构多日历未知值ETL还是预先填充?21自关联的维度表KimAbercrombieKamilAmirehJeffHayCesarGarcia备注:如果层次固定,还是建议重构成固定层次的平面表,然后创建层次结构,父子层次结构如果中间层级过多,性能不好。22垃圾(Junk)维度将不属于已有维度的低基数属性合并到一起避免创建很多小的维度表23事实表设计-列维度键度量值退化维度24度量类型累加半累加不可
7、累加25事实表的三种类型26示例事务型事实表周期性快照事实表累计快照事实表27价值链—跨业务流程共享维度28设计之其他考虑-Factless事实表如何获取正在参加促销活动但是没有销售出去的产品信息?29设计之其他考虑-维度和事实之间多对多多个维度值指派到一个事实交易如果需要为每一个销售代表分配销售,可以在中间表添加权重30设计之其他考虑-维度和维度之间多对多例如:一个客户有一个或多个Account,一个Account对应一个或多个客户31三、技术架构设计32微软DW/BI系统体系结构33服务器架构(1)34服务器架构(2)35开发团队
8、配置36四、数据仓库物理设计37物理数据分布跨物理设备分布数据:使用文件组和RAID存储(推荐RAID10)数据文件和日志文件分开存储工作区对象单独存储:例如,临时的数据表预先分类空间禁用自动增长为所有文件分配一样的尺寸
此文档下载收益归作者所有