资源描述:
《数据仓库第四至第七章作业》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据仓库课程第4-7章作业1.请解释ERP系统的概念,事务型ERP系统与ReportingERP系统共同点与不同点在于什么。答:ERP系统(ERPSystem),是EnterpriseResourcePlanning企业资源计画系统的缩写,是一种企业管理平台,强调对企业的内部甚至外部的资源进行优化配置、提高利用效率。通过运用ERP,企业能够利用电脑对企业的人力、物力、财力等资源进行自动化管理。ERP系统对于改善企业的业务流程、提高企业效率和竞争力有不可忽视的作用。共同点:他们均属于ERP系统,均用于实现对整个供应链的有效管理,把企业的业务流程看作
2、是一个紧密联接的供应链,用于提高企业效率。不同点:目的不同,一般而言,企业信息系统要能提供事务处理和决策支持两方面的功能。事务型ERP系统的主要目的也是为企业提供高效的事务处理功能。而ReportingERP系统主要是用于数据分析如生成各种报表,用于管理决策支持功能。效率不同,通常来说,事务型ERP系统对效率要求较高,用于快速的处理事务,而Reporting相对而言,对处理速度要求没有事务型ERP那么高。2.ODS中的数据一般应具有什么特点?其中数据的集成性以及实时或近实时的特点■使其分别可能适用于支持什么类型的应用场景?答:ODS是用于支持企业
3、日常的全局应用的数据集合,保存在ODS中的数据具有四个基本特点:1.面向主题2.集成的3.可变的4.数据是当前的或接近当前的其中数据的集成性以及实时或近实时的特点使其可能适用于OLTP应用场景。3.决策支持人员的常见思维模式与多维分析工具的关系是什么?答:多维分析工具提供了数据的多角度、多维性,同时能够快速的处理数据,提供报表。所以多维分析工具是决策支持人员的决策依据,并提高决策人员的决策效率。1.星型模式与雪花型模式的区别是什么?这两个模式是来表达什么的?各有什么优缺点?答:星型模式和雪花型模式的区别在于维表的物理组织方式不同,星型模型是典型的
4、维层次模型,而雪花型模式采用满足关系范式的多张维表来表示一个维的层次结构,避免单个维表所带来的冗余。这两个模式用于表达维表的物理组织方式”也就是描述维逻辑结构所需的属性集及给定的值域的物理组织方式。缺点星型模式:1)在层次结构复杂时,很容易造成冗余。2)可能因维表设计不满足关系范式的要求,难以为高层维节点提供足够的描述信息。雪花型模式:对维数据的浏览略为麻烦。2.什么叫物化视图或实体化视图?物化视图与虚视图的区别是什么?主要用来解决什么问题?答:物化视图是一种特殊的物理表,〃物化〃(Materialized)视图是相对普通视图而言的。物化视图是数
5、据库中的一种存储数据的对象,和表一样,存储了数据。用于预先计算并保存表连接或者聚集等耗时较多的操作。这样,在执行查询的时候,就可以避开连接、聚集等耗时的操作,从而快速的得到结果。它可以查询表,视图甚至是其他物化视图中的数据。区别:和虚视图不同的是,它存储了实实在在的数据,而视图只是存储了定义而已,所以,也是可以在物化视图上创建索引的。物化视图在很多方面,和索引很相似:的:普通视图是虚拟表,应用的局限性大,任何对视图的查询,都实际上转换为视图SQL语句的查询。这样对整体查询性能的提高,并没有实质上的好处。使用物化视图可以提高查询性能;物化视图对应用
6、是透明的,增加或者删除物化视图不会影响应用程序中查询语句的正确性和有效性;物化视图会占用存储空间;当基表发生变化时,物化视图也应当刷新。通常情况下,物化视图被称为主表(在复制期间)或者明细表(在数据仓库中1对于数据仓库这样的数据库来说,由于生产系统中存储了大量的明细和实时的数据,因此,在数据仓库中使用物化视图是非常必要和重要的。6.请查资料了解kafka的功能,并说明kafka与ETL概念的关系。答:Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:1)以时间复杂度为0⑴的方式提供消息持久化能力,即使对TB级以上数据也能保证常
7、数时间复杂度的访问性能。2)高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。3)支持KafkaServer间的消息分区,及分布式消费,同时保证每个Partition内的消息顺序传输。4)同时支持离线数据处理和实时数据处理。5)Scaleout:支持在线水平扩展。所以在我看来,他是用于处理流数据的工具,数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。而ETL系统是数据集成的概括,也就是说ETL系统用于数据抽取、数据清洗和规格化、数据提交等功能所以说kafka是ETL在具体环境中的一个实现。7.请说明数据仓
8、库或大数据平台中的批量计算与增量更新的概念■为什么多数数据仓库系统都需要采用增量更新的方案?答:批量计算:批量计算(BatchCompu