欢迎来到天天文库
浏览记录
ID:43719133
大小:419.26 KB
页数:44页
时间:2019-10-13
《系统架构师的心得》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据库系统数据仓库与传统数据的区别比较项目数据库数据仓库数据内容当前值历史的、归档的、归纳的、计算的数据数据目标而向业务操作程序、重复操作而向主体域,分析应用数据特性动态变化、更新静态、不能直接更新,只能定吋添加、更新数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高低数据访问量每个事务一般只访问少量记录每个事务都需要访问大屋记录对响应时间的要求计时单位小、如秒计时单位相对较大,除了秒,还有分,小时数据仓库分为:数据集市、企业仓库和虚拟仓库数据仓库主要包含了数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库已经各种管理工具和应用工
2、具数据仓库的参考架构:1.数据仓库基本功能层:包括了数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,已经存取和使用部分。其基木功能是从数据源抽取数据,对所抽取的数据进行筛选、清理,将处理过的数据导入或者说加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等。2.数据仓库管理层:山数据仓库的数据管理和数据仓库的元数据管理组成。数据仓库的管理层包含了数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统,安全性与用户授权管理系统以及数据归档、恢复和净化系统4个部分。3.数据仓库环境支持层:包括了数
3、据仓库数据传输层和数据仓库棊础层组成。数据挖掘:长期对数据库技术进行研究和开发的结果。数据挖掘的特征:没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应该具有先知、有效和可实用三个特征。数据挖掘的功能:1.自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性的信息,以往需要大量手工分析的问题如今可以迅速直接由数据本身得出结论。1.关联分析:关联分析的目的是找出数据库中隐藏的关联网。关联分为:简单关联,吋序关联和因果关联。2.聚类:数据库屮的记录可划分为一系列的有意义的子集。3.概念描述:4.偏差检测:偏差检测的基木方法是寻找观测结
4、果与参照值Z间冇意义的差别。数据挖掘常川的技术:1.决策树:2.神经网络3.遗传算法4.关联规则挖掘算法数据挖掘分析方法:1.关联分析2.序列分析3・分类分析1.聚类分析2.预测3.时间序列分析数据挖掘的流程:1.问题定义:要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么2.建立数据挖掘库:把要挖掘的数据都收集到一个数据库中,而不是采用原有的数据库或数据仓库。因为人部分悄况下需要修改要力•巨额的数据,而且还会遇到采用外部数据的情况。期外还盂要对数据进行各种纷繁复杂的统计分析,而数据仓库可能不支持这些数据结构。3.分析
5、数据:通常所进行的对数据深入调查的过程。4.调整数据5.模型化6.评价与解释数据库建模使用数据模型比使用过程模型的优越性:1.数据模型有助于分析员快速地确定业务词汇(比过程模型确定的更全面)2.数据模型几乎总是比过程模型构造的快3.—个完整的数据模型可以记录在一页纸上,而过程模型要十儿页纸4.过程模型经常使人容易陷入不必要的细节中5.现冇系统和建议系统的数据模型Z间的相似性远比他们的过程模型的相似性高。问题分析阶段的模型应该仅仅包括实体和关系,而不包括加性。数据库建模过程:1.获収实体实体获取指南:a.在与系统所有者和用户的面谈或JRP会议中,注意
6、他们讨论的关键词b.在面谈或JRP中,专门要求系统所冇者和用户确定他们想收集、存储和生成信息的事物。c.确定实体的另一个技术的研究现有表格、文件和报告d.如果用例描述在需求分析阶段被记录下來,那么它们就可能成为数据属性和实体的来源e.逆向工程中获取注意:实体的名称应该是简单的、有意义的、而向业务的、实例的数量应该是很多的。2.构造上下文数据模型3.基于键的数据模型建立键的原则:a.在每个实体实例的生命周期中,不会改变b.键值不能为空c.确保键值的有效性d.在一定的情况下,使用智能键e.对于对立的实体,使用代理键来替代大型复合键4.泛化层次体系(建立
7、超类与了类的体系)5.具有完整属性的数据模型a.组织内部认定的命名标准和认可的简写方式,由DBA维护b.仔细选择每个属性的名称。除非属性可以被泛化成一个超类,否则最好给每个变量一个唯一的名称。并不使用简写c.现有表格和文件屮的物理屈性名称经常被简写以节省空间。d.对于BOOL的属性,最好以问题的形式命名c.外间是对非冗余规则的一个例外f.一个属性的域不应该是逻辑的6.规范化7.将数据需求映射到地点在将数据需求映射到地点的技术中,可以根据以下的问题来划分:a.在每个地点需要实体和属性的哪些子集来完成工作?b.需要什么级别的访问?c.该地点可以创建实体
8、实例吗?d.该地点可以读取实体实例吗?e.该地点可以删除实体实例吗?f.该地点可以修改实体实例吗?解决此问题的技术主要是:
此文档下载收益归作者所有