2.数据仓库与数据挖掘项目建设-讲义

2.数据仓库与数据挖掘项目建设-讲义

ID:11278697

大小:19.14 MB

页数:106页

时间:2018-07-11

2.数据仓库与数据挖掘项目建设-讲义_第1页
2.数据仓库与数据挖掘项目建设-讲义_第2页
2.数据仓库与数据挖掘项目建设-讲义_第3页
2.数据仓库与数据挖掘项目建设-讲义_第4页
2.数据仓库与数据挖掘项目建设-讲义_第5页
资源描述:

《2.数据仓库与数据挖掘项目建设-讲义》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘项目建设1.数据仓库知识简介1.1软件质量控制软件质量控制的主要目的是为了获得更高的开发效率,避免返工,提高产品的市场竞争力,从而为客户提高符合质量需求的稳定可靠的软件产品,同时它也是控制方法的集合,包括软件建模、度量、评审以及其他活动。1.2用于软件控制的一般性方法如下:1.目标问题度量法,即通过软件质量目标并持续观察这些目标是否达到软件质量控制的一种方法2.风险管理法,即识别与控制软件开发中对成功达到质量目标危害最大的哪些因素的系统性方法3.PDCA循环。这种方法发源于日本,是指计划plan,做do,检查check,和行动action1.

2、3信息化的需求:随着信息化的高速发展,各行各业,各组织单位积累了大量的业务数据,这些数据存在于各单位的数据库,各种报表、文档中,真可谓是数据的海洋。这些数据中蕴含着组织业务活动的大量规则,包含着组织管理决策所需要的重要知识,从这些数据中挖掘出有价值的信息,为管理决策提供支持是政府和企业事业单位共同面临的问题。解决这个问题主要依赖于亮相技术:一是对整个组织各部门生产的各种业务数据进行统一和综合,把业务数据转化为商业信息,支持决策,即数据仓库。二是发现隐藏在各种数据之中有用的知识,即数据挖掘。1.4以银行为案例的IT整体架构1.5数据仓库的定义Ø数据仓库系统是指面

3、向主题的、集成的、稳定的同时又是随时间变化的大量的数据集合。在综合使用一些应用软件下,用户获得想要的信息,最终为经营管理的决策提供有力的帮助Ø数据仓库系统的业务特征是业务需求的范围和内容,不像业务系统那样清晰和明确:系统建设的一个主要风险是体现在软件工程质量和串接方面存在较大的过程风险:系统建设的成功标准应该由应用系统的用户数及其使用频率作为重要参考依据。1.6数据仓库的建设过程的挑战如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设的生命线,把它贯穿于数据仓库建设整个过程的始终。那么质量控制的中心环节又是什么呢?简单而言,包括事前控制:对方案和计划

4、进行充分的咨询和论证;事中管理:对建设开发阶段进行持续不断的过程控制;事后控制:对于建设成果通过测试、评审、验收、试运行等方式进行面向结果的管理控制。1.7数据仓库的质量控制Ø关于数据仓库中的质量管理问题的研究,目前有几个主要的切入点:(1)从数据仓库的设计入手,简历适合全方位质量控制的体系结构(2)遵从生命周期观点,全过程控制数据仓库建设质量(3)按照数据仓库凶的工作机制和部件构成来制定质量控制标准数据仓库质量从本质上说是总体数据质量的问题。数据仓库的质量问题是一个主观的标准问题,不同层次的人员对数据仓库的质量有不同的要求,必须根据追求的目标来制定质量的测评

5、、预测标准并加以实现,才能真正达到质量控制的目的1.8数据仓库的精确定义上世纪80年代中期,“数据仓库之父”William.H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的数据集合。与其他数据库应用不同的是,数据仓库更像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种可以购买的产品。1.9数据仓库的特点1.9.1数据仓库是面向主题的主题是一个比较抽象的概念,是一种在较高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象

6、。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、统一、一致的描述,能完整及统一地描述出各个分析对象所设计的相关企业的分项数据,以及数据之间的联系1.9.2数据仓库是集成的全面而正确的数据是进行有效分析和决策的首要前提。在某一个主题的统帅下,需要对数据进行抽取、清晰、转换和加载等集成操作。因为:(1)数据仓库的数据不是直接从原有数据库系统复制得到,因为原有数据库系统记录的是每一项业务处理的流水账,这类数据不适合用于分析处理。在进入数据仓库之前必须经过综合计

7、算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。(2)数据仓库每一个主题所对应的源数据在原数据库中有可能有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量。显而易见的是,对不准确,甚至不正确的数据进行分析得出的结果将不能用于知道企业领导者做出科学的决策1.9.3数据仓库是相对稳定的操作型数据库中的数据通常实时更新,数据根据需要发生变化。数据仓库的数据主要供企业领导者决策分析之用,所涉及的数据操作主要是数据查询和分析,一旦某个数据进入数据操作主要是数据查询和分析,一旦某个数据进入数据仓库之后,一般情况下

8、将会被长期保留,也就是数据仓库中一般有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。