异构平台的数据仓库与数据开采技术

异构平台的数据仓库与数据开采技术

ID:23393124

大小:51.50 KB

页数:5页

时间:2018-11-07

异构平台的数据仓库与数据开采技术_第1页
异构平台的数据仓库与数据开采技术_第2页
异构平台的数据仓库与数据开采技术_第3页
异构平台的数据仓库与数据开采技术_第4页
异构平台的数据仓库与数据开采技术_第5页
资源描述:

《异构平台的数据仓库与数据开采技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、异构平台的数据仓库与数据开采技术>>教育资源库  概念和结构  ----数据仓库的经典概念由P(对称多处理)、NUMA(非均匀存储存取)SMP簇或者MMP(大规模并行处理)体系,利用并行处理器将单个查询分为多个子任务并将它们分布到多个处理器上执行,从而提高查询的响应速度。因此,从数据仓库的运行环境来看,它是运行在一个异构平台上。  ----异构技术  ----实现数据源中的数据向数据仓库的集成需要解决两个问题:提取和格式转换。对于从异构数据库中提取数据大多采用开放式数据库互连(ODBC),ODBC是一种用来在数据库系统之间存取数据的标准应用程

2、序接口,目前流行的数据库管理系统都提供了相应的ODBC驱动程序,它使数据库系统具有很好的开放性,数据格式转换也很方便。另一种提取数据的方法是针对不同的数据库系统编写专用的嵌C接口程序,这样可提高数据的提取速度。例如,Stanford大学的S数据库及over、MicrosoftSQLServer7的DTS和Oracle的OpenGateiddot;数据开采  ----数据开采(DM)又称数据挖掘,是应用特定的发现算法,从大量数据中搜索或产生一个感兴趣的模式或数据集。  ----数据开采过程分为三个步骤:数据准备、开采和表述。在解决实际问题时,经

3、常要同时使用多种模式。一个数据开采系统或仅仅一个数据开采查询就可能生成成千上万的模式,但是并非所有的模式都令人感兴趣。一个重要的概念,兴趣度(Interestingness),通常被用来衡量模式的总体价值,它包括正确性(Validity)、新奇性(Novelty)、可用性(Usefulness)和简洁性(Simplicity)。  ----数据开采工具还要求具有开放性,它的开放性体现在两个方面:能与各种数据源集成,分析结果是通用的或易于转化的。数据开采工具相互差别很大,这不仅体现在关键技术上,还体现在运行平台、数据存取和价格等方面。从运行平台

4、来看,简单的工具可运行在PC的DOS或Windoiddot;数据仓库与数据开采的结合  ----数据仓库和数据开采是作为两种独立的信息技术出现的。数据仓库是不同于数据库的数据组织和存储技术,它从数据库技术发展而来并为决策服务,通过OLAP工具验证用户的假设;数据开采是通过对文件系统和数据库中的数据进行分析,获得具有一定可信度知识的算法和技术。它们从不同侧面完成对决策过程的支持,相互间有一定的内在联系。因此,将它们集成到一个系统中,形成基于数据开采的OLAP工具,可以更加有效地提高决策支持能力。  ----数据开采与数据库报表工具的区别在于后者

5、是将数据库中的某些数据抽取出12下一页>>>>这篇文章来自..,。来,经过一些数学运算,最终以特定的格式呈现给用户,而前者则是对数据背后隐藏的特征和趋势进行分析,最终给出关于数据的总体特征和发展趋势。  ----数据开采不一定需要建立在数据仓库基础上,但以数据仓库为基础,对于数据开采来说源数据的预处理将简化许多;另外,为了保证结果的正确性,数据开采对基础数据量的需求是巨大的,数据仓库可以很好地满足这个要求。  实例:DM3_D3_D3的基础上,研制的一个具有自主版权的数据仓库系统,包括数据仓库管理系统和联机分析处理工具(OLAP)。  ---

6、-DM3_D(SemiStructuredDataModel),来表示所有的数据,数据源和数据仓库之间按SSDM格式传送数据,并在此基础上构造了查询语言SDQL(SemiStructuredDataQueryLanguage)。  ----DM3_D格式向集成器报告;捆绑器执行集成器SDQL格式的查询语句,完成实化视图的初始化和增量式维护。  ----2实现了实化视图和对实化视图的增量式维护,使数据仓库和数据源724小时工作。扩充SQL语言功能,满足实化视图的需要。  ----实化视图的定义分两类:基本视图和导出视图。基本视图只涉及选择-投影

7、-连接SPJ三种关系操作,不包含子查询和聚集操作;导出视图只能由基本视图产生,可以包含子查询和聚集操作。如图2所示,V1、V2、V3是基本视图,V4、V5是导出视图。实化视图的增量式维护只维护基本视图,导出视图由数据仓库统一维护,这样做的优点是减轻了视图维护复杂度。  ----DM3_Seeker数据开采工具  ----DM3_D3_Seeker采用基于关联规则的开采算法,包括顺序算法、并行和分布式开采算法以及增量式更新和维护算法,是一个集成的关联规则开采工具。DM3_Seeker可运行在Windo3_Seeker产生决策知识,决策数据与决策

8、知识相互作用,合起来成为决策信息,进一步提高了决策支持能力。决策过程如图3所示。上一页12>>>>这篇文章来自..,。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。