《数据选择》PPT课件

《数据选择》PPT课件

ID:36895237

大小:380.10 KB

页数:17页

时间:2019-05-10

《数据选择》PPT课件_第1页
《数据选择》PPT课件_第2页
《数据选择》PPT课件_第3页
《数据选择》PPT课件_第4页
《数据选择》PPT课件_第5页
资源描述:

《《数据选择》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1数据挖掘原理与SPSSClementine应用宝典元昌安主编邓 松 李文敬 刘海涛 编著电子工业出版社双击添加主标题第4章数据选择数据挖掘的对象选择建模数据构造建模数据集34.1数据挖掘的对象4.1.1数据库一个数据库系统也称为数据库管理系统(DBMS),由一些相关数据组成,并通过软件程序管理和存储这些数据。DBMS提供数据库结构定义,数据检索语言(SQL等),数据存储,并发、共享和分布式机制,数据访问授权等功能。关系数据库由表组成,每个表有一个唯一的表名,属性(列或域)集合组成表结构,表中数据按行存放,每一行称为一个记录。记录间通

2、过键值加以区别。关系表中的一些属性域描述了表间的联系,这种语义模型就是实体关系(ER)模型。关系数据库是当前最流行、最常见的数据库之一,为数据挖掘研究工作提供了丰富的数据源。44.1.1数据库目前研究的主要问题有:超大数据量。动态变化的数据。噪声。数据不完整。冗余信息。数据稀疏。54.1.2数据仓库数据仓库(DataWarehouse)的一个综合性的定义是:它是一个集成的,面向主题的、设计用语决策支持功能(DSF)的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。联机操作数据库系统的主要任务是执行联机事务和查询处理。

3、这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。64.1.2数据仓库OLTP处理一个行业或组织的日常操作所必须的数据。事务型数据库中的数据记录总是被多用户访问和不断更新。相反,数据存在于数据仓库中的部分原因是由于OLTP环境不再使用这些数据。大多数数据仓库中的数据是历史性的,有时间戳的,并且不再改变(只读)。粒度是一个用于描述存储信息的详细程度的术语。操作数据代表了最低的粒度,因为每个数据项包含一个单个事务的信息。数据仓库中数据的粒度是一个设计要点,它依赖于客

4、户的需要以及所采集数据的数量。74.1.2数据仓库数据仓库同时也可以看作是一个采集、存储、管理和分析数据的过程(Gardner,1998)。数据仓库最有效的数据挖掘工具是多维分析方法(MultidimensionalDataAnalysis),也称为联机分析处理(OLAP,OnlineAnalyticalProcessing)。下图显示了仓储过程的关键组件。外部数据依赖数据ETL例程(提取/变换/加载)数据仓库决策支持系统报告提取/汇总数据操作型数据库独立数据集市数据仓库过程模型84.1.3文本文本数据一般存放在文本数据库中。文本数据

5、库中存放的内容均为文字,这些文字并不是简单的关键词,而是长句、段落甚至全文,文本数据库多数为非结构化的,也有些是半结构化的(如,题录数据加全文、HTML、Email邮件等)。Web网页也是文本信息,把众多的Web网页组成数据库就是最大的文本数据库。94.1.3文本针对文本数据库的数据挖掘,内容包括:文本的主题特征提取文本分类文本聚类104.1.4Web信息Web数据挖掘是指从众多Web网站、网页上挖掘出有用数据和知识的过程。Web上的信息完全可以视为一个异构的数据库环境。对这些数据进行挖掘,首先解决站点之间异构数据的集成问题,为用户提

6、供一个统一的视角来看待Web资源。其次,对于集成的Web数据至少应提供两个方面的挖掘功能:网络信息与数据的查询;Web数据的分析处理和知识发现。114.1.4Web信息由于Web数据除了相互间异构外,大量的数据还是半结构、无结构的文本和多媒体信息,所以面向Web的数据挖掘远比关系数据库或数据仓库的数据挖掘复杂得多。目前迫切要解决的是构造一个模型(标准)来清晰地描述Web资源,开发适合Web资源的数据挖掘功能。124.1.5空间数据所谓空间数据挖掘就是指抽取空间关系知识,或其他没有在空间数据库明确存放的有意义的模式。空间数据库存放着大量

7、与空间相关的数据,例如地图、遥感数据或医疗图像数据、大规模集成电路设计数据等。空间数据包含空间属性和非空间属性,尽管有的空间属性经过处理可以转化为一般的属性要素参与分析。134.1.5空间数据空间数据挖掘可以帮助理解空间数据、发现空间关系和空间与非空间数据间关系、构造空间知识库、重组空间数据库,以及优化空间查询等。目前广泛应用与地理信息系统、地理市场、遥感、图像数据库探索、医疗成像、导航、交通控制、环保等许多其他利用空间数据的领域。144.2选择建模数据根据所构建模型类型的不同,需要的数据也不相同。选择建模数据,就要在相关领域和专家知

8、识的指导下,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据,亦即辨别出需要进行分析的数据集合,缩小挖掘范围,避免盲目搜索,提高数据挖掘的效率和质量。154.2选择建模数据以下是构建发现潜

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。