资源描述:
《数据挖掘部分作业答案》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一、概述数据挖掘概念:数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规则的过程.数据仓库:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据立方体:允许以多维对数据建模和观察.由维和事实组成.其中事实是数值的度量.分类:就是通过学习获得一个目标函数f,将每个属性集x映射到一个预先定义好的类标号y.分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例.用元组(X,y)表示,其中,X是属性集合,y是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性).信息检索:信息检
2、索(InformationRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(InformationSearch或InformationSeek)。知识发现(KDD):知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。OLAP:OLAP是针对特定问题的联机数据访问和分析.通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的实的“维”)的很多可能的观察形式进
3、行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察.维:是人们观察数据的特定角度.企业常常关心产品销售随着时间推移而产生的变化的情况,这时企业是从时间的角度来观察产品的销售,所以时间就是一个维(时间维).企业也常常关心自己的产品在不同地区的销售分布情况,这时企业是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维).上卷:--通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,也称为聚合操作.下卷:--是上钻的逆操作.它由不太详细的数据到更详细的数据.钻取可以通过沿维的概念分层向下或引入新的维来实现.切片:--设有(维
4、1,维2,…,维i,…,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,…,维i成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维I,…,维n,观察变量)在维i上的一个切片.切块:--将完整的数据立方体切取一部分数据而得到的新的数据立方体.在(维1,维2,…,维i,…,维k,…,维n,观察变量)多维数据集上,对维i,…,维k,选定了维成员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维k,…,维n,观察变量)在维i,…,维k上的一个切块.二、简述1、KDD的主要过程KDD过
5、程是多个步骤相互连接、反复进行人机交互的过程。主要包括以下步骤: 1.问题的理解和定义:数据挖掘人员与领域专家合作.对问题进行深入的分析.以确定可能的解决途径和对学习结果的评测方法。 2.相关数据收集和提取:根据问题的定义收集有关的数据。在数据提取过程中,可以利用数据库的查询功能以加快数据的提取速度。 3.数据探索和清理:了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。 4.数据工程:对数据进行再加工.主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转
6、换以适于学习算法等。为了使数据与任务达到最佳的匹配.这个步骤可能反复多次。 5.算法选择:根据数据和所要解决的问题选择合适的数据挖掘算法.并决定如何在这些数据上使用该算法。 6.运行数据挖掘算法:根据选定的数据挖掘算法对经过处理后的数据进行模式提取。 7.结果的评价:对学习结果的评价依赖于需要解决的问题.由领域专家对发现的模式的新颖性和有效性进行评价。数据挖掘是KDD过程的一个基本步骤.它包括特定的从数据库中发现模式的挖掘算法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。2、
7、操作数据库系统与数据仓库的区别 OLTP和 OLAP的主要区别概述如下: 用户和系统的面向性:OLTP 是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP 是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。 数据内容:OLTP 系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。 数据库设计:通常,OLTP 系统采用实体-联系(ER)模型和面向应用的数据库设计。而 OLAP 系
8、统通常采用