欢迎来到天天文库
浏览记录
ID:19983524
大小:196.50 KB
页数:5页
时间:2018-10-08
《数据挖掘复习资料》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、1.3支持数据挖掘技术的基础 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:--海量数据搜集--强大的多处理器计算机--数据挖掘算法 当前数据挖掘研究的主要方向数据挖掘研究的发展方向 新的应用领域 WEB访问分析
2、 入侵检测 生物信息学 … 新的工作形式 流数据分析 隐私保护 … 新的数据类型 文本数据 图数据 XML数据 … 数据挖掘的进一步深入数据挖掘的技术定义定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程. 定义所包含的意义: —数据源必须是真实的、大量的、含噪声的; —发现的是用户感兴趣的知识; —发现的知识要可接受、可理解、可运用; —这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值. 简而言之,数据挖掘其实是一类深层次的数据分析方法.数据分析本身已
3、经有很多年的历史,只不过在过去数据收集和分析的目的更多是用于科学研究.另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制. 数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法.1、数据准备 数据准备又可分为三个子步骤: —数据选取(确定发现任务的操作对象,即目标对象) —数据预处理(包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等) —数据变换(消减数据维数或降维) 2、数据挖掘阶段 —确定开采的任务,如数据总结、分类、聚类、关联规则发
4、现或序列模式发现等. —决定使用什么样的开采算法. 3、结果解释和评价 数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用. KDD(knowledgediscoveryindata)是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序. 数据挖掘的质量取决于两方面的影响: 一、所采用的数据挖掘技术的有效性; 二、用于挖掘的数据的质量数量(数据量的大小) 如果选择了错误的数据或不恰当的属性,或对数据进行了不恰当的转换,则挖掘的结果是不会好的. 是从机器学习/人工智能,模式识别,统计学,和数据库系统中提
5、取的概念(数据挖掘是一门交叉学科) 传统的技术方法可能 不在适用,因为: “海量”数据 高维数据 异类的,分布式的数据 数据挖掘的对象1、关系数据库 —数据挖掘用于关系数据库时,可以进一步搜索趋势或数据模式 —数据挖掘系统也可以检测偏差,如在商业营运中,与以前的年份相比,哪种商品的销售出人预料。这种偏差可以进一步考察,例如;包装是否有变化,或价格是否大幅度提高. —关系数据库是数据挖掘最流行、最丰富的数据源,因此它是我们数据挖掘研究的主要数据形式. 2、数据仓库 —数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新
6、的、随时间变化的、分层次的多维的集成数据集合。它为不同层次的管理者提供敏捷性和实用性的决策支持。数据仓库是一个环境,而不是一件产品。 注:数据库是按一定组织方式存储在计算机存储器中相互关联的数据集合,数据库的建立独立于程序。 数据仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指从在线交易系统OLTP(On-LineTransactionalProcessing)所得来的数据。将这些整合过的数据置放于数据仓储中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策
7、略性信息是整个数据仓储的重点。 综上所述,数据仓储应该具有这些数据:整合性数据(integrateddata)、详细和汇总性的数据(detailedandsummarizeddata)、历史数据、解释数据的数据。从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用DataMining的最大目的,两者的本质与过程是两码子事。换句话说,数据仓储应先行建立完成,Datamining才能有效率的进行,因为数据仓储本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为「DataMining是
此文档下载收益归作者所有