欢迎来到天天文库
浏览记录
ID:1428743
大小:562.00 KB
页数:4页
时间:2017-11-11
《第1章数据挖掘简介》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、Excel2007第1章数据挖掘简介第1章数据挖掘简介1.1数据挖掘的定义Dataminingistheprocessofseekinginterestingorvaluableinformationinlargedatabase.数据挖掘(data mining)是近年来数据库应用领域中相当热门的话题。数据挖掘一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、归纳与整合等工作,提取出有用的信息,例如趋势(trend)、模式(pattern)及相关性(relationship)等,并将其中有价值
2、的信息作为决策参考提供给决策者。通俗地说,数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(knowledge discovery indatabase,KDD),也有人称为数据考古学(dataarcheology)、数据模式分析(datapatternanalysis)或功能相依分析(functionaldependencyanalysis)。目前,数据挖掘已经成为数据库系统、机器学习、统计方法等多个学科相互交叉的重要领域,而在实务界,越来越多的企业开始认识到,实施数据挖掘可以为企业带来更多潜在的商业机会。但我们对数据挖掘应有
3、一个正确的认知:数据挖掘不是一个无所不能的魔法。数据挖掘的种种工具都是从数据中发掘出各种可能成立的“预言”,并对其潜在价值加以“估计”,但数据挖掘本身并不能在实际中查证和确认这些假设,也不能判断这些假设的实际价值。1.2数据挖掘的重要性现代企业经常会搜集大量的数据,这些数据涵盖了市场、客户、供货商,及其竞争对手等重要信息,但是由于信息超载与无结构化,企业的决策者无法充分利用这些庞大的数据资源,仅能使用其中的一小部分,这可能导致决策失误,甚至出现决策错误。而借助数据挖掘技术,企业完全有能力从浩瀚的数据海洋中,挖掘出全面而又有价值的信息
4、和知识,并作为决策支持之用,进而形成企业独有的竞争优势。1.3数据挖掘的功能一般而言,数据挖掘包括下列五项功能,这些功能大多为成熟的计量和统计分析方法。1.分类(classification)按照分析个体的属性状态分别加以区分,并建立类组(class)。例如,将信用申请者的风险等级分为高风险、中风险和低风险三类。使用的方法有决策树(decision tree)5Excel2007第1章数据挖掘简介、判别分析(discriminant analysis)、类神经网络(artificial neural network),以及记忆基础推
5、理(memory-basedreasoning)等。2.估计(estimation)根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值。例如,根据信用卡申请者的教育程度和从事职业来设定其信用额度。使用的方法有相关分析、Logistic回归及类神经网络等。3.预测(prediction)根据个体属性的已有观测值来估计该个体在某一属性上的预测值。例如,由顾客过去刷卡消费额预测其未来的刷卡消费额。使用的方法有回归分析、时间序列分析及类神经网络等。4.关联分组(affinitygrouping)从所有对象决定哪些相关对象应
6、该放在一起。例如,超市中相关的洗漱用品(牙刷、牙膏、牙线)放在同一货架上。在客户营销系统上,这类分析可以用来发现潜在的交叉销售(cross-selling)商品聚类,进而设计出有价值的组合商品集合。5.同质分组(clustering)将异质总体分成为同质性的类别(clusters),即聚类。其目的是识别出总体中所包含的混合类别的组间差异,并根据每个类别的特征对所有个体进行归类。同质分组相当于营销术语中的细分(segmentation)。应该注意的是:聚类分析根据数据自动产生各个类别,事先是不知道或无须知道总体中潜在的类别信息。使用的
7、方法有k-means等动态聚类法及agglomeration等层次聚类法。1.4数据挖掘的步骤数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响(蔡维欣,2003)。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地
8、跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。数据挖掘完整的步骤如下:①理解数据和数据的来源(understanding)。②获取相关知识与技术(acquisition)。③整合与检查数据(integrationand
此文档下载收益归作者所有