欢迎来到天天文库
浏览记录
ID:33497065
大小:290.23 KB
页数:6页
时间:2019-02-26
《数据挖掘领域抽样技术运用中的难题》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、38数据挖掘领域抽样技术运用中的难题中国首都经济贸易大学统计学院朱梅红一、引言20世纪80年代末和90年代初,随着信息技术的发展,数据的存取更加方便,很多领域都积累了大量的数据,形成了大规模的数据库或数据仓库。人们需要从这些大量的数据中提取或“挖掘”有用的知识,从而促成了数据挖掘(DataMining,DM)技术的诞生。数据挖掘是集统计学、数据库、信息科学、机器学习、可视化等多种学科的一门交叉学科,主要任务是发现数据中隐含的模型或模式。具体来说,包含分类或预测、聚类、关联分析、序列模式发现、孤立点探测等。在模型或模式发现过程中,由于数据规模过于庞大
2、,为使算法得以运行或提高运算效率,人们往往针对抽样数据进行挖掘,因而也广泛应用了抽样技术。数据挖掘中的抽样技术继承并发展了统计学领域的抽样技术,经过十几年的发展,数据挖掘领域的抽样技术日臻成熟,但仍有许多难题需要解决。本文首先分析数据挖掘领域抽样技术运用中的一些难题,然后指出其未来的研究和发展方向。二、数据挖掘领域抽样技术运用中的难题在数据挖掘过程中运用抽样技术时,主要有四个难题:一是抽样误差的定义与测度,二是样本量的确定,三是抽样效果与效率的衡量,四是抽样程序的设计。而前三个问题都与抽样的方式有关,所以这里先介绍一下数据挖掘中的抽样方式,然后对各
3、个难题逐个分析。(一)数据挖掘中常用的抽样方式数据挖掘中常用的抽样方式如图1所示。3232007年中日经济统计学国际会议论文集图1数据挖掘中常用的抽样方式1.静态(Static)抽样静态抽样也称单阶段抽样或一次性抽样,是根据估计的精确性、可靠性等要求,计算一个固定的样本量,所有的后续分析只针对一次性抽取的这个样本而展开。数据挖掘中运用的静态抽样方式都来自于统计抽样调查领域,主要有:简单随机抽样、分层抽样、系统抽样等。该抽样方式一般在数据挖掘算法执行之前进行,适合各类挖掘任务。其中,简单随机抽样可以在任何地方单独使用,但往往包含在其他复杂抽样形式中;
4、分层抽样在分类问题中运用普遍,其中简单和加权分层抽样都得以运用。静态抽样实施比较方便,但问题是人们不知道抽出的样本是否能够较好地代表总体。2.动态(Dynamic)抽样动态抽样指需要经过两次或更多次抽样才能达到最终要求,抽样过程是与算法的执行过程和推断交互进行的。它直接利用挖掘工具,能及时提供样本与总体接近程度的信息,而不是问接地考虑样本的统计特性。在动态抽样方式下,决策者或使用者能够在算法效率和模型精确度之间及时作出抉择。数据挖掘中常用的动态抽样技术有序贯抽样和累进抽样,这些都可以称为适应性(Adaptive)抽样。序贯(Sequential)抽
5、样和相应的序贯分析是A.Wald于20世纪40年代提出来的,最早用于产品的抽样检验(序贯检验),后来发展成为数理统计学的一个分支。这种方式是序贯地抽取样本点,可以是一个接一个地(onebyone)抽取也可以是一批接一批地(blockbyblock)抽取,根据前面已经抽取的样本点组成的样本来判断样本是否符合要求。如果符合就停止抽样,否则就继续抽取。平均米说,序贯抽样的样本量比简单随机抽样要小。序贯抽样是数据挖掘中最早使用的适应性抽样方法,主要用于关联规则挖掘和聚类分析。累进(Progressive)抽样是Provost等人于1999年第一次提出的新的
6、抽样方式。它是从一个较小的样本开始,然后按一定规则不断地增加样本含量,对每个样本都要计算相应的模型精确度,直到模型精确度不再有明显改善为止,这时的样本量就认为是最理想的样本量n。i。。样本大小与相应的模型精确度的关系通常用学习曲线(LearningCurve)刻画。数据挖掘中学习曲线的一般形状如图2。累进抽样易于理解和接受,适于各类问题的挖掘,很多研究已经显示了其优越32438数据挖掘领域抽样技术运用中的难题iTrainingsetsize图2数据挖掘中学习曲线的一般形状性。但由于实际数据的复杂性,学习曲线的形状是多种多样的,很难用统一的模型来刻画
7、。在解决具体问题时,可能经过多次累进抽样仍达不到最优,增加了计算负担,达不到抽样的目的;有时还可能抽取的样本量实际超过拐点时的样本量,造成不必要的浪费。动态抽样的共同特点是运用逼近的思想,使模型逐步接近优化,逐步地逼近总体的正确结果。但动态抽样程序复杂,不同方案的挖掘效率和挖掘结果也会有较大差别。设计一个好的方案涉及很多困难和问题,如果方案设计不当,不仅达不到提高算法挖掘效率的目的,还可能会影响算法的效果即模型的精确性。(二)数据挖掘中抽样误差的定义与测度数据挖掘中运用样本资料主要进行总体模型(或模式)的估计。抽样误差(对应模型或模式的精确度)是指
8、样本模型(或模式)与总体模型(或模式)的差别。在数据挖掘中,抽样误差的研究主要集中在动态抽样中。抽样误差主要有两种测度方法
此文档下载收益归作者所有