数据流概念漂移分类和挖掘研究综述

数据流概念漂移分类和挖掘研究综述

ID:10163241

大小:27.50 KB

页数:5页

时间:2018-06-12

数据流概念漂移分类和挖掘研究综述_第1页
数据流概念漂移分类和挖掘研究综述_第2页
数据流概念漂移分类和挖掘研究综述_第3页
数据流概念漂移分类和挖掘研究综述_第4页
数据流概念漂移分类和挖掘研究综述_第5页
资源描述:

《数据流概念漂移分类和挖掘研究综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据流概念漂移分类和挖掘研究综述  摘要:基于数据流概念漂移技术在机器学习和数据挖掘领域的重要性,文章首先阐述了数据流漂移概念的概念,接着综述了近年来数据流概念漂移处理方法的发展趋势,最后概括了数据流概念漂移挖掘和分类研究的现状。关键词:概念漂移;数据流;数据挖掘引言数据流概念漂移的研究在机器学习和数据挖掘领域的重要性与日俱增,并在处理途径方面取得了一定的成果,从2000年开始,数据流概念漂移分类研究进入了快速发展期,研究人员开始考虑更加接近实际状况的数据流概念漂移。从近年机器学习与数据挖掘领域的一些国际权威期刊和国际顶级会议上发表的论文来看,数据流概念漂移挖掘和分类研究

2、正日益成为学术界关注的焦点,对数据流概念漂移的研究已经开始与转移学习、进化计算、特征选择、聚类、时间复杂度分析、社会计算等结合起来。因此,从趋势上来讲,已有各种模式分类的理论和算法都可与概念漂移相结合而引出更多新的研究问题。1数据流概念漂移的概念及处理方式5某些文本的类别特征往往对它内部所包含的一些“隐性内容”具有很大的依赖性,这种现象通常被称为概念漂移。随着时间的向前推移,其中的这些隐性特征不断发生着细小隐蔽的变化,这些变化事先不易预知,事后也不易觉察,但是,当积累到一定程度时,却会导致整个目标概念发生变化。Schlimmer(1986)对概念漂移做出定义,认为其是环境

3、的隐藏性变化而导致目标概念发生变化的过程。许多真实学习任务的数据都是从某一特定的扩展时间段之内收集的,随着时间的推移,背景环境发生变化不仅会导致目标概念本身发生变化,还会引起数据集的分布发生变化。Lidmer(1993)把环境的隐藏性变化导致目标概念发生变化的过程称为真实概念漂移,把环境变化导致数据集分布发生变化的过程称为虚拟概念漂移,这两者可以同时发生,也可以只有虚拟概念漂移发生。数据流中的概念流可以通过以下三种方式进行处理:基于窗口的方法、基于重量的方法以及集成分类。基于窗口的方法是通过选择一个固定的或动态的滑动窗口构建一个分类模型,在分类精度的基础上调整窗口的大小(

4、Lee,2009)。在以重量为基础的方法上,每个训练实例被分配一个权重。最流行的演变技术来处理概念漂移的数据流是使用集成分类(分类器的组合),几个输出分类器的组合是用来确定最终的分类,这通常被称为融合规则。另外,在每个时间点的个体输出分类器上分配权重,权重通常为一个历史表现函数,通过使用交叉验证过去或估计的函数。52数据流概念漂移挖掘研究现状为了从大量来自真实世界的复杂数据中提取最有用的信息和知识,在过去十年,各种数据挖掘算法已经被提出和发展。Masud等(2011)建议在真正的标记新类型的实例之前应使用分类器来检测新的类别。为了确定每个个体是否属于某一新类型,其分类模型

5、有时需要收集更多的测试实例来发现数据之间的异同。Polikar(2011)也推出了可以渐进式学习流的分类器集合体,并命名为学习+NSE方法,通过当前和过去的环境动态加权多数表决技术结合这些分类可以调整各个分类时间的准确率。Song(2010)提出了一种基于关联规则的关联分类算法的数据流,其工作宗旨是发现各项集之间的关系,并从输入的数据集中提取一套完整的频繁模式。Surace(2008)应用了人体免疫系统拓宽的一般特性集和时间序列异常检测,其中系统或结构的正常状态可能会改变。Tsai(2007)提出了一个新的挖掘树规则概念流,被称为CDR-树的规则挖掘数据流的概念。CDR-

6、树能有效地提取决策中的每个数据块的分类模型。Haggett(2005)提出了包括神经探测器与动态预测编码为特定应用程序的属性提取系统,它在各种情况下都胜过专家的方法。Maloof(2003)针对使用动态加权多数性能变化问题,提出了一个为创建动态流概念和删除加权的集成方法,其通过培训网上学习者的综合能力以及基于所述集合的全局性能添加或移除的能力。53数据流概念漂移分类研究现状在数据挖掘和机器学习领域中的数据流分析和挖掘是一项具有挑战性的研究,它最近受到许多计算智能研究人员的关注(Holmes,2012)。数据流分类是提取知识和连续数据点信息的方法(Read,2010)。在数

7、据流中的数据是随着时间的推移所产生的,并且不能由任何预先定义的顺序来控制。一个数据流与传统的静态数据或数据库相比有非常多元化的特点,包括:动态、无限、高维、有序、不重复、高速和时变(Zliobaite,2009年)。大多数现有的数据挖掘技术不能检测及在数据流环境中进行分类(Qin,2007),因而现有的挖掘模型会将这些分类新实例与类标签弄错(Biswas,2004)。因此,这样的数据流分类需要不断更新和再培训通过在线数据流中标记新来的数据。5新类型检测数据流概念漂移是必需的,因为目标类的统计特性在不可预见的方式随时间而改变,并

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。