欢迎来到天天文库
浏览记录
ID:22779619
大小:50.00 KB
页数:5页
时间:2018-10-31
《非均衡数据分类算法若干应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、非均衡数据分类算法若干应用研究-->第1章绪论1.1引言随着计算机硬件技术和数据库技术的快速发展,各行各业积累了大量的数据,这些数据推动了工业自动化、互联网、物联网以及生物医学等新兴技术的快速发展。近年来,随着人类对海量数据研究的不断深入,对海量数据的处理逐步从原始的数据统计分析过渡到海量数据的知识发现,使得采用人工智能算法处理海量数据、进行数据分析,提取有用信息和发现新知识成为可能。知识发现一般被定义为从大量数据中提取可信的、新颖的、潜在的、有用的并能被人理解的知识的非平凡过程,其核心内容为数据挖掘。基于数据挖掘提取的知识一般可表示为概念、规则、模式和约束等。因此,从大量的
2、有用信息中获取有价值的和重要的知识,并利用这些知识成为信息科学研究的重要课题。数据挖掘技术作为数据库技术和机器学习的交叉学科,就是从大量的、有噪声的、随机的、模糊的和不完全的数据中,利用先进的人工智能算法,提取隐含的、事先未知的,但又潜在的有用的信息和知识的过程,近年来已得到社会和学术界的高度重视。如在2005年的国际人工智能会议(IJCAI’05)收录的文章中有近一半是与数据挖掘的研究相关。数据挖掘技术被广泛应用于工业自动化、经济和医学等诸多领域,已取得了很多成功的应用。随着新技术的不断涌现和数据挖掘理论研究的深入,分类器设计成为数据挖掘领域研究的一个热点问题。在数据挖掘中
3、,分类器设计属于预测分析范畴,它的基本功能为用训练集进行分类器模型学习,用测试集评估分类器模型的性能。在有监督学习过程中,通过在已知训练上采用分类算法进行学习,构造分类预测模型函数,再用测试集验证所得决策函数的准确率。其中比较有经典的分类模型主要有朴素贝叶斯分类算法、人工神经元网络(ArtificialNeuralNetpling)和过采样(Over-sampling)两种方法。欠采样技术主要包括随机欠采样多数类方法、近邻清理方法(NeighborhoodCleaningRule,NCR)、压缩最近邻(CondensedNearestNeighborrule,N)方法、单边选
4、择(One-SidedSelection,OSS)方法和Tomeklinks方法等,其主要目的是移除训练集中的多数类样本,此过程中存在可能将其中潜在的、有用的多数类样本移除,导致分类器性能降低现象。第2章相关技术传统机器学习算法在对数据进行分类时,通常采用总识率作为分类器的性能评估标准,导致预测结果偏向于多数类,而少数类样本则往往被忽略或视为噪声。然而,在实际生活中,少数类样本往往是人们非常关注的对象。但少数类样本自身的特点就是少数类样本数据十分匮乏,只从少数类样本自身出发,则很难总结出存在的规律。因此本章分别从非均衡数据重构、集成学习和对经典分类算法进行改进几个方法出发,对
5、非均衡数据分类问题进行研究。这里对非均衡数据分类问题用到的相关分类算法、非均衡数据处理方法和分类器性能评估方法等相关技术进行简单介绍。2.1误差反向传播神经网络算法误差反向传播神经网络是人工神经网络的重要模型之一,是由RumelhartDE等[58]在1986年提出的。该算法不仅具有良好的并行分布处理、非线性映射、泛化和容错能力强等优点,而且具有自学习、自组织、自适应等性能。目前,BPNN算法已广泛用于环境工程和工业自动化等诸多领域。该算法的网络拓扑结构主要包括输入层、隐含层和输出层,如图2.1所示。网络训练学习过程主要包括信号由输入层到输出层的正向传播和误差由输出层向输入层
6、的反向传播两阶段。一个基本的BPNN模型主要由一组代表神经元连接强度的权值、用于求取各输入信息的加权和的累加器和非线性传输函数三部分组成。在网络学习训练过程中,若输出层的实际输出与期望输出未达到预先给定的精度,则转入误差的反向传播阶段,进而修正各层之间的连接权值,最后找到一组使期望误差函数最小的连接权矩阵。BPNN算法是目前神经网络中应用最广的一种网络,已经成功地解决了许多领域的实际问题。2.2基于最小分类错误率贝叶斯决策Bayesian统计分析源于英国学者BayesTR在1973年的一篇文章提到的贝叶斯公式和推理方法。在数据挖掘中,主要采用朴素贝叶斯方法和Bayesian网
7、络。其中朴素贝叶斯方法主要用贝叶斯公式进行预测。而Bayesian-->网络则是描述数据变量之间关系的图形模型,是一个带有概率
此文档下载收益归作者所有